Wat is webscraping?

Webscraping is het proces waarbij gestructureerde webgegevens op een geautomatiseerde manier worden verzameld. Het wordt ook wel webgegevensextractie genoemd. Webscraping bestaat al heel lang en in zijn goede vorm is het een belangrijke onderbouwing van internet. Denk aan het opslaan van productafbeeldingen, attributen, bedrijfsgegevens, prijsmonitoring (hotelprijzen, huurruimte, productprijzen etc), prijsinformatie, nieuwsmonitoring en meer.

Extractie van webgegevens wordt gebruikt door mensen en bedrijven die gebruik willen maken van de enorme hoeveelheid openbaar beschikbare webgegevens

Als je ooit informatie van een website hebt gekopieerd en geplakt, heb je dezelfde functie uitgevoerd als elke webschraper, alleen op een microscopische, handmatige schaal

is het illegaal om een ​​website te schrapen?

Webscraping en crawling zijn op zich niet illegaal. Je zou immers je eigen website kunnen scrapen of crawlen, voor testdoeleinden. Big companies use web scrapers for their own gain but also don't want others to use bots against them. Er zijn talloze rechtszaken over webscraling.

  • In 2001 klaagde een reisbureau een concurrent aan die zijn prijzen van zijn website had "geschrapt" om de rivaal te helpen zijn eigen prijzen vast te stellen. De rechter oordeelde dat het feit dat dit schrapen niet werd verwelkomd door de eigenaar van de site niet voldoende was om het "ongeautoriseerde toegang" te maken in het kader van federale hackwetten.
  • In de zomer van 2017 klaagde LinkedIn hiQ Labs aan, een startup uit San Francisco. hiQ schraapte openbaar beschikbare LinkedIn-profielen om klanten, volgens zijn website, "een glazen bol te bieden die je maanden van tevoren helpt bij het bepalen van vaardigheidstekorten of omzetrisico's." Misschien vindt u het verontrustend om te denken dat uw openbare LinkedIn-profiel door uw werkgever tegen u kan worden gebruikt. Toch besloot een rechter op 14 augustus 2017 dat dit oké is. Rechter Edward Chen van de Amerikaanse districtsrechtbank in San Francisco was het eens met de bewering van hiQ in een rechtszaak dat LinkedIn, eigendom van Microsoft, de antitrustwetten schond toen het de startup de toegang tot dergelijke gegevens blokkeerde. Hij gaf LinkedIn de opdracht om de barrières binnen 24 uur weg te nemen. LinkedIn heeft beroep aangetekend.
  • Andrew Auernheimer werd veroordeeld voor hacking op basis van webscraping. Hoewel de gegevens onbeschermd waren en openbaar beschikbaar waren via de website van AT&T, kwam het feit dat hij webschrapers schreef om die gegevens massaal te verzamelen neer op een "brute force-aanval". Hij hoefde niet in te stemmen met de servicevoorwaarden om zijn bots in te zetten en het webschrapen uit te voeren. De gegevens waren niet beschikbaar voor aankoop. Het zat niet achter een login. Hij had zelfs geen financieel voordeel bij de aggregatie van de gegevens. Het belangrijkste was dat het programma met fouten door AT&T deze informatie in de eerste plaats blootlegde. Toch had Andrew de schuld. Dit is niet alleen een civiele procedure meer. Deze aanklacht is een misdrijfovertreding die vergelijkbaar is met hacking of denial of service-aanvallen en er staat een gevangenisstraf van maximaal 15 jaar op voor elke aanklacht.

Conclusie

Terwijl de rechtbanken verder proberen te beslissen over de wettigheid van scraping, worden bij bedrijven nog steeds gegevens gestolen en wordt de bedrijfslogica van hun websites misbruikt. In plaats van naar de wet te kijken om dit technologieprobleem uiteindelijk op te lossen, is het tijd om het vandaag op te lossen met antibot- en anti-scrapingtechnologie.

We doen webscraping uitsluitend op verantwoordelijkheid van de klant. We kunnen ook anti-bot, anti-crawling, door de vereiste informatie voor bezoekers alleen beschikbaar te maken na een sessie-login, of verificatiecode maken. Er zijn verschillende andere manieren om te voorkomen dat een bot gegevens crawlt.