Wat is scrapen?
Scrapen is een computertechniek waarbij software wordt gebruikt om informatie van webpagina’s te extraheren en al dan niet te analyseren.
Simpel gezegd: door middel van scrapen kan je sneller en makkelijker data en informatie van een website plukken.
Waarom zou je het wel of niet doen?
Het is een snellere manier om data te verzamelen. Hiermee kan je dus veel tijd besparen, zeker als het om grote datasets gaat.
Voordelen:
- Het werkt sneller en praktischer. Je hoeft niet alles te copy-pasten en handmatig in te vullen.
- Je kan data van verschillende websites makkelijk vergelijken en samenvoegen, kijk bijvoorbeeld naar vergelijkingssites van vliegtickets of verzekeringen.
- Het is minder gevoelig voor typfouten, mits de juiste informatie is opgevraagd.
Nadelen:
- Doordat je alles automatisch doet, vind ik persoonlijk dat je het ‘eigen gevoel’ met de data mist. Bijvoorbeeld bij het verhaal over ADO Den Haag vond ik het heerlijk om de uitslagen terug te zien, het roept direct herinneringen op en je haalt er bijzondere wedstrijden direct uit. Als je alles automatisch doet, zie je de bijzondere uitslagen over het hoofd omdat je enkel gefocust bent op de data en dat deze goed wordt opgeslagen.
- Voor iedere website moet je een eigen manier vinden om de data te scrapen. Dit kan zijn door een script te schrijven of een tool te gebruiken. Hiervoor heb je verstand nodig van programmeren en die heb ik nauwelijks.
Is het legaal?
Het is niet altijd duidelijk of het legaal of illegaal is. Het is eerder onkies dan dat het verboden is. Websites staan het vaak toe als het om persoonlijke of academische redenen gebeurt en het binnen de perken blijft.
Het is wel illegaal als er copyright op een site of database berust. Het is dus altijd verstandig om van te voren goed te checken of de site ermee akkoord gaat.
Dan is natuurlijk de belangrijkste vraag: hoe werkt het?
Scrapen kan aan de hand van een heel aantal verschillende tools. In de Nieuwe Reporter tipte redacteur Jerry Vermanen de volgende tools die het makkelijkst in gebruik zijn:
- Kimono
- Import.io
Hoe werken deze tools?
Kimono is sinds 2016 gestopt met bestaan en samengevoegd bij Palantir en kan dus niet meer worden gebruikt om data te scrapen.
Import.io is sinds enkele jaren een betaalde service geworden en dus als student bijna onmogelijk om te gebruiken.
Daarnaast is er nog de Scraper plug-in voor Chrome. Deze kopieert gemakkelijk tabellen en lijsten naar een spreadsheet. Echter is het nagenoeg altijd mogelijk om deze vanuit websites gewoon handmatig te kopiëren in een Excel, dus lijkt deze tool mij overbodig.
De ingewikkelde tools:
In het artikel van De Nieuwe Reporter en mijn eigen bezochte workshop over datajournalistiek op TILT Live komen onder andere Python, Outwit Hub en ScraperWiki naar voren.
Deze tools werken meer met programmeertaal. Je schrijft een eigen script op basis van de HTML van de website die je wilt scrapen om zo de juiste informatie te verkrijgen. Om zo’n script te schrijven heb je een technische achtergrond nodig. Die heb ik niet. Het zou zeer veel tijd kosten om mezelf dat aan te leren of om cursussen te gaan volgen.
Dan is de vraag: in hoeverre wil ik dit leren?
Momenteel heb ik geen plannen voor een groot data-onderzoek waar veel scrape-werk voor nodig is. Is het dan de moeite waard om mezelf wegwijs te maken in deze scrape-tools? Voor mij persoonlijk denk ik dat het op dit moment niet de moeite is. Ondanks dat de data-onderzoeken die ik dit semester heb gedaan flink wat tijd vergden, vond ik het fijn om ze handmatig uit te voeren. Zo heb ik voor mezelf het idee dat ik bezig ben met iets wat ik leuk vind en iets wat ik graag wil uitzoeken. Elke keer als ik een stukje van de data heb verzameld of heb ingevoegd, heb ik het idee dat ik dichter bij het resultaat kom.
Het heeft mij veel tijd gekost om de data-onderzoeken uit te voeren, maar ik denk dat het minstens evenveel tijd gekost zou hebben om het programmeren en script schrijven aan te leren. En aangezien ik data-onderzoeken op deze schaal handmatig kán uitvoeren, vind ik het voor mezelf niet nodig om mezelf verder in het scrapen te verdiepen. Later in de opleiding of bij een uiteindelijke baan kan ik dit nog altijd doen, mocht het dan van toegevoegde waarde zijn of om een uitzonderlijk grote dataset gaan.
Bij de grootste valkuilen voor het scrapen wordt een moraal van het verhaal meegegeven: doe het goed of doe het niet (zelf). En daar sluit ik mij als journalist volledig bij aan.
Wat heb ik hiervan geleerd?
- Ik weet nu hoe scrapen werkt en wat de basis is;
- Ik heb geleerd dat het erg arbeidsintensief is om scrapen te leren, zeker als je geen programmeer-achtergrond hebt;
- Ik heb geleerd dat ik het zelf fijner vindt om datasets handmatig te maken om zo de feeling met de data te behouden.
Bronnen:
TILT Live 2019 – Nick Dierckx (fhj.nl)
Vijf tools voor journalisten om te scrapen – De Nieuwe Reporter
De 5 meest voorkomende valkuilen als je zelf een web scraper bouwt – Inspect Element
Data verzamelen met web scraping – Van Ons (van-ons.nl)
Het toepassen van web scraping: niets is (soms) wat het lijkt (tottadatalab.nl)