‘Bedolven onder bronnen’
Bram Mellink (UvA) en Kees Ribbens (NIOD/EUR)
Sinds enkele jaren vindt grootschalige digitalisering van tekstcorpora plaats. Google Scholar, ebooks en websites zoals Library Generator zorgen voor een snelle en eenvoudige beschikbaarheid van gedigitaliseerde vakliteratuur. In online toegankelijke handschriftcollecties, kranten- en tijdschriftdatabases in binnen- en buitenland is veel materiaal beschikbaar gekomen. Hoewel veel historici in de praktijk dankbaar gebruik maken van de nieuwe mogelijkheden die deze digitalisering biedt, wordt op de diepere implicaties daarvan voor ons vakgebied eigenlijk maar weinig gezamenlijk gereflecteerd. Wat betekent het gegeven dat grote tekstcorpora, meestal full-text doorzoekbaar, beschikbaar worden gesteld? Wat zijn de consequenties voor representativiteit en ‘behapbaarheid’ van onderzoek? Wat zijn de mogelijkheden en beperkingen van digitale onderzoeksmethoden in historisch onderzoek?
Discussies over dit vraagstuk hebben zich vooralsnog voornamelijk gericht op de belofte van big data: geautomatiseerde patroonherkenning door de computer op basis van grote hoeveelheden gedigitaliseerd bronnenmateriaal. Hoewel deze methode bij sterk gestructureerde data (zoals de databases van Twitter, Facebook of Linkedin) mogelijkheden biedt, zijn wij over de toepasbaarheid van deze methode op historisch bronnenmateriaal zoals kranten, tijdschriften of Handelingen der Staten-Generaal aanmerkelijk sceptischer. De informatie in deze bronnen is beduidend minder gestructureerd en veel sterker contextafhankelijk, de structuur van het bronnenmateriaal verschilt per tijdvak en de hoeveelheid gedigitaliseerd materiaal levert an sich al sterke beperkingen op voor grootschalige data-analyse. In plaats daarvan vragen wij aandacht voor de grote mogelijkheden die digitale onderzoeksmethoden bieden op heuristisch terrein: als verkennend instrument zijn zij voor de historicus van zeer grote waarde.
Twee ontwikkelingen zijn in dit verband in het bijzonder van belang: de full text doorzoekbaarheid van bronnen en de invloed van metadata: de categorisering van bronnenmateriaal, bijvoorbeeld door toevoeging van krantentitel, datum, uitgever, enz. De volledige doorzoekbaarheid van bronnen op tekstueel niveau (t.a.v. illustraties zijn de mogelijkheden aanmerkelijk beperkter) biedt historici de mogelijkheid om, op basis van zoektermen, specifieke historische gebeurtenissen te traceren in een breed tekstencorpus. Waar het vroeger veelal noodzakelijk was om ófwel slechts een of enkele krantentitels systematisch te bestuderen of te werken met specifiek peildata, biedt het zoeken met behulp van zoektermen de mogelijkheid om over aanmerkelijk lange perioden te zoeken in meerdere kranten tegelijkertijd. Daar komt bij dat de toevoeging van metadata de mogelijkheid biedt om het bronnenmateriaal op allerlei verschillende manieren te rangschikken, wat een flexibeler omgang met de bronnen betekent. Tegelijkertijd levert het zoeken aan de hand van zoektermen belemmeringen op: het gebruik van zoektermen leidt gemakkelijk tot blikvernauwing, omdat de exacte concepten die worden ingevoerd van grote invloed zijn op het materiaal dat wordt gevonden. Naast grote mogelijkheden biedt digitaal onderzoek daardoor ook duidelijke beperkingen maar kan het evenzeer tot inspirerende reflectie leiden .
In onze beoogde workshop voor het KNHG-THATcamp willen we, op basis van bovenstaande overwegingen, een discussie op gang brengen over de vraag wat historici van digitale zoekmachines en de digitalisering van bronnenmateriaal (zouden moeten) verwachten. Momenteel wordt op zeer veel verschillende niveaus aan digitalisering gewerkt. De Koninklijke Bibliotheek lanceerde vorige maand de bètaversie van de kranten- en tijdschriftenzoekmachine Delpher, NWO financierde in het afgelopen jaar verschillende grootschalige digitaliseringsprojecten, aan de UvA wordt een Digital Humanities Center opgericht en op regionaal en lokaal niveau worden archiefstukken en kranten op steeds grotere schaal gedigitaliseerd en ontsloten. Vaste standaarden voor digitalisering ontbreken echter, waardoor de doorzoekbaarheid van bronnen en de functionaliteit van de diverse zoekmachines sterk verschilt. Daarnaast dringt zich de vraag op aan welke functionaliteit historici zelf behoefte hebben, en in hoeverre dergelijke wensen een plaats kunnen krijgen in de verdere ontwikkeling van software op dit terrein. De workshop wil op dit gebied een eerste aanzet tot discussie leveren.