Ga direct naar: Inhoud
-
Blog

“Is God een persoon?” – Vragen en keuzes bij het transcriberen van oorlogsbrieven

Gepubliceerd op 05 april 2023
De laatste decennia worden steeds meer historische bronnen gedigitaliseerd. Het digitaliseren van tekstbronnen bestaat niet alleen uit het maken van een scan, maar ook uit het machine-leesbaar maken van de tekst in de bron. Tegenwoordig hoeft de tekst daarvoor niet meer handmatig worden overgetypt, maar zijn er verschillende technieken beschikbaar die op basis van kunstmatige intelligentie tekst op een foto kunnen omzetten naar computertekst. OCR-technologie (Optical Character Recognition) wordt gebruikt voor het op grote schaal transcriberen van gedrukte en getypte tekst (denk aan boeken en kranten). De laatste jaren zijn computers ook getraind in het herkennen van handgeschreven tekst. Deze technologie wordt HTR genoemd (Handwritten Text Recognition).
-
Voorbeeld van een HTR-transcript in Transkribus

Als onderdeel van het project ‘Oorlog uit Eerste Hand’ zijn we in oktober 2022 begonnen met een crowd sourcing pilot waarin een groep vrijwilligers meewerkt aan het transcriberen en annoteren van de brieven. Het doel van deze pilot is het onderzoeken van de mogelijkheden om vrijwilligers te laten bijdragen aan de digitalisering van oorlogsbrieven.

Het NIOD heeft veel ervaring met 'crowd sourcing' : in eerdere projecten, zoals ‘Papieren Getuigen’ en ‘Adopteer een dagboek’ werkten grote groepen vrijwilligers mee met het overtypen van papieren documenten uit het NIOD-archief. Wij hebben er in ‘Oorlog uit Eerste Hand’ bewust voor gekozen om met een klein groepje vrijwilligers te werken, om hen goed te kunnen begeleiden en hen andersom ook de mogelijkheid te geven om actief mee te denken over de aanpak van het project. De vrijwilligers helpen met het transcriberen van de tekst in de brieven en het annoteren van metadata.

Metadata wordt vaak gedefinieerd als ‘data over data’. Metadata bestaat uit steekwoorden die informatie geven over het materiaal waaraan het verbonden is en de inhoud van een document samenvatten. Door metadata aan te bieden kunnen onderzoekers en geïnteresseerden gemakkelijker door de documenten bladeren. In ons project creëren vrijwilligers metadata door locaties (b.v. ‘Herengracht’), personen (b.v. ‘Eli Fresco’), geopolitieke entiteiten (b.v. ‘Duitsland’), organisaties (b.v. ‘N.S.B.’) en datums (b.v. ’17 september 1944’) een label te geven, die makkelijk kunnen worden teruggevonden. Voor het annoteren hebben we een aantal richtlijnen opgesteld, gebaseerd op inzichten uit literatuur over metadata. Een belangrijk uitgangspunt dat in veel literatuur over metadata terugkomt, is dat de medewerkers die gegevens uit de bronnen halen die gegevens niet zelf mogen interpreteren. Tegenstrijdigheden moeten daarbij worden bewaard. Vrijwilligers hoeven niet te beslissen over bijvoorbeeld variërende schrijfwijzen van namen; deze worden gewoon van het origineel overgenomen in de metadata (b.v. ‘Duitschland’ in oude spelling, of ‘Bokstel’ als schrijffout).

Uit onze pilot blijkt echter dat deze rigide lijn in de praktijk moeilijk te handhaven is bij het annoteren van informatie in een verzameling egodocumenten, zoals de oorlogsbrievencollectie. De manier waarop schrijvers van de brieven situaties, plaatsen, momenten in de tijd en andere personen beschreven in hun brieven en de woorden die zij daarvoor gebruikten, zijn heel persoonlijk en anders dan in bijvoorbeeld kranten of politieke documenten. Een briefschrijver kan over een persoon schrijven door te refereren aan diens naam, maar ook door te schrijven over ‘mijn vader’. Een plaats kan letterlijk genoemd worden, maar een schrijver kan het ook hebben over ‘thuis’ of ‘bij opa en oma’.

Deze gegevens of entiteiten in de tekst zijn op zichzelf niet herleidbaar tot een concrete plaats of persoon. Binnen de brieven zit ook ontzettend veel variatie: tussen brieven van verschillende schrijvers, maar ook de manier waarop een schrijver refereert aan een bepaalde persoon, datum of locatie kan (over tijd) variëren. De richtlijnen die we van tevoren hadden opgesteld, bleken niet altijd toepasbaar. Zo kregen we van één van de vrijwilligers de vraag of hij ‘God’ moest labelen als ‘persoon’. Onze richtlijn was dat een persoon identificeerbaar moest zijn, maar dat is bij ‘God’ niet zo duidelijk. De vrijwilliger in kwestie moest hier een keuze maken en dus de bron interpreteren. Metadata is geen bestaande informatie die alleen maar gevonden moet worden, maar metadata wordt gecreëerd en gevormd op het moment dat het verzameld wordt.

In mailwisselingen met de betrokken vrijwilligers bespraken verschillende projectmedewerkers vanuit hun eigen expertise zowel technische en materiële aspecten van het project, als inhoudelijke en archief-wetenschappelijke facetten. Met één van de vrijwilligers wisselden we ideeën uit over de vraag of de brief van de veertienjarige Jan Tax onder begeleiding van een volwassene geschreven was of niet. Jan Tax werd in 1945 vanwege de Hongerwinter vanuit Amsterdam naar Gaast geëvacueerd. De vraag of hij begeleid is tijdens het schrijven, is een relevante vraag: bevat deze brief het perspectief van een kind in oorlogstijd, of dat van een volwassene dat alleen is opgeschreven door een veertienjarige? Omdat deze vrijwilliger ook met brieven van volwassenen in de directe omgeving van Jan Tax werkte, kon hij deze met elkaar vergelijken en goed onderbouwd met ons meedenken. Dankzij deze gedachtewisseling en de specifieke kennis van de casus van de vrijwilliger, kunnen we aannemen dat Jan Tax deze brieven zelf geschreven en geformuleerd heeft.

-
Brief van Jan Tax aan zijn ouders van 13 januari 1945

Eigenlijk doen de begrippen ‘crowd- sourcing’ en ‘vrijwilliger’ de mensen die in ‘Oorlog uit Eerste Hand’ vrijwillig meewerken aan het genereren van transcripten tekort. De vrijwilligers in deze pilot hebben zich daadwerkelijk ontwikkeld tot citizen scientists (burgerwetenschappers). Citizen scientists zijn de enigen die systematisch bronnencollecties doorwerken zonder onderzoeksvraag. Ze ontwikkelen zich tot kenners van vele facetten en details van één of enkele specifieke bronnencollectie(s). Daarmee bieden ze een uniek perspectief op de bronnen dat complementair is aan dat van de archivaris en de historicus. 

Tijdens de campagneweek ‘Postbus NIOD’ (31/3/23 – 07/04/23) roepen we iedereen op nog ‘onontdekte’ oorlogsbrieven te doneren aan het NIOD. U krijgt er van ons een digitale kopie voor terug. Voor aanmelding en voorwaarden, zie Postbus NIOD.

Deze blog is geschreven door stagiair Muriël Bouman.

Deel deze pagina
Schrijf u in voor onze nieuwsbrief
Volg ons op
NIOD
Herengracht 380
1016 CJ Amsterdam
020 52 33 800
Openingstijden studiezaal
  • Di - Vr09:00 - 17:30 u
  • Gesloten op maandag