Ga direct naar: Inhoud
-
Blog

Het transcriberen en annoteren van oorlogsbrieven. Hoe kan het ons helpen en wat gaat er verloren?

Gepubliceerd op 07 februari 2022
In juli 2020 ging het project 'Oorlog uit Eerste Hand: Oorlogsbrieven (1935-1950) van NIOD digitaal' van start. Het doel: de omvangrijke collectie oorlogsbrieven die het NIOD de afgelopen decennia heeft verzameld, digitaliseren en 'dataficeren' om de collectie bruikbaar te maken voor digitale onderzoeksmethodieken. Ondertussen is het eerste doel bereikt en zijn alle 200.000 stukken gescand. Het team is nu begonnen aan het tweede gedeelte: het transcriberen en annoteren van het materiaal. Tess Schijvenaars, research master student aan de Universiteit Utrecht, mocht vorig jaar het pad vrijmaken door te onderzoeken hoe je dit soort historische documenten kunt dataficeren, wat er tijdens dit proces verloren gaat en hoe het tegelijkertijd een berg aan nieuwe onderzoeksmogelijkheden met zich meebrengt. In deze blogpost schrijft ze over haar onderzoek en bevindingen.

Oorlogsbrieven van de Kleinrock familie

Als onderdeel van het vak Research Seminar worden studenten van de onderzoeksmaster Geschiedenis aan de Universiteit Utrecht verdeeld over een aantal onderzoeksprojecten uit de praktijk met als doel om de studenten een kijkje in de keuken van historisch onderzoek te geven. Ik sloot aan bij het NIOD project en ging aan de slag met een collectie van 26 oorlogsbrieven, allemaal geadresseerd aan leden van de Kleinrock familie. Deze Joodse familie woonde ten tijde van de Tweede Wereldoorlog in Wenen, Oostenrijk. De familie werd door de nazi’s opgepakt en naar verschillende werk- en concentratiekampen in Europa getransporteerd. Niemand van hen heeft de oorlog overleefd.

Hoe kan dit tragische verhaal, vastgelegd in de 26 brieven, worden vertaald naar data? Kunnen 'gedataficeerde' versies van deze brieven iets toevoegen aan historisch onderzoek en zijn er elementen die verloren gaan tijdens het proces? Dit zijn de vragen waar ik mee aan de slag ben gegaan.

Transcriberen en annoteren

Dataficering is het omzetten van ongestructureerde tekst, zoals brieven, naar gestructureerde data. We brengen structuur aan door bijvoorbeeld informatie over de schrijver, of de datum en plaats van schrijven vast te stellen (annoteren) in de brief. Hiermee worden de gedigitaliseerde archiefstukken geschikt voor data-analyse met de computer en zijn ze beter vindbaar en doorzoekbaar voor onderzoekers. De twee stappen die ik heb doorlopen om de brieven te dataficeren zijn het transcriberen van de brieven en vervolgens het annoteren met structurele en tekstuele metadata met behulp van Transkribus.

Transkribus is software, ontwikkeld door de Universiteit van Innsbruck, die door middel van artificial intelligence en handwritten text recognition historische documenten (geschreven of getypt) kan lezen en automatisch kan transcriberen.

-
Voorbeeld van transcriptie van een oorlogsbrief in Transkribus

Naast automatisch transcriberen, kun je met Transkribus historische documenten ook voorzien van annotaties door structurele en tekstuele metadata toe te voegen. Metadata wordt vaak omschreven als data over data. Het beschrijft de eigenschappen van een bepaald document. Oorlogsbrieven bevatten bijvoorbeeld vaak een datum, afschrift en aanhef en zijn onderverdeeld in een aantal paragrafen. Ze volgen en omschrijven een bepaalde structuur. Dit noemen we dan ook structurele metadata.

-
Voorbeeld van structurele metadata van een oorlogsbrief in Transkribus

Je kunt ook bepaalde termen en woorden in de tekst zelf als metadata beschouwen. Tekstuele metadata beschrijft de semantische eigenschappen van een tekst. Binnen de context van het oorlogsbrieven project zijn bijvoorbeeld persoonsnamen, plaatsnamen en familienamen belangrijke termen die vaak in de brieven worden vermeld. Maar denk ook aan onderstreepte of schuingedrukte woorden. Dit zijn allemaal eigenschappen van de tekst die ertoe doen en kunnen worden geannoteerd.

-
Voorbeeld van tekstuele metadata van een oorlogsbrief in Transkribus

Toegevoegde waarde?

Wat kan dataficering van oorlogsbrieven, en in het bijzonder de Kleinrock brievencollectie, ons brengen? Welke elementen gaan verloren in het proces en welke verborgen structuren worden onthuld?

Allereerst heb ik een model gemaakt van de structurele en tekstuele annotaties die ik heb gebruikt voor alle 26 oorlogsbrieven. Dit ‘metamodel’ kan potentieel functioneren als een gecontroleerd vocabulaire en worden toegepast op andere oorlogsbrievencollecties om deze beter te ontsluiten en omschrijven.

Verder kan een gedataficeerde versie van de Kleinrock oorlogsbrieven een startpunt vormen voor verder onderzoek. Via annotaties en metadata tags zijn elementen zoals plaatsnamen, datums en personen vastgelegd in bijvoorbeeld Excel en XML-bestanden. Deze bestanden kunnen worden gebruikt om visualisaties te maken van de weg die de verschillende leden van de Kleinrock familie hebben afgelegd tijdens de oorlog. Welk lid van de Kleinrock familie was waar en wanneer? Ook kunnen tekstuele tags zoals persoonsnamen en namen van organisaties worden gebruikt om het verhaal van de Kleinrock familie te linken aan andere oorlogsbronnen en collecties, waardoor het een onderdeel wordt van een grotere overkoepelende geschiedenis.

Er gaan echter ook veel elementen verloren tijdens het dataficatie-proces. Het is bijvoorbeeld niet mogelijk om de volledige tekst en context van de brieven te reconstrueren met enkel en alleen de metadata. Elementen van bijvoorbeeld zinsopbouw, toon en emotionele ladingen van de tekst gaan potentieel verloren. Maar denk ook aan het materiaal waarop een brief is geschreven, de textuur van het papier en de geur van het document; dit ontbreek bij de gedataficeerde brief.

Dataficatie van historische documenten heeft grote potentie maar is niet de heilige graal. Kwantitatieve onderzoeksmethodes kunnen verborgen structuren en links blootleggen, maar kwalitatieve methodes zoals discourse analysis en close reading geven vervolgens betekenis aan deze structuren en links. Het een sluit het ander echter niet uit. De rijkste historische interpretaties komen voort uit een combinatie van beiden.

Deel deze pagina
Schrijf u in voor onze nieuwsbrief
Volg ons op
NIOD
Herengracht 380
1016 CJ Amsterdam
020 52 33 800
Openingstijden studiezaal
  • Di - Vr09:00 - 17:30 u
  • Gesloten op maandag