9 november 2016

Pilotproject Volautomatische Archiefontsluiting afgerond.

De mogelijkheid om te Googelen door archiefdocumenten is dichterbij dan verwacht. Dat blijkt uit het eindrapport van het project Full Automatic Archival Access (FAAA) of Volautomatische Archiefontsluiting. Daarin is onderzocht in hoeverre nieuwe digitale technieken ingezet kunnen worden om archieven digitaal en op documentniveau doorzoekbaar te maken. Vier van de vijf woorden zijn juist herkend door de OCR- en NER-software. 

Foto: Een voorbeeld van een hybride document, met zowel gedrukte als handgeschreven tekst (bron: NIOD)

Casus is een kleine selectie uit het Centraal Archief Bijzondere Rechtspleging (CABR; Nationaal Archief) geweest. Projectpartners Netwerk Oorlogsbronnen, Centre for Language and Speech Technology, Nationaal Archief en IMPACT Centre of Competence zijn blij verrast met het resultaat. 

In de pilot is 81% van de woorden in de testdocumenten juist herkend door software. Dat betekent dat het voor een bepaald soort getypte of hybride tekstdocumenten met een reguliere lay-out mogelijk is om ze – met een acceptabele foutmarge – automatisch, digitaal doorzoekbaar te maken. Een reguliere lay-out wil zeggen rechte regels, regelmatige inktdikte en duidelijk contrast tussen tekst en achtergrond.

Het project Volautomatische Archiefontsluiting bestond uit twee stappen. Eerst zijn de circa honderd documenten uit het CABR door middel van Optical Character Recognition (OCR)-software machine leesbaar gemaakt. Vervolgens kreeg de OCR-tekst een kwaliteitsverbetering door gebruik van Named Entity Recognition (NER)-software. Deze software selecteert plaatsnamen, personen en organisaties en verbetert ze waar nodig. 

Een sprong voorwaarts in de toegankelijkheid van archieven, die momenteel vooral op collectie of sub-collectie niveau doorzoekbaar zijn en vrijwel nooit op document niveau. Programmadirecteur Netwerk Oorlogsbronnen Puck Huitsing: “Het automatisch digitaal doorzoekbaar maken van archieven biedt veel nieuwe mogelijkheden voor onderzoekers. Historische collecties kunnen bevraagd worden op een manier die in de papieren wereld niet mogelijk is”. 

Het project Volautomatische Archiefontsluiting is mogelijk gemaakt door Archief2020, BRAIN, VSBFonds, VFonds en het Ministerie van VWS. Het eindrapport en de deelrapporten zijn gepubliceerd via de website van Netwerk Oorlogsbronnen: http://oorlogsbronnen.nl/volauto. De projectresultaten zijn in oktober gepresenteerd tijdens de succesvolle studiedag ‘Googelen door archieven’. Lees hier een verslag: http://bit.ly/Verslag13okt16

Organisaties

Het Nationaal Archief in Den Haag beheert de archieven van de landelijke overheid, maar ook van maatschappelijke organisaties en individuele personen die van nationaal belang zijn (geweest). Daarnaast beschikt het Nationaal Archief over een grote collectie foto's en historische kaarten. 

Netwerk Oorlogsbronnen (NOB) wordt gefaciliteerd door het NIOD Instituut voor Oorlogs-, Holocaust- en Genocidestudies. Dit programma wil het gebruik van bronnen over en uit de Tweede Wereldoorlog in Nederland stimuleren door de verspreide bronnen digitaal beter vindbaar en bruikbaar te maken. 

The Centre for Language and Speech Technology (CLST) van de Radboud Universiteit Nijmegen draagt bij aan de ontwikkeling van taal- en spraaktechnologie. CLST is actief in onderzoek, applicatieontwikkeling en consultancy.

Het Spaanse IMPACT Centre of Competence bestaat uit zowel publieke als private organisaties. Haar missie is om de digitalisering van historische gedrukte tekst beter, sneller en goedkoper te maken.