Tekstgjenkjenning (OCR/HTR)
Ressurser fra NB i Transkribus
Nasjonalbiblioteket bruker programmet Transkribus til maskinassistert håndskriftsgjenkjenning. Nasjonalbiblioteket har utviklet modellen NorHand 1820-1940 , som er åpen tilgjengelig for alle.
For norsk trykt materiale anbefaler vi NorPrint (id 115693). Denne egner seg for trykt tekst etter ca 1800.
For eldre trykt materiale kan man bruke NorFraktur (id 40982). Denne er trent på materiale fra 1600-tallet.
For trykt materiale på samiske språk har vi laget SamiskOCR (id 179305). Les mer om vårt arbeid med å trene OCR-modeller for samisk i artikkelen Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway
Treningsdata og modeller
Våre treningsdata for håndskrevet materiale er tilgjengelig på Zenodo.
Vi har publisert TrOCR-modeller for håndskrift og for samisk på HuggingFace.
Ta kontakt med dh-lab@nb.no ved behov for veiledning.