Tekstgjenkjenning (OCR/HTR)

Utsnitt av håndskrevet tekst.
Illustrasjon brev, håndskrift, håndskrevet tekst. Foto: Nasjonalbiblioteket

Ressurser fra NB i Transkribus

Nasjonalbiblioteket bruker programmet Transkribus til maskinassistert håndskriftsgjenkjenning. Nasjonalbiblioteket har utviklet modellen NorHand 1820-1940 , som er åpen tilgjengelig for alle.

For norsk trykt materiale anbefaler vi NorPrint (id 115693). Denne egner seg for trykt tekst etter ca 1800.

For eldre trykt materiale kan man bruke NorFraktur (id 40982). Denne er trent på materiale fra 1600-tallet.

For trykt materiale på samiske språk har vi laget SamiskOCR (id 179305). Les mer om vårt arbeid med å trene OCR-modeller for samisk i artikkelen Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway

Treningsdata og modeller

Våre treningsdata for håndskrevet materiale er tilgjengelig på Zenodo.

Vi har publisert TrOCR-modeller for håndskrift og for samisk på HuggingFace.

Ta kontakt med dh-lab@nb.no ved behov for veiledning.

Brev fra Sigrid Undset til Andrea Forsberg transkribert i Transkibus.