Hopp til innhold

OCR-modeller for samiske språk

Dette er en samling av modeller for OCR (optical character recognition) av samiske språk. Disse kan brukes til å gjenkjenne tekst i bilder av trykt tekst (scannede bøker, magasiner, o.l) på nordsamisk, sørsamisk, lulesamisk og inaresamisk.

Mer detaljert informasjon om trening og evaluering av modellene kan du lese i artikkelen ‘Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway’, se https://arxiv.org/abs/2501.07300.

Samlingen består tre forskjellige typer modeller: Transkribus-modeller, Tesseract-modeller og TrOCR-modeller.

Se dokumentasjonsfilen for mer informasjon.

Dette er en samling av modeller for OCR (optical character recognition) av samiske språk. Disse kan brukes til å gjenkjenne tekst i bilder av trykt tekst (scannede bøker, magasiner, o.l) på nordsamisk, sørsamisk, lulesamisk og inaresamisk.

Mer detaljert informasjon om trening og evaluering av modellene kan du lese i artikkelen ‘Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway’, se https://arxiv.org/abs/2501.07300.

Samlingen består tre forskjellige typer modeller: Transkribus-modeller, Tesseract-modeller og TrOCR-modeller.

Se dokumentasjonsfilen for mer informasjon.

Utvidet metadata

Last ned ressurser

Last ned metadata