Hopp til innhold

Målfrid 2023 – Fritt tilgjengelege tekster frå norske statlege nettsider

Dette korpuset inneheld dokument frå 525 internettdomene tilknytta norske statlege institusjonar. Totalt består materialet av omlag 3,5 milliardar «tokens» (ord og teiknsetting). I tillegg til tekster på bokmål og nynorsk inneheld korpuset tekster på nordsamisk, lulesamisk, sørsamisk og engelsk.

Dataa vart samla inn som ein lekk i Målfrid-prosjektet, der Nasjonalbiblioteket på vegner av Kulturdepartementet og i samarbeid med Språkrådet haustar og aggregerer tekstdata for å dokumentere bruken av bokmål og nynorsk hjå statlege institusjonar.

Språkbanken føretok ei fokusert hausting av nettsidene til dei aktuelle institusjonane mellom desember 2022 og januar 2023. Tekstdokument (HTML, DOC(X)/ODT og PDF) vart lasta ned rekursivt frå dei ulike domena, 12 nivå ned på nettsidene. Me tok ålmenne høflegheitsomsyn og respekterte robots.txt.

For teknisk informasjon, sjå dokumentasjonsfilene.

Dette korpuset inneheld dokument frå 525 internettdomene tilknytta norske statlege institusjonar. Totalt består materialet av omlag 3,5 milliardar «tokens» (ord og teiknsetting). I tillegg til tekster på bokmål og nynorsk inneheld korpuset tekster på nordsamisk, lulesamisk, sørsamisk og engelsk.

Dataa vart samla inn som ein lekk i Målfrid-prosjektet, der Nasjonalbiblioteket på vegner av Kulturdepartementet og i samarbeid med Språkrådet haustar og aggregerer tekstdata for å dokumentere bruken av bokmål og nynorsk hjå statlege institusjonar.

Språkbanken føretok ei fokusert hausting av nettsidene til dei aktuelle institusjonane mellom desember 2022 og januar 2023. Tekstdokument (HTML, DOC(X)/ODT og PDF) vart lasta ned rekursivt frå dei ulike domena, 12 nivå ned på nettsidene. Me tok ålmenne høflegheitsomsyn og respekterte robots.txt.

For teknisk informasjon, sjå dokumentasjonsfilene.

Utvidet metadata

Last ned ressurser

Last ned metadata