Hopp til innhold

Taggede bokmålstekster fra NBdigital

Dette korpuset inneholder 4.807 morfologisk taggede bokmålstekster fra NBs korpus av tekster som har falt i det fri eller ikke er beskyttet av opphavsrett. Alle tekstene er publisert etter 1960.

Tekstene er blitt automatisk tagget med Oslo-Bergen-taggeren (se http://www.tekstlab.uio.no/obt-ny/), og statistisk disambiguert. Dette skulle tilsi en nøyaktighet på 96,5 %. Samtidig må det tas hensyn til at tekstene er skannet og OCR-lest automatisk (gjennomsnittlig treffsikkerhet for denne samlingen ligger på cirka 90%), slik at nøyaktigheten jevnt over sannsynligvis er betydelig lavere.

Dataene er lagret som en xml-fil per tekst/bok, med en veldig enkel xml-struktur. Se dokumentasjonsfilen for et eksempel.

Dette korpuset inneholder 4.807 morfologisk taggede bokmålstekster fra NBs korpus av tekster som har falt i det fri eller ikke er beskyttet av opphavsrett. Alle tekstene er publisert etter 1960.

Tekstene er blitt automatisk tagget med Oslo-Bergen-taggeren (se http://www.tekstlab.uio.no/obt-ny/), og statistisk disambiguert. Dette skulle tilsi en nøyaktighet på 96,5 %. Samtidig må det tas hensyn til at tekstene er skannet og OCR-lest automatisk (gjennomsnittlig treffsikkerhet for denne samlingen ligger på cirka 90%), slik at nøyaktigheten jevnt over sannsynligvis er betydelig lavere.

Dataene er lagret som en xml-fil per tekst/bok, med en veldig enkel xml-struktur. Se dokumentasjonsfilen for et eksempel.

Utvidet metadata

Last ned ressurser

Last ned metadata