Sakspapir frå nynorskkommunar

Tekstene i dette korpuset er samla inn med crawleren Veidemann i samarbeid med Nettarkivet på Nasjonalbiblioteket, basert på ei omarbeidd liste over kommunar frå Landssamanslutninga av nynorskkommunar (lnk.no).

Ein crawler er ein robot som følgjer hyperlenkjer på nettet og lastar ned nye nettsider han finn. For dette korpuset vart Veidemann satt til å laste ned dokument i publiseringsformat som pdf. Lista Veidemann har teke som utgangspunkt, har leidd han til sakspapir på websidene til dei ulike kommunane.

Den resulterande samlinga med dokument er så skanna ved hjelp av Googles optiske teiknattkjennings-api. Sjølv om OCR-lesinga gjennomgåande er god, vil det finnast feillesingar. Det endelege korpuset er sett saman av 50.000 dokument, og inneheld totalt omlag 127 millionar ord. Ca. 88,5 millionar av desse er på nynorsk, resten er stort sett på bokmål. Alle tekstene i korpuset er klassifiserte etter språk.

Korpuset er i denne omgangen publisert som eit json-objekt, der nøkkelen er ein identifikator (URN) for Veidemann-nedlastinga og verdien er ei liste av lister over sidene i dokumentet med tilhøyrande sidetal og målform. Det ligg òg ved ei liste over URN-ane i korpuset. Desse URN-ane syner vidare til nettsida (URL-en) som dokumentet vart lasta ned frå.

Dei originale pdf-filene og ocr-formatet er tilgjengelege på førespurnad til Språkbanken. Kontakt oss på e-post til sprakbanken@nb.no.

Utvidet metadata

resource Common Info:
resource Type: corpus
identification Info:
resource Name: Legal Documents from Norwegian Nynorsk Municipialities
resource Name: Sakspapir frå nynorskkommunar
description: The texts in this corpus have been collected with the web crawler Veidemann in collaboration with the National Library's Web Archive, based on a revised list of municipalities from the National Association of Nynorsk Municipalities (see lnk.no). The web crawler was set to download documents in pdf format. The resulting collection of documents was then scanned using Google's OCR API. Although the OCR generally is of high quality, some errors will remain in the material. The resulting corpus is made up of 50,000 documents (legal documents, minutes from meetings etc.), and contains a total of some 127 million words. About 88.5 million of these are in Norwegian Nynorsk, the rest is mostly Norwegian Bokmål. All the texts in the corpus are classified by language. The corpus is currently published as a json object, where the key is an identifier (URN) for the Veidemann download, and the value is a list of lists of pages in the document with associated page numbers and target form. A text file is also provided, containing a list of the URNs in the corpus. These URNs refer to the websites (URLs) from which the individual documents were downloaded. The original pdf files and the OCR format are available upon request to Språkbanken. Please contact us using or e-mail address, sprakbanken@nb.no.
description: Tekstene i dette korpuset er samla inn med crawleren Veidemann i samarbeid med Nettarkivet på Nasjonalbiblioteket, basert på ei omarbeidd liste over kommunar frå Landssamanslutninga av nynorskkommunar (lnk.no). Ein crawler er ein robot som følgjer hyperlenkjer på nettet og lastar ned nye nettsider han finn. For dette korpuset vart Veidemann satt til å laste ned dokument i publiseringsformat som pdf. Lista Veidemann har teke som utgangspunkt, har leidd han til sakspapir på websidene til dei ulike kommunane. Den resulterande samlinga med dokument er så skanna ved hjelp av Googles optiske teiknattkjennings-api. Sjølv om OCR-lesinga gjennomgåande er god, vil det finnast feillesingar. Det endelege korpuset er sett saman av 50.000 dokument, og inneheld totalt omlag 127 millionar ord. Ca. 88,5 millionar av desse er på nynorsk, resten er stort sett på bokmål. Alle tekstene i korpuset er klassifiserte etter språk. Korpuset er i denne omgangen publisert som eit json-objekt, der nøkkelen er ein identifikator (URN) for Veidemann-nedlastinga og verdien er ei liste av lister over sidene i dokumentet med tilhøyrande sidetal og målform. Det ligg òg ved ei liste over URN-ane i korpuset. Desse URN-ane syner vidare til nettsida (URL-en) som dokumentet vart lasta ned frå. Dei originale pdf-filene og ocr-formatet er tilgjengelege på førespurnad til Språkbanken. Kontakt oss på e-post til sprakbanken@nb.no.
url: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-60/
P I D: hdl:21.11146/60
identifier: sbr-60
distribution Info:
licence Info:
user Category: Public
distribution Access Medium: downloadable
download Location: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-60/
licence:
licence Family: Creative Commons (CC)
licence Name: Creative_Commons-ZERO (CC-ZERO)
licence Url: https://creativecommons.org/publicdomain/zero/1.0/
licensor:
actor Info:
actor Type: organization
role: Licensor
organization Info:
organization Name: National Library of Norway
organization Name: Nasjonalbiblioteket
organization Short Name: NLN
organization Short Name: NB
department Name: The Language Bank
department Name: Språkbanken
communication Info:
email: sprakbanken@nb.no
url: https://www.nb.no/sprakbanken/
address: P.O. Box 2674 Solli
zip Code: 0203
city: Oslo
region: Oslo
country: Norway
distribution Rights Holder
- actor Info:
- actor Type: organization
- role: Distribution Rights Holder
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
contact
- actor Info:
- actor Type: organization
- role: Contact
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
metadata Info:
metadata Creation Date: 04.12.2020
metadata Language Name: English
metadata Language Id: en
metadata Last Date Updated: 07.08.2023
metadata Creator
- actor Info:
- actor Type: person
- role: Metadata Creator
- person Info:
- surname: Lindstad
- given Name: Arne Martinus
- affiliation:
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
version Info:
version: 0.1
last Date Updated: 04.12.2020
validation Info:
validated: true
validation Type: content
validation Mode: automatic
validation Mode Details: OCR (Google's OCR API), Language Classification (pytextcat and models from Giellatekno)
validation Extent: full
validator:
actor Info:
actor Type: person
role: Resource Validator
person Info:
surname: Kåsen
given Name: Andre
affiliation:
organization Info:
organization Name: National Library of Norway
organization Name: Nasjonalbiblioteket
organization Short Name: NLN
organization Short Name: NB
department Name: The Language Bank
department Name: Språkbanken
communication Info:
email: sprakbanken@nb.no
url: https://www.nb.no/sprakbanken/
address: P.O. Box 2674 Solli
zip Code: 0203
city: Oslo
region: Oslo
country: Norway
resource Documentation Info:
resource Creation Info:
creation Start Date: 16.10.2019
creation End Date: 04.12.2020
resource Creator
- actor Info:
- actor Type: person
- role: Resource Creator
- person Info:
- surname: Kåsen
- given Name: Andre
- affiliation:
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- actor Info:
- actor Type: organization
- role: Resource Creator
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: Web Archive
- department Name: Nettarkivet

corpus Info:
corpus Type: Written Corpus
corpus Part Info:
media Type: text
corpus Text Info:
text Format Info:
mime Type: application/json
size Per Text Format:
size Info:
size: 127476046
size Unit: words
size Info:
size: 50000
size Unit: texts
character Encoding Info:
character Encoding: UTF-8
corpus Part General Info:
linguality Info:
linguality Type: multilingual
multilinguality Type: multilingualSingleText
multilinguality Type Details: Texts in Norwegian Nynorsk and Norwegian Bokmål
language Info:
language Id: nn
language Name: Norwegian Nynorsk
size Per Language:
size Info:
size: 88500000
size Unit: words
language Info:
language Id: nb
language Name: Norwegian Bokmål
size Per Language:
size Info:
size: 38500000
size Unit: words
modality Info:
modality Type: writtenLanguage
size Per Modality:
size Info:
size: 127476046
size Unit: words
size Info:
size: 127476046
size Unit: words
time Coverage Info:
time Coverage: 2010-2020

Last ned ressurser

sakspapir_nno_01.tar.gz

Last ned metadata

Last ned metadata https://www.nb.no/sprakbanken/oai?verb=GetRecord&identifier=oai:nb.no:sbr-60&metadataPrefix=cmdi

dc:type	corpus
dc:title	Sakspapir frå nynorskkommunar
dc:identifier	oai:nb.no:sbr-60
dc:description	Tekstene i dette korpuset er samla inn med crawleren Veidemann i samarbeid med Nettarkivet på Nasjonalbiblioteket, basert på ei omarbeidd liste over kommunar frå Landssamanslutninga av nynorskkommunar (lnk.no). Ein crawler er ein robot som følgjer hyperlenkjer på nettet og lastar ned nye nettsider han finn. For dette korpuset vart Veidemann satt til å laste ned dokument i publiseringsformat som pdf. Lista Veidemann har teke som utgangspunkt, har leidd han til sakspapir på websidene til dei ulike kommunane. Den resulterande samlinga med dokument er så skanna ved hjelp av Googles optiske teiknattkjennings-api. Sjølv om OCR-lesinga gjennomgåande er god, vil det finnast feillesingar. Det endelege korpuset er sett saman av 50.000 dokument, og inneheld totalt omlag 127 millionar ord. Ca. 88,5 millionar av desse er på nynorsk, resten er stort sett på bokmål. Alle tekstene i korpuset er klassifiserte etter språk. Korpuset er i denne omgangen publisert som eit json-objekt, der nøkkelen er ein identifikator (URN) for Veidemann-nedlastinga og verdien er ei liste av lister over sidene i dokumentet med tilhøyrande sidetal og målform. Det ligg òg ved ei liste over URN-ane i korpuset. Desse URN-ane syner vidare til nettsida (URL-en) som dokumentet vart lasta ned frå. Dei originale pdf-filene og ocr-formatet er tilgjengelege på førespurnad til Språkbanken. Kontakt oss på e-post til sprakbanken@nb.no.
dc:publisher
dc:format	downloadable
dc:date	2019-10-16
dc:date	2020-12-04
dc:rights	Public
dc:rights	Creative Commons (CC)
dc:rights	Creative_Commons-ZERO (CC-ZERO)
dc:rights	https://creativecommons.org/publicdomain/zero/1.0/
dc:creator	Andre Kåsen
dc:creator	National Library of Norway
dc:lang	nynorsk
dc:lang	bokmål

Sakspapir frå nynorskkommunar

Utvidet metadata

Resource Common Info

Corpus Info

Dublin Core (DC)

Last ned ressurser

Last ned metadata