Stortingskorpuset 2.0

Dette er versjon 2.0 av Stortingskorpuset (engelsk forkorting NPSC). I versjon 2.0 er det gjort ein del større endringar i transkripsjonane, i tillegg er nokre påviste feil i korpuset blitt retta. Endringane er beskrevne i detalj i dokumentasjonen. (Versjon 1.1 er framleis tilgjengeleg, søk på «sbr-58» i søkjefeltet i katalogen.)

Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av møte i Stortinget, ortografisk transkriberte til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkluderte i korpuset. Opptaka utgjer 140 timar med tale frå i alt 267 ulike talarar, og inneheld 65.000 setningar og 1,2 millionar ord.

Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. For å sikre konsistens og nøyaktigheit, er alle transkripsjonane korrekturlesne.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Dei individuelle lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå 2017 og 2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene er ganske store, finst det òg individuelle lydfiler for kvar enkelt setning.

Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Utvidet metadata

resource Common Info:
resource Type: corpus
identification Info:
resource Name: Stortingskorpuset 2.0
resource Name: Norwegian Parliamentary Speech Corpus 2.0
description: Dette er versjon 2.0 av Stortingskorpuset (engelsk forkorting NPSC). I versjon 2.0 er det gjort ein del større endringar i transkripsjonane, i tillegg er nokre påviste feil i korpuset blitt retta. Endringane er beskrevne i detalj i dokumentasjonen. (Versjon 1.1 er framleis tilgjengeleg, søk på "sbr-58" i søkjefeltet i katalogen.) Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av møte i Stortinget, ortografisk transkriberte til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkluderte i korpuset. Opptaka utgjer 140 timar med tale frå i alt 267 ulike talarar, og inneheld 65.000 setningar og 1,2 millionar ord. Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. For å sikre konsistens og nøyaktigheit, er alle transkripsjonane korrekturlesne. Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning). Dei individuelle lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå 2017 og 2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene er ganske store, finst det òg individuelle lydfiler for kvar enkelt setning. Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.
description: This is version 2.0 of The Norwegian Parliamentary Speech Corpus (NPSC). In version 2.0, a number of changes have been made to the transcriptions, and some identified errors in the corpus have been corrected. The changes are described in detail in the documentation. (Version 1.1 is still available, type "sbr-58" in the search box.) The corpus has been developed by the Norwegian Language Bank at the National Library of Norway from 2019-2021. The NPSC consists of audio recordings of meetings in Stortinget (the Norwegian parliament), with corresponding orthographic transcriptions in either Norwegian Bokmål or Norwegian Nynorsk, as well as various metadata about the speakers. The official proceedings from the meetings are also included in the corpus for reference. The recordings add up to 140 hours of running speech (including pauses) from 267 unique speakers, and contain 65,000 sentences and 1.2 million words in total. Transcription was first done automatically; subsequently, the output of the automatic process was manually checked and corrected by trained linguists and philologists. Finally, all transcriptions were proofread to ensure consistency and accuracy. NPSC is primarily intended as an open-source dataset for ASR development. The individual audio files in the corpus contain the speech of entire days of plenary meetings from 2017 and 2018 (or, if a meeting lasts more than six hours, the first six hours of the meeting). Since the audio files are quite large, individual audio files for each sentence are also included. We greatly appreciate any feedback and suggestions for improvement. Please use our e-mail address, sprakbanken@nb.no.
resource Short Name: NPSC 2.0
resource Short Name: NPSC 2.0
url: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-84/
P I D: hdl:21.11146/84
identifier: sbr-84
distribution Info:
licence Info:
user Category: Public
distribution Access Medium: downloadable
download Location: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-84/
licence:
licence Family: Creative Commons (CC)
licence Name: Creative_Commons-ZERO (CC-ZERO)
licence Url: https://creativecommons.org/publicdomain/zero/1.0/
licensor:
actor Info:
actor Type: organization
role: Licensor
organization Info:
organization Name: Nasjonalbiblioteket
organization Name: National Library of Norway
organization Short Name: NB
organization Short Name: NLN
department Name: Språkbanken
department Name: The Language Bank
communication Info:
email: sprakbanken@nb.no
url: https://www.nb.no/sprakbanken/
address: P.O. Box 2674 Solli
zip Code: 0203
city: Oslo
region: Oslo
country: Norway
distribution Rights Holder
- actor Info:
- actor Type: organization
- role: Distribution Rights Holder
- organization Info:
- organization Name: Nasjonalbiblioteket
- organization Name: National Library of Norway
- organization Short Name: NB
- organization Short Name: NLN
- department Name: Språkbanken
- department Name: The Language Bank
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
contact
- actor Info:
- actor Type: organization
- role: Contact
- organization Info:
- organization Name: Nasjonalbiblioteket
- organization Name: National Library of Norway
- organization Short Name: NB
- organization Short Name: NLN
- department Name: Språkbanken
- department Name: The Language Bank
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
metadata Info:
metadata Creation Date: 08.08.2023
metadata Language Name: Norwegian Nynorsk
metadata Language Name: English
metadata Language Id: nn
metadata Language Id: en
metadata Last Date Updated: 09.08.2023
metadata Creator
- actor Info:
- actor Type: organization
- role: Metadata Creator
- organization Info:
- organization Name: Nasjonalbiblioteket
- organization Name: National Library of Norway
- organization Short Name: NB
- organization Short Name: NLN
- department Name: Språkbanken
- department Name: The Language Bank
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
version Info:
version: 2.0
revision: https://www.nb.no/sbfil/talegjenkjenning/npsc/v2_0/NPSC-documentation_v2-0.pdf
last Date Updated: 13.07.2023
validation Info:
validated: true
validation Type: content
validation Mode: mixed
validation Extent: full
validator:
actor Info:
actor Type: organization
role: Resource Validator
organization Info:
organization Name: Nasjonalbiblioteket
organization Name: National Library of Norway
organization Short Name: NB
organization Short Name: NLN
department Name: Språkbanken
department Name: The Language Bank
communication Info:
email: sprakbanken@nb.no
url: https://www.nb.no/sprakbanken/
address: P.O. Box 2674 Solli
zip Code: 0203
city: Oslo
region: Oslo
country: Norway
validation Info:
validated: true
validation Type: formal
validation Mode: automatic
validator:
actor Info:
actor Type: organization
role: Resource Validator
organization Info:
organization Name: Nasjonalbiblioteket
organization Name: National Library of Norway
organization Short Name: NB
organization Short Name: NLN
department Name: Språkbanken
department Name: The Language Bank
communication Info:
email: sprakbanken@nb.no
url: https://www.nb.no/sprakbanken/
address: P.O. Box 2674 Solli
zip Code: 0203
city: Oslo
region: Oslo
country: Norway
resource Documentation Info:
documentation Unstructured:
role: documentation
document Unstructured: https://www.nb.no/sbfil/talegjenkjenning/npsc/v2_0/NPSC-documentation_v2-0.pdf
resource Creation Info:
creation Start Date: 01.08.2019
creation End Date: 13.07.2023
resource Creator
- actor Info:
- actor Type: organization
- role: Resource Creator
- organization Info:
- organization Name: Nasjonalbiblioteket
- organization Name: National Library of Norway
- organization Short Name: NB
- organization Short Name: NLN
- department Name: Språkbanken
- department Name: The Language Bank
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway

corpus Info:
corpus Type: Multimodal Corpus
corpus Part Info:
media Type: audio
corpus Audio Info:
audio Size Info:
size Info:
size: 140
size Unit: hours
size Info:
size: 64541
size Unit: sentences
size Info:
size: 1198590
size Unit: words
duration Of Effective Speech Info:
size: 126
duration Unit: hours
duration Of Audio Info:
size: 140
duration Unit: hours
audio Format Info:
mime Type: audio/wav
signal Encoding: linearPCM
sampling Rate: 48000
quantization: 16
byte Order: littleEndian
sign Convention: signedInteger
number Of Tracks: 2
recording Quality: medium
corpus Part Info:
media Type: text
corpus Text Info:
text Format Info:
mime Type: application/json
size Per Text Format:
size Info:
size: 64541
size Unit: sentences
size Info:
size: 1198590
size Unit: words
character Encoding Info:
character Encoding: UTF-8
corpus Part General Info:
linguality Info:
linguality Type: monolingual
language Info:
language Id: no
language Name: Norwegian
size Per Language:
size Info:
size: 126
size Unit: hours
size Info:
size: 64541
size Unit: sentences
size Info:
size: 1198590
size Unit: words
language Variety Info:
language Variety Type: dialect
language Variety Name: Norwegian dialects
modality Info:
modality Type: spokenLanguage
modality Type Details: Formal speech
size Info:
size: 6
size Unit: files
size Info:
size: 96,2
size Unit: gb
annotation Info:
annotation Type: speechAnnotation-orthographicTranscription
time Coverage Info:
time Coverage: 2017-02-07 – 2018-02-01

Last ned ressurser

Last ned metadata

Last ned metadata https://www.nb.no/sprakbanken/oai?verb=GetRecord&identifier=oai:nb.no:sbr-84&metadataPrefix=cmdi

dc:type	corpus
dc:title	Stortingskorpuset 2.0
dc:identifier	oai:nb.no:sbr-84
dc:description	Dette er versjon 2.0 av Stortingskorpuset (engelsk forkorting NPSC). I versjon 2.0 er det gjort ein del større endringar i transkripsjonane, i tillegg er nokre påviste feil i korpuset blitt retta. Endringane er beskrevne i detalj i dokumentasjonen. (Versjon 1.1 er framleis tilgjengeleg, søk på "sbr-58" i søkjefeltet i katalogen.) Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av møte i Stortinget, ortografisk transkriberte til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkluderte i korpuset. Opptaka utgjer 140 timar med tale frå i alt 267 ulike talarar, og inneheld 65.000 setningar og 1,2 millionar ord. Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. For å sikre konsistens og nøyaktigheit, er alle transkripsjonane korrekturlesne. Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning). Dei individuelle lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå 2017 og 2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene er ganske store, finst det òg individuelle lydfiler for kvar enkelt setning. Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.
dc:publisher
dc:format	downloadable
dc:date	2019-08-01
dc:date	2023-07-13
dc:rights	Public
dc:rights	Creative Commons (CC)
dc:rights	Creative_Commons-ZERO (CC-ZERO)
dc:rights	https://creativecommons.org/publicdomain/zero/1.0/
dc:creator	Nasjonalbiblioteket
dc:lang	norsk

Stortingskorpuset 2.0

Utvidet metadata

Resource Common Info

Corpus Info

Dublin Core (DC)

Last ned ressurser

Last ned metadata