NST uttaleleksikon for bokmål
Utvidet metadata
- resource Common Info:
- resource Type: lexicalConceptualResource
- identification Info:
- resource Name: NST Pronunciation Lexicon for Norwegian Bokmål
- resource Name: NST uttaleleksikon for bokmål
- description: This pronunciation lexicon for Norwegian Bokmål was originally produced by Nordic Language Technology (NST), and contains approximately 785,000 entries. The word list is based on the 100,000 most frequent word forms in NST's Norwegian text corpus. The lexicon is available as one large csv file. Each entry (line) contains 51 fields, separated by a semicolon. Not all fields are equally relevant for all purposes, but given the format, it should be easy to extract relevant information. The lexicon contains, among other things, information about the decomposition of compounds and one or more phonetic transcriptions. The phonetic transcription has partly been done manually, but to a large extent it was done automatically using an inflector. Parts of the output of this process was manually checked afterwards. The inflector and other lexical tools that can be used in processing the lexicon, can be downloaded as a separate file. The transcription format is SAMPA (Speech Assessment Methods Phonetic Alphabet). See http://www.phon.ucl.ac.uk/home/sampa/index.html. A script for converting the SAMPA transcriptons to IPA can be found on GitHub (https://github.com/peresolb/sampa_to_ipa).
- description: Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST. Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger. Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil. Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet. Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa).
- url: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-23/
- P I D: hdl:21.11146/23
- identifier: sbr-23
- distribution Info:
- licence Info:
- user Category: Public
- distribution Access Medium: downloadable
- download Location: https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-23/
- licence:
- licence Family: Creative Commons (CC)
- licence Name: Creative_Commons-ZERO (CC-ZERO)
- licence Url: https://creativecommons.org/publicdomain/zero/1.0/
- licensor:
- actor Info:
- actor Type: organization
- role: Licensor
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- distribution Rights Holder
- actor Info:
- actor Type: organization
- role: Distribution Rights Holder
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- communication Info:
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- actor Info:
- actor Type: organization
- role: Contact
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- actor Info:
- actor Type: person
- role: Metadata Creator
- person Info:
- surname: Birkenes
- given Name: Magnus Breder
- affiliation:
- organization Info:
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- actor Info:
- actor Type: organization
- role: Resource Creator
- organization Info:
- organization Name: Nordic Language Technology AS
- organization Name: Nordisk språkteknologi AS
- organization Short Name: NST
- organization Short Name: NST
- lexical Conceptual Resource Info Rev1:
- lexical Conceptual Resource Type: computationalLexicon
- lexical Conceptual Resource Part General Info:
- linguality Info:
- linguality Type: monolingual
- language Info:
- language Id: nb
- language Name: Norwegian Bokål
- size Per Language:
- size Info:
- size: 784240
- size Unit: words
- size Info:
- size: 784240
- size Unit: entries
- size Info:
- size: 162,8
- size Unit: mb
- modality Info:
- modality Type: writtenLanguage
- modality Type Details: Contains a general, non-specific vocabulary. Fullform frequency-based worlist with additions from various sources, including named entities. Contains corresponding phonetic transcriptions.
- size Per Modality:
- size Info:
- size: 784240
- size Unit: words
- size Info:
- size: 784240
- size Unit: entries
- size Info:
- size: 162,8
- size Unit: mb
- size Info:
- size: 784240
- size Unit: words
- size Info:
- size: 784240
- size Unit: entries
- size Info:
- size: 162,8
- size Unit: mb
- lexical Conceptual Resource Encoding Info:
- encoding Level: phonetics
- linguistic Information: phonetics-Transcription
- conformance To Standards Best Practices: other
- theoretic Model: SAMPA
- lexical Conceptual Resource Part Info Rev1:
- media Type: text
- lexical Conceptual Resource Text Info:
- text Format Info:
- mime Type: text/csv
- character Encoding Info:
- character Encoding: UTF-8
dc:type | lexicalConceptualResource |
dc:title | NST uttaleleksikon for bokmål |
dc:identifier | oai:nb.no:sbr-23 |
dc:description | Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST. Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger. Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil. Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet. Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa). |
dc:publisher | |
dc:format | downloadable |
dc:date | 2000-01-03 |
dc:date | 2003-02-24 |
dc:rights | Public |
dc:rights | Creative Commons (CC) |
dc:rights | Creative_Commons-ZERO (CC-ZERO) |
dc:rights | https://creativecommons.org/publicdomain/zero/1.0/ |
dc:creator | Nordisk språkteknologi AS |
dc:lang | Norwegian Bokål |