Ressurser fra ressursbanken Archive - Språkbanken

I samarbeid med

Norsk aviskorpus annotert (2001-2009)

This is a subpart of the Norwegian Newspaper Corpus for bokmål, grammatically annotated with information about each word’s lemma, part of speech (word class) and morphological analysis based on an …

Språk:
norsk, bokmål
Opphav:
CLARINO Bergen
Lisens:
Creative_Commons-BY-NC (CC-BY-NC)
Type:
Tekst
Oppdatert:
16.04.2025
Norsk aviskorpus nynorsk

Norsk Aviskorpus (nynorsk) er eit ope tilgjengeleg tekstkorpus som representerer moderne norsk i skriftvarianten nynorsk. Per i dag inneheld korpuset ca. 21 millinonar ord fra 1998 til 2020, og du kan …

Språk:
norsk, nynorsk
Opphav:
CLARINO Bergen
Lisens:
Creative_Commons-BY (CC-BY)
Type:
Tekst
Oppdatert:
14.04.2025
Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk

Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage 'rene' …

Språk:
Opphav:
Språkbanken
Lisens:
Creative_Commons-BY (CC-BY)
Type:
Verktøy
Oppdatert:
28.01.2025
OCR-modeller for samiske språk

Dette er en samling av modeller for OCR (optical character recognition) av samiske språk. Disse kan brukes til å gjenkjenne tekst i bilder av trykt tekst (scannede bøker, magasiner, o.l) på …

Språk:
Opphav:
Språkbanken
Lisens:
Creative_Commons-BY (CC-BY)
Type:
Verktøy
Oppdatert:
22.01.2025
Norske idiom

Dette datasettet består av 3537 norske idiom og fraser som finst fleire enn 100 gonger i Nettbiblioteket. Det er 3455 idiom på bokmål og 88 på nynorsk. I framtida vil vi prøve å leggje til …

Språk:
bokmål, nynorsk
Opphav:
Språkbanken
Lisens:
Creative_Commons-ZERO (CC-ZERO)
Type:
Tekst
Oppdatert:
10.10.2024
Pressekonferanser fra DSS

Dette korpuset består av omlag 138 timers tale generert fra lyd med tidsjusterte undertekster fra pressekonferanser publisert av Departementenes sikkerhets- og serviceorganisasjon (DSS). Datasettet …

Opphav:
Språkbanken
Lisens:
Norwegian Licence for Open Government Data (NLOD)
Type:
Tale
Oppdatert:
10.07.2024
TeflonNorL2

Denne siden er en plassholder for de norske dataene i Teflon-prosjektet. Teflon-prosjektet (https://teflon.aalto.fi/) har som mål å studere dataassistert språklæring for innvandrerbarn som lærer …

Språk:
norsk
Opphav:
Språkbanken
Lisens:
unspecified
Type:
Tale, Tekst
Oppdatert:
23.03.2024
Grafem-til-fonem-modeller for norsk bokmål

Denne ressursen innegolder grafem-til-fonem-modeller (G2P-modeller) for norsk bokmål som er tilpasset G2P-systemet Phonetisaurus (https://github.com/AdolfVonKleist/Phonetisaurus). G2P-modellene kan …

Språk:
Opphav:
Språkbanken
Lisens:
Creative_Commons-ZERO (CC-ZERO)
Type:
Verktøy
Oppdatert:
09.02.2024
Målfrid 2024 – Fritt tilgjengelege tekster frå norske statlege nettsider

Dette korpuset inneheld dokument frå 497 internettdomene tilknytta norske statlege institusjonar. Totalt består materialet av omlag 2,6 milliardar "tokens" (ord og teiknsetting). I tillegg til …

Språk:
bokmål, nynorsk, engelsk, nordsamisk, sørsamisk, lulesamisk
Opphav:
Språkbanken
Lisens:
Norwegian Licence for Open Government Data (NLOD)
Type:
Tekst
Oppdatert:
31.01.2024
Glossa

Glossa is a tool for researchers who want to search linguistically annotated corpora. Glossa is designed to make it easy for researchers to: - create complex searches - explore the result via e.g. …

Språk:
Opphav:
CLARINO Tekstlaboratoriet
Lisens:
MIT license
Type:
Verktøy
Oppdatert:
11.01.2024