Nasjonalbiblioteket deler kunstig intelligens som skjøner norske dialekter og gjer tale om til tekst

Nasjonalbibliotekar Aslak Sira Myhre. Foto: Gorm K. Gaare

Nasjonalbiblioteket har dei siste åra jobba med å lage språkkorpus som gjer at kunstige intelligensar, talemaskinar og omsetjingsprogram kan skjøne norsk. No har institusjonen brukt desse ressursane til å trene opp eit program for automatisk konvertering av norsk tale til tekst. NB Whisper har ei betre forståing av norsk tale og norske dialekter enn liknande program som har vore utvikla fram til no.

– Dette er eit viktig arbeid for å sikre at kunstige intelligensar, språkmodellar og reiskap for alt frå helse til utdanning fungerer på norsk i framtida, seier nasjonalbibliotekar Aslak Sira Myhre.

Programmet, som er ein ny modell av maskinlæringsprogrammet Whisper, er no fritt tilgjengeleg i ein betaversjon.

– Vi deler alt vi gjer, og dermed vert dei ressursane vi lagar, ei plattform for utvikling av norsk språk i maskinane si verd. Språkmodellen er langt frå feilfri, men han er betre rusta til å forstå norsk tale og dialekter enn andre program som er tilgjengelege. Vi ønskjer at så mange som mogleg vil ta han i bruk, gje oss tilbakemeldingar og med det bidra til å gjere han enda betre.

Aslak Sira Myhre vonar at universitet, offentleg sektor og private aktørar vil ta i bruk NB Whisper. Norske mediebedrifter kan nytte modellen til å forbetre transkripsjonsprogram dei sjølve har utvikla.

Nasjonalbiblioteket ønskjer å bruke programmet for å gjere samlinga enda meir tilgjengeleg for publikum.

– Vi har eit håp om å bruke denne modellen på våre eigne arkiv. Om vi til dømes kan transkribere radioarkivet, vil det bli søkbart, og dermed opent på ein heilt annan måte for folk, seier Sira Myhre.

Nasjonalbibliotekets arbeid med språkteknologi
Nasjonalbiblioteket bidreg til å utvikle språkteknologi som det ville vore svært kostnadskrevjande for dei store teknologiselskapa å gjere sjølve. Arbeidet med ressursar på norsk er eit viktig språkpolitisk verktøy. Det sikrar at digitale tenester og programvarer finst på norsk – som har eit stort mangfald av dialekter og i verdssamanheng er eit veldig lite språk.

Nasjonalbiblioteket har òg trena ein modell for å støtta nordsamisk språk, men har så langt for lite data til at modellen yter like godt som på bokmål og nynorsk.

NB Whisper

  • NB Whisper er ein KI-modell som kan konvertere tale til tekst. Teksten som blir produsert, er normalisert norsk bokmål eller nynorsk. Denne teksten kan så brukast for mange ulike føremål.
  • NB Whisper er trent på innhald i Nasjonalbiblioteket si digitale samling og på språkressursar frå Språkbanken ved Nasjonalbiblioteket.
  • NB Whisper er bygd på Whisper frå OpenAI.
  • Modellen er trent med ressursar frå Googles TPU Research Cloud.
  • NB Whisper blir no tilgjengeleg for uttesting i ei lita utgåve, og dermed kan ein bruke programmet på vanlege datamaskinar. Seinare vil det kome større utgåver som skal fungere enda betre.

Du finn meir informasjon om NB Whisper og arbeidet i Nasjonalbiblioteket sin KI-lab (NB AI-lab) på nettsida ai.nb.no.