Forskningsprosjekt viser: Rettighetsbelagt innhold gir norske språkmodeller høy kvalitet

Mann med skjegg og briller som står utendørs, lener seg mot en stein og smiler.
Nasjonalbibliotekar Aslak Sira Myhre. Foto: Gorm K. Gaare/Nasjonalbiblioteket

Språkmodeller som er trent på innhold der rettighetsbelagt norsk materiale inngår, oppnår bedre kvalitet. Dette viser den første rapporten fra forskningsprosjektet Mímir, hvor ledende norske forskningsmiljøer har trent en rekke nye språkmodeller og vurdert betydningen aviser og bøker under opphavsrett kan ha for denne typen kunstig intelligens. Prosjektet er initiert av regjeringen og ledes av Nasjonalbiblioteket.

– Dette prosjektet er unikt i verdenssammenheng, sier nasjonalbibliotekar Aslak Sira Myhre. – Mens det i USA og Europa blir opp til rettsvesenet å dømme i en kamp mellom rettighetshaverne og teknologiutviklerne, prøver vi i Norge å finne en felles vei for sikre både at den norske kunnskapen, språket og erfaringen reflekteres i språkmodeller, og at de som skaper innhold, blir kompensert for bruken.

Teknologien rundt og bruken av kunstig intelligens (KI) har hatt en rivende utvikling de siste årene. Behovet for en norsk nasjonal satsing på feltet er betydelig, og vi trenger tilgang til gode data for trening av KI. Dette er bakgrunnen for at regjeringen har gitt Nasjonalbiblioteket i oppgave å vurdere verdien av å bruke norsk innhold under opphavsrett for slike formål.

Samarbeid mellom forskningsmiljøene
Gjennom et halvt år har Nasjonalbiblioteket gjennomført prosjektet Mímir sammen med de sterkeste forskningsmiljøene på feltet i Norge: NorwAI ved NTNU i Trondheim og Language Technology Group ved Universitetet i Oslo. Takket være disse institusjonenes store stab av forskere og studenter har det vært mulig å gjennomføre trening og evaluering på rekordtid.

Gjennom Sigma2 har Mímir fått tilgang til nødvendig regnekraft på tungregnesentret LUMI i Finland. Dette samarbeidet har gjort det mulig å gjøre nybrottsarbeid på feltet, også sett i et internasjonalt perspektiv.

Store deler av den digitale samlingen i Nasjonalbiblioteket er lagt til rette som treningsdata for KI sammen med data fra andre kilder. Forskningsmiljøene har trent nærmere 20 ulike språkmodeller, og modellene er evaluert for å studere virkningen av ulike typer data.

Opphavsrett
Rettighetshaverne har hele veien vært informert om aktivitetene i prosjektet, og i siste del av Mímir har det vært nær kontakt mellom Nasjonalbiblioteket og rettighetshaverne.

Målet med prosjektet er å samle empiriske data som kan legge et grunnlag for eventuelle avtaler mellom staten og rettighetshavere om bruk av innhold under opphavsrett for KI-formål. Mímir er første del av et oppdrag Nasjonalbiblioteket har fått fra kultur- og likestillingsminister Lubna Jaffery og regjeringen. Det neste steget er å vurdere om det bør lages en kompensasjonsmodell og eventuelt et forslag til en slik modell.

Her finner du den tekniske rapporten fra Mímir-prosjektet.