Ny ressurs skal hjelpe dataprogrammer å forstå norsk

En helt ny ressurs fra Språkbanken skal hjelpe dataprogrammer med å gjenkjenne navn i tekst, slik at de kan forstå hva vi sier og skriver. Dette er det første fritt tilgjengelige navnekorpuset for norsk.

27.06.2019

Vi omgir oss med stadig mer programvare som forsøker å forstå hva vi skriver og sier, som samtaleroboter, automatiske oversettere og smarte søkemotorer. Slike systemer fungerer ikke alltid så godt som vi skulle ønske, spesielt ikke for små språk som norsk.

– Noe av problemet ligger i at programmene ikke alltid klarer å skille navn fra annen tekst. Ressursen vi har laget, kan brukes til å løse dette problemet, sier språkteknolog Per Erik Solberg ved Nasjonalbiblioteket.

Norwegian Named Entities (NorNE) er et navnekorpus: en stor samling med tekst hvor alle navn er merket opp. Ressursen er utviklet i et samarbeid mellom Nasjonalbiblioteket, Schibsted Media Group og Språkteknologigruppa ved Universitetet i Oslo. NorNE finnes for både bokmål og nynorsk.

Fredrik Jørgensen i Schibsted, som har vært sentral i arbeidet med NorNE, understreker hvor viktig denne ressursen er for de språkteknologiske utviklermiljøene.

– Dette er det første datasettet for navnegjenkjenning som er fritt tilgjengelig for norsk. Tidligere datasett har vært forbeholdt forskning, og dette har holdt kommersielle aktører tilbake. Vi ser nå at dataene allerede er tatt i bruk av open source-miljøet, og av andre kommersielle aktører, sier Fredrik Jørgensen.

Slik brukes NorNE
Moderne navnegjenkjenningssystemer er basert på maskinlæring: Systemet får se et navnekorpus slik som NorNE, der alle navn er merket og kategorisert i personnavn, stedsnavn, firmanavn osv. Slik lærer systemet å kjenne igjen navnene i nye tekster. Navnegjenkjenning i tekst er basis for mange applikasjoner innenfor språkteknologi og NLU (Natural Language Understanding).

Les mer om NorNE her.

Følg pressemeldinger fra Nasjonalbiblioteket