Namneattkjenning på norsk
Namneattkjenning, Named Entity Recognition (NER), er ein sentral komponent i mange språkteknologiske verktøy. Automatisk informasjonsuthenting, samtalerobotar og maskinomsettingssystem vert betre med gode NER-modellar. Trass i dette har norsk mangla fritt tilgjengelege datasett for å trene slike modellar fram til no. Korpuset Norwegian Named Entities (NorNE) blei lansert i juni 2019 og er resultatet av eit samarbeid mellom Schibsted Media Group, Språkteknologigruppa ved Universitetet i Oslo og Språkbanken på Nasjonalbiblioteket, ein nasjonal infrastruktur som tilbyr digitale språkressursar til bruk i forsking og utvikling av språkteknologi.
NorNE er eit korpus med løpande tekst der alle namngjevne einingar har blitt merka opp og klassifiserte i kategoriar som til dømes person, organisasjon og stad. Annotasjonane i korpuset er offentleg eigedom (CC-ZERO), og datasettet kan nyttast både til forsking og kommersiell utvikling. NorNE er lagt oppå eit eksisterande korpus med morfologisk og syntaktisk annotasjon, Norsk dependenstrebank (NDT). Dette korpuset består av om lag 600 000 token med løpande tekst frå aviser, bloggar, stortingsforhandlingar og rapportar, delt likt mellom dei to målformene. Det er fleire fordelar med å kombinere NorNE og NDT. For det fyrste tillet lisensen til NDT at korpuset kan nyttast i kommersiell utvikling. For det andre kan NER-system potensielt ha nytte av den grammatiske analysen i NDT. For det tredje er det mogleg å utvide korpuset vidare med nye lag med annotasjonar, til dømes koreferanseannotasjon, som nyttar både NER- og grammatikkoppmerkinga i korpuset.
Om lag halvparten av NorNE har blitt merka opp av to menneskelege annotatorar. Ein annotør har merka opp resten av materialet ved hjelp av retningsliner utvikla under dobbeltannotasjonen. Dette annotasjonsregimet sikrar høg konsistens, som er avgjerande for å lage NER-system av god kvalitet.
Offisielle versjonar av NorNE blir lanserte på Språkbankens nettside, medan utviklingsversjonar finst på Github-sida til NorNE.