ONOMASTICA Telenor, 1999 Denne databasen inneholder orginaldata fra ONOMASTICA-prosjektet. Tekstfilene er lagret på Unix-format og tegnsettet som benyttes er ISO8859-1 Latin 1. Her finnes uttale av fornavn, etternavn, gatenavn, stedsnavn og bedriftsnavn fra telefonkatalogen. Man har benyttet SAMPA fonetisk kode. For en nærmere beskrivelse av materialet se rapporten "Norsk deltakelse i ONOMASTICA-prosjektet"(SINTEF DELAB rapport STF40 F95017). KATALOGSTRUKTUR =============== Katalog Innhold filnavn ----------------------------------------------------- + | Copyright statement copyright.txt | Denne filen LESMEG +distrib-+ | +fnvn fornavn fnvnXXY.ono | +envn etternavn envnXXY.ono | +fnvd doble fornavn fnvdXXY.ono | +gate gatenavnfiler gateXXY.ono | +sted stedsnavn stedXXY.ono | +bedr bedriftsnavn bedrXXY.ono | +mix Utenlandske navn xx_nw.ono I filnavnene er XX et løpende serienummer. Dess lavere nummer dess høyere antall forekomster i telefonkatalogen. Alle for- etter og bedriftsnavn kommer fra Telenor (telefonkatalogen). Stedsnavn er hentet dels fra telefonkatalogen, kartverket og Telenors opplysningstjeneste. Y angir kilde og kan ha følgende verdier: t Poststeder i telefonkatalogen k Tettsteder fra Statens kartverk x Stedsnavn som brukes av opplysningstjenesten i Telenor Dersom Y ikke er inkludert i filnavnet er ikke uttalen i filene kontrollert av fonetiker. Dvs at uttalen kun er generert av et tekst-til-fonemprogram. Disse filene har derfor relativt lav kvalitet. Ingen av bedriftsnavnene har kontrollert uttale. "mix"-katatalogen inneholder filer med "norsk" uttale av utvalgte utenlandske navn. filnavnene har følgende konvensjon xx_nw.ono der xx er nasjonalitetsbokstaver ( uk,pt,se,fr,de,nl ) DATAPOSTER: =========== Hver fil har poster med følgende struktur: Nøkkel:Data(eksempel) : Forklaring ---------------------------------------------------------------------------- SOO: : Start på datapost ENT:NO0000001 : Nasjnalt prefiks (NO) + serienr. LBO:Hansen : Navn FQO:31391 : Antall forekomster NO0:"hAn$s@n : Uttale i SAMPA fonetisk alfabet NO1: : Ev. alternativ uttale i SAMPA NO2: : Ev. alternativ uttale i SAMPA QUO:1 : Kvalitetsnivå se 1) WH0:MS,AF : Transcribør ID-er ET0:NO : Etymologi (NO: Norwegian) CT0:Surname : Navneklasse EOO: : Datapost slutt --------------------------------------------------------------------------- 1) QU0: 1: kontrollert av fonetiter, som kjenner navnet 2: kontrollert av fonetiker, men navnet er ukjent 3: kun automatic transcripsjon FONEMKODER ========== Fonemkoden for navnene er angitt i SAM Phonetic Alphabet (SAMPA). Dokumentasjon av SAMPA er å finne på internetadressen http://www.phon.ucl.ac.uk/home/sampa/norweg.htm I tillegg til fonemkodene som er definert for norsk, er det benyttet følgende koder fra det engelske foneminventaret for å transkribere engelske navn. SAMPA Eksempelord T thin D This dZ Gin aI rise eI raise OU nose (riktig SAMPA-kode er @U) Stavelsesbærende konsonanter markeres n* eksempel: Botn ""bOt$n* l* eksempel: Hoddle ""HOd$l* Deling av konsonanter mellom to stavelser er angitt ved å føre opp konsonanten på hver side av stavelsesgrensen Eksempler: Anne ""An$n@ Inger ""iN$N@r Bjarne ""bjA:rn$rn@ ********** Per Olav Heggtveit 13.05.96 ************** ************Jon Emil Natvig 15.3.1999**************