Nettavis-korpus
I samarbeid med DH-lab har Nettarkivet laget en samling med tekst fra nettaviser (2019-22). Tekstene er tilgjengelig for digitalanalyse gjennom DH-lab sitt API.
Du kan benytte DH-labs brukervennlige apper til å:
- bygge korpus,
- hente nøkkelord i kontekst
- beregne relativfrekvens for assosierte ord.
Ønsker du mer kontroll har vi også laget en eksperimentell Jupyter notebook for interaksjon med dataene: nettavis-tekstanalyse.ipynb.
Nedenfor finner du litt grunnleggende informasjon og metadata om korpuset. Har du spørsmål må du gjerne ta kontakt på nettarkivet@nb.no!
Et korpus er enkelt forklart en samling av tekster. I dette tilfellet er det altså tekster fra nettaviser.
Den første versjonen av nettavis-korpuset inneholder:
- 1 572 655 tekster
- 784 171 966 ord
- 268 publikasjonstitler
Det er en rekke ulike språk i korpuset. De meste frekvente er
- Norsk bokmål: 1 437 768 tekster
- Norsk nynorsk: 111 892 tekster
- Nordsamisk: 11 416 tekster
- Kvensk: 302 tekster
- Sørsamisk: 101 tekster
- Lulesamisk: 78 tekster
Totalt inneholder korpuset tekster fra 268 publikasjoner med ansvarlig redaktør. De mest frekvente er:
- NRK: 130 162
- VG: 66 800
- Forskning.no: 65 469
- TV2: 55 367
- Dagens næringsliv: 50 005
- Dagbladet: 46 333
- Finansavisen: 38 514
- Adresseavisen: 33 640
- Aftenposten: 31 075
- Khrono: 29 794
- Hamar Arbeiderblad: 29 775
- Dagsavisen: 27 009
- ABC Nyheter: 25 690
- E24: 24 930
- Nettavisen: 23 670
For å jobbe med korpuset kan du benytte pythonpakka for DH-lab.
Det er foreløpig lagt til rette for å bygge korpus, arbeide med konkordanser og kollokasjoner.
Her er en oversikt over skjema-attributter som kan benyttes mot APIet, med en tekst fra Aftenposten som eksempel:
schema:properties | dtype | beskrivelse | eksempel |
doctype | str | nettavis | nettavis |
dhlabid | int | unik id for tekstobjektet | 600274473 |
title | str | publikasjonstittel | Aftenposten |
publisher | int | domenenavn | aftenposten.no |
city | str | sted | Oslo |
lang | str | ISO 639-2 | nob |
oaiid | str | target-uri | https://www.aftenposten.no:443/norge/politikk/i/… |
timestamp | int | ÅÅÅÅMMDD (tid for innhøsting) | 20200526 |
ocr_timestamp | int | ÅÅÅÅMMDD (tid for tekstekstraksjon) | 20220820 |
urn | str | WARC-Record-ID | <urn:uuid:b01b7ad0-c5c3-4b2e-ab30-8d9bddf8c312> |
year | int | ÅÅÅÅ (år for innhøsting) | 2020 |