Hopp til innhold

Diskusjonstekster frå Wikipedia

Dette korpuset inneheld ein dump av diskusjonstrådar frå Wikipedia, der forfattarar diskuterer ulike problemstillingar i samband med publisering av bestemde artiklar på Wikipedia.

Artiklane er fordelte på to filer, ei for høvesvis bokmål (nb.wikipedia.json) og nynorsk (nn.wikipedia.json). Kvar diskusjon er eit element i eit json-array, med eitt nivå som inneheld tekst og diverse metadata. Det er åtte datafelt per diskusjon:

– title: tittel på artikkelen som vert diskutert
– pageid: identifikator for artikkelen
– revid: revisjonsinformasjon
– wikidata: ev. andre data
– contentcategories: metadata
– hiddencategories: metadata
– text: diskusjonstekst
– bytelength: lengde på teksten i bytes

Eit døme på dette finst i dokumentasjonsfila (2019_wikidisc.pdf).

Dette korpuset inneheld ein dump av diskusjonstrådar frå Wikipedia, der forfattarar diskuterer ulike problemstillingar i samband med publisering av bestemde artiklar på Wikipedia.

Artiklane er fordelte på to filer, ei for høvesvis bokmål (nb.wikipedia.json) og nynorsk (nn.wikipedia.json). Kvar diskusjon er eit element i eit json-array, med eitt nivå som inneheld tekst og diverse metadata. Det er åtte datafelt per diskusjon:

– title: tittel på artikkelen som vert diskutert
– pageid: identifikator for artikkelen
– revid: revisjonsinformasjon
– wikidata: ev. andre data
– contentcategories: metadata
– hiddencategories: metadata
– text: diskusjonstekst
– bytelength: lengde på teksten i bytes

Eit døme på dette finst i dokumentasjonsfila (2019_wikidisc.pdf).

Utvidet metadata

Last ned ressurser

Last ned metadata