Teknologien bak nettarkivet

For å arkivere nettsteder trenger man et innhøstingsverktøy (robot/crawler). Oppgaven til denne er å navigere seg rundt på internett, trykke på lenker, for deretter å lagre innholdet.

Veidemann

Det finnes flere verktøy som kan gjøre dette. Men basert på tidligere erfaringer med andre innhøstere og teknologi, og for å sikre kvaliteten på materialet, har Nasjonalbiblioteket valgt å utvikle en innhøster selv.

Det offisielle navnet på Nasjonalbibliotekets innhøstingsverktøy er «Veidemann», som betyr fangstmann/jeger.

Veidemann bruker en spesiell utgave av nettleseren Chrome til å gjengi nettstedene. Dersom nettstedet ikke støtter denne nettleseren kan vi ikke garantere at det høstede materialet blir som forventet.

Nettleseren blir fjernstyrt av en robot som har kontroll på hvilke nettsteder som skal høstes, hvor ofte, hvor dypt, og en rekke andre parametere som sørger for at vi ikke overbelaster nettstedene.

Når Veidemann har høstet et nettsted vil innholdet på nettstedet bli lagret trygt på våre servere i warc-formatet.

User-Agent

Når en nettleser, innhøster eller robot besøker en nettside sender de informasjon om hvilken nettleser den er og hvilken plattform den kjører på. Det er nettleserens måte å identifisere seg på, og kan blant annet brukes av nettsteder til å vise tilpassede sider til forskjellige nettlesere.

Veidemann bruker følgende User-Agent: «nlnbot/0.1 (+https://www.nb.no/nettarkivet)»

Robots.txt

Robots.txt brukes av nettstedseiere for å gi instruksjoner til hvordan de ønsker at innhøstere og andre roboter på nettet skal forholde seg til deres nettsted.  Instruksjonene kan for eksempel være hvor ofte innhøstere får lov til å klikke på lenker, ekskludere deler av nettstedet, eller om roboten skal utestenges.

Nasjonalbiblioteket forholder seg i hovedsak til instruksjonene nettstedseier har satt i robots.txt, men i noen særtilfeller kan det ignoreres.

Sitemap/nettstedskart

Nettarkivet høster inn det som er allment tilgjengelig på internett. Det vil si at vi høster det nettleseren viser fram på et nettsted. Vi høster ikke databaser, og det er begrenset støtte for dynamiske nettsteder. Det må derfor finnes en lenke som peker til ressurser det er forventet at vi skal høste. De store søkemotorene (for eksempel Google) har utviklet teknikker som gjør det mulig for nettstedseiere å publisere lenker til alle ressurser, via et såkalt sitemap.

Alle ressurser på et slikt nettstedskart vil bli forsøkt høstet av vår innhøster. Eventuelt kan en lenke til dette kartet sendes på e-post til nettarkivet@nb.no, og vi kan høste denne spesifikt.
Et nettstedskart gir heller ingen garanti for at nettstedet blir høstet, men det gir et hint til vår innhøster slik at den vet om ressursene.