Metadata og ontologier

Metadata for forskningsdata er informasjon som gjør det mulig å finne og forstå hvem, hvor og hva dataene stammer fra.

Metadata skal være lesbare for både maskiner og mennesker. Standardiserte metadata er helt sentralt for å gjøre data gjenfinnbare, tilgjengelige, interoperable og gjenbrukbare (FAIR).

Metadata kan være aktuelt på flere nivåer. På datasettnivå er det alltid aktuelt, mens det avhengig av fagfelt vil være ulike behov for metadata på filnivå.

Standardiserte metadata

Det finnes generelle og fagspesifikke metadatastandarder for forskningsdata, men for de fleste vil det ikke finnes en standard som passer akkurat til de dataene du skal beskrive. Metadata legges helst i standardiserte felter som gjør utveksling av informasjonen, for eksempel mellom søkeløsninger, mulig. 

Ulike arkiv for forskingsdata bruker ulike og noe tilpassede standarder. Valget av arkiv vil derfor oftest legge føringer for hvilke metadatastandard du skal anvende.

Sikt arkiv (tidligere NSD) bruker metadatastandarden «Data Documentation Initiative» (DDI) som er tilpasset samfunnsvitenskapene og spørreskjemadata. DDI utvikles og vedlikeholdes i nettverket av tilsvarende arkiver.

DataverseNO anvender Dataverse sin blokk-baserte metadatatilpasning, som vektlegger utveksling gjennom eksport (JSON og XML) og mapping til de mest anvendte standardene (DDI, DublinCore, DataCite ect.) og samtidig tar inn enkelte fagspesifikke felter. Standarden er utviklet for forskningsdata og er generisk, men jobber stadig med videre tilpasning for ulike fagfelt ved utvikling av metadata blokker. Denne standarden brukes i de mange Dataverse-arkivene som finnes globalt og ligger også til grunn for IT-avdelingens metadataverktøy.

Skal du lage en egen metadatastandard?

Det er ekstremt ressurskrevende et forskningsmiljø å ta på seg å utvikle, implementer og vedlikeholde en ny standard. Fordelen ved å bruke en eksisterende standard er så stor at det i de aller fleste tilfeller er fornuftig å anvende en generisk standard for metadata til forskningsdata heller enn å vurdere egen tilpasning.

Ontologier eller vokabularer

Ved å bruke kontrollerte vokabularer i beskrivelser av data, såkalte ontologier, kan du vise til riktig forståelse av et begrep. Dette kan være aktuelt på datasettnivå, men er først og fremst interessant på datapunkt nivå i filer og å presist identifisere ulike faktorer. 
Bruk av ontologier ned på variabel nivå, muliggjør identifisering av fellesnevnere på tvers av et større datamateriale.

Ontologier og URI-er brukes for å lage lenkede åpne data. Dette har store fordeler om man har store mengder standardiserte data og/eller ønsker å kombinere data fra ulike kilder. 

Eksempler på fag hvor ontologier brukes på denne måten er:

Emneord i metadata

På datasett nivå kan nøkkelord gjøres interoperable, ved at du tar i bruk kontrollerte emneord i beskrivelsen av datasettet. Det finnes mange ulike vokabularer:

  • OLS ontology search 
  • Mesh innenfor medisin og helsefag
  • Agrovoc innenfor landbruk og planter
  • Humord – en norsk tesaurus for humaniora og samfunnsvitenskap med tilgrensende fagområder, driftet av Universitetsbiblioteket.

 

Forskningsdata: Tematisk oversikt

Hovedside for forskningsdatahåndtering

Publisert 2. juli 2024 09:21 - Sist endret 8. juli 2024 09:18