Omat työkalut
Osiot
Olet täällä: Etusivu > Tiedot käyttöön > Metatiedot, osa 1: mistä puhutaan?
@CSC-blogit

Blogien kirjoittajat ovat CSC - Tieteen tietotekniikan keskus Oy:n asiantuntijoita. Asiantuntijat ovat vastuussa blogeihin tuottamastaan sisällöstä.

Lukijoilla on mahdollisuus kommentoida julkaistuja blogitekstejä. CSC tai sen työntekijät eivät vastaa lukijoiden palveluun tuottamista sisällöistä.

CSC:llä on oikeus poistaa palvelusta lukijoiden kommentit, mikäli ne ovat hyvän tavan tai lain vastaisia tai muulla tavoin loukkaavia.

 
Sivun toiminnot

Metatiedot, osa 1: mistä puhutaan?

Kirjoittanut Panu Kalliokoskikirjoitettu: tiistai 22. kesäkuuta 2010, 14.05 viimeisin muutos: keskiviikko 23. kesäkuuta 2010, 10.00
Kunnon metatiedot ovat keskeisiä tiedon laajan hyödynnettävyyden kannalta. Puhe metatiedoista nousee kuitenkin helposti sellaisiin sfääreihin, etteivät keskustelun osapuolet ymmärrä toisiaan eivätkä aina itsekään tiedä, mitä tarkoittavat. Tässä kirjoituksessa käsittelen metatietoja yleisellä tasolla, mutta pyrin myös antamaan esimerkkejä, jotka konkretisoivat asiaa.

Määrittely ensiksi: metatieto tarkoittaa tiedon tai minkä tahansa aineiston kuvailua.  Esimerkiksi ilmaus "tekijänoikeuslaki koskettaa jokaista kansalaista" on metatietoa, koska se on kuvaus tiedon, tässä tapauksessa tekijänoikeuslain, ominaisuuksista, tässä tapauksessa sosiaalisesta vaikutusalueesta.  Kohdetiedon ei tarvitse olla tulkittavissa, se voi olla raakaa dataa: "tiedosto shakki.jpeg on kuva" ja "kuvasta shakki.jpeg puolet on valkoista" ovat myös metatietoja.  Jopa sellainen yleisluontoinen toteamus kuin "Kärpästen herra on minusta poliittinen kirja" on nähtävissä metatiedoksi.

Kuten yllä olevista esimerkeistäkin näkyy, metatietoa voi antaa monella tasolla ja monesta näkökulmasta.  Seuraavassa on esimerkkejä eri tyyppisistä metatiedoista ja niiden kohteena olevista tiedoista.

metatieto kohdeaineisto tyyppi säilytystapa
valiokuntakäsittely kehitysmaiden tukeminen ruokaturvahaasteessa -tiedonanto käsittelytieto: tieto siitä, mitä tiedonannolle on tehty hallinnollisesti missäkin vaiheessa tietokanta Suomen eduskunnan TRIP-järjestelmässä, tiedot linkitetty esim. käsittelykokousten pöytäkirjoihin
tietojärjestelmäkuvaus SYKE:n meluntorjunnan tietojärjestelmä kuvaileva tieto: tiivistelmä sisällöstä tekstidokumentti SYKE:n julkaisujärjestelmässä, linkitetty tietojärjestelmää koskeviin asiakirjoihin (lupasopimuksiin yms.)
termimääritelmä aineopiskelijalle kaikki tilastokeskuksen tilastot, joissa termi esiintyy: esi- ja peruskouluopetus, lukiokoulutus ja oppilaitosten aikuiskoulutus selittävä tieto: aineiston rakennetta tai merkitystä tarkentava tieto TK:n metatietopankki, jossa tilastojen kuvaukset on linkitetty käsitemäärittelyihin ja käsitteet niitä käyttäviin tilastoihin
Assyria-hakusana kaikki, mikä käyttää yleistä suomalaista asiasanastoa (YSA:a) asioiden ja käsitteiden luokitteluun, esimerkiksi kirjastojen tiedot Gilgamesh-eepoksesta jotka puolestaan ovat varsinaisen kirjan metatietoa selittävä tieto: aiheita luokitteleva ja niiden välisiä yhteyksiä määrittävä tieto YSA:n tietokanta, jossa asiasanat on linkitetty synonyymeihinsa ja kieliversioihinsa
Tiedostomuoto (HTML), merkistö (UTF-8), tiedoston koko (26281 tavua) CSC:n etusivu tekninen tieto CSC:n julkaisujärjestelmä
tieto siitä, mitä blogikirjoitukselle pitää seuraavaksi tehdä tämä blogikirjoitus käsittelytieto: tieto kirjoituksen tämänhetkisestä tilasta ja suunnitelma tulevasta käsittelystä

Panun pää

Taulukosta huomaa, että metatiedon ei tarvitse edes kirjoitettaessa liittyä tiettyyn aineistoon, vaan eri aineistot voivat joiltain osin käyttää etukäteen annettuja metatietoja, jos ne soveltuvat aineistolle eli pitävät paikkansa aineiston suhteen. Mitä tulee säilytystapaan, tietotekniset metatietojen tallennusratkaisut korostuvat, koska halusin valita esimerkkejä, jotka ovat jollain tavoin saavutettavissa selaimella.

Kun kerran metatiedolla tarkoitetaan näin monimuotoisia asioita, pitäisi kaikille olla selvää, että metatieto käsitteenä on useisiin keskusteluihin liian yleisluontoinen.  Kun esimerkiksi vaaditaan julkisille tiedoille parempia metatietoja, tuskin kukaan tarkoittaa sillä tietokantaa, jossa on kiljoona tietoa tyyliin "Panu ei tykkää tekijänoikeuslaista" ja "eduskunnan etusivulla on 160 k-kirjainta".  Metatietoja suunniteltaessa onkin pakosti mielessä jokin visio siitä, mihin metatietoja tullaan käyttämään.  Esimerkiksi kirjastot keräävät teosten metatietoja tietokannoiksi helpottaakseen teosten löytämistä.  Kyselyaineiston metatiedoilla pyritään usein myös tukemaan aineiston tulkintaa.  Toisaalta asiakirjanhallintajärjestelmissä saatetaan pitää sellaisia asiakirjojen metatietoja, joita ei ole missään muualla ja jotka eivät saa hävitä: esimerkiksi asiakirjan vastuuhenkilöä, käsittelyhistoriaa ja julkisuusastetta.

Mutta vaikka metatietoja kirjoitettaessa onkin yleensä mielessä ainakin jokin metatietojen käyttötarkoitus, toisaalta metatiedoilla pyritään usein vastaamaan myös tuleviin, tuntemattomiin tarpeisiin.  Periaatteessahan metatietojen rikastuttaminen ei ole keneltäkään pois, vaan jokainen lisätty metatieto on tulevaisuudessa potentiaalisesti hyödynnettävä tieto, vaikka se vaikuttaisi täysin epäolennaiselta: esimerkiksi kuvailtavan aineiston tuottajan oman henkilökohtaisen tietokoneen malli.  Varsinkin kehitettäessä metatietostandardeja ja -vaatimusmäärittelyitä on suuri kiusaus vain lisätä määrittelyyn kaikki mahdollinen taivaan ja maan väliltä ihan vain kaiken varalta.  Tällaisessa on kuitenkin ongelmansa, joita käsittelen seuraavissa kirjoituksissani.

Korkealuokkaisten metatietojen tuottamisessa on mielestäni keskeistä, että ainakin joitain niiden käyttötarkoituksia on selvillä.  Tämä ohjaa metatiedon tuottajan intuitiota tarvittavasta tiedosta paremmin kuin perustelematon lista annettavista metatiedoista.  Uskon, että metatieto, joka palvelee yhtä käyttötarkoitusta hyvin, on vähintään yhtä käyttökelpoista ennakoimattomiin tarkoituksiin kuin metatieto, jonka käyttötarkoitus on jätetty avoimeksi.  Käyttötarkoituksen ei tarvitse olla kovin ihmeellinen: hyviä käyttötarkoituksia ovat esimerkiksi vastaaminen kysymyksiin "pystynkö käyttämään aineistoa koneellani" ja "missä aineistossa on minua kiinnostavia tietoja".  Metatietoja voidaan käyttää tukemaan tiedon löytämisen lisäksi tiedon tulkintaa, verrannollisuutta muihin tietoihin, jatkokäsiteltävyyttä, tallettamista ja monia muita tarkoitusperiä.

Seuraavissa kirjoituksissani paneudun metatietojen yhtenäistämisen haasteisiin, jonka jälkeen käsittelen suoraan työhöni liittyviä relaatiomuotoisten aineistojen metatietoja.

Lisää kommentti

Voit lisätä kommentin täyttämällä alla olevan lomakkeen. Mitään muotoilumahdollisuuksia ei ole.

Pakollinen tieto
Kirjoita nimesi.
(Pakollinen)
(Pakollinen)
(Pakollinen)
Kirjoita kenttään oikeanpuoleisessa laatikossa olevat kirjaimet. Tällä estetään sivuston automaattinen väärinkäyttö.
Captcha