Metatiedot, osa 1: mistä puhutaan?
Määrittely ensiksi: metatieto tarkoittaa tiedon tai minkä tahansa aineiston kuvailua. Esimerkiksi ilmaus "tekijänoikeuslaki koskettaa jokaista kansalaista" on metatietoa, koska se on kuvaus tiedon, tässä tapauksessa tekijänoikeuslain, ominaisuuksista, tässä tapauksessa sosiaalisesta vaikutusalueesta. Kohdetiedon ei tarvitse olla tulkittavissa, se voi olla raakaa dataa: "tiedosto shakki.jpeg on kuva" ja "kuvasta shakki.jpeg puolet on valkoista" ovat myös metatietoja. Jopa sellainen yleisluontoinen toteamus kuin "Kärpästen herra on minusta poliittinen kirja" on nähtävissä metatiedoksi.
Kuten yllä olevista esimerkeistäkin näkyy, metatietoa voi antaa monella tasolla ja monesta näkökulmasta. Seuraavassa on esimerkkejä eri tyyppisistä metatiedoista ja niiden kohteena olevista tiedoista.
| metatieto | kohdeaineisto | tyyppi | säilytystapa |
|---|---|---|---|
| valiokuntakäsittely | kehitysmaiden tukeminen ruokaturvahaasteessa -tiedonanto | käsittelytieto: tieto siitä, mitä tiedonannolle on tehty hallinnollisesti missäkin vaiheessa | tietokanta Suomen eduskunnan TRIP-järjestelmässä, tiedot linkitetty esim. käsittelykokousten pöytäkirjoihin |
| tietojärjestelmäkuvaus | SYKE:n meluntorjunnan tietojärjestelmä | kuvaileva tieto: tiivistelmä sisällöstä | tekstidokumentti SYKE:n julkaisujärjestelmässä, linkitetty tietojärjestelmää koskeviin asiakirjoihin (lupasopimuksiin yms.) |
| termimääritelmä aineopiskelijalle | kaikki tilastokeskuksen tilastot, joissa termi esiintyy: esi- ja peruskouluopetus, lukiokoulutus ja oppilaitosten aikuiskoulutus | selittävä tieto: aineiston rakennetta tai merkitystä tarkentava tieto | TK:n metatietopankki, jossa tilastojen kuvaukset on linkitetty käsitemäärittelyihin ja käsitteet niitä käyttäviin tilastoihin |
| Assyria-hakusana | kaikki, mikä käyttää yleistä suomalaista asiasanastoa (YSA:a) asioiden ja käsitteiden luokitteluun, esimerkiksi kirjastojen tiedot Gilgamesh-eepoksesta jotka puolestaan ovat varsinaisen kirjan metatietoa | selittävä tieto: aiheita luokitteleva ja niiden välisiä yhteyksiä määrittävä tieto | YSA:n tietokanta, jossa asiasanat on linkitetty synonyymeihinsa ja kieliversioihinsa |
| Tiedostomuoto (HTML), merkistö (UTF-8), tiedoston koko (26281 tavua) | CSC:n etusivu | tekninen tieto | CSC:n julkaisujärjestelmä |
| tieto siitä, mitä blogikirjoitukselle pitää seuraavaksi tehdä | tämä blogikirjoitus | käsittelytieto: tieto kirjoituksen tämänhetkisestä tilasta ja suunnitelma tulevasta käsittelystä | Panun pää |
Taulukosta huomaa, että metatiedon ei tarvitse edes kirjoitettaessa liittyä tiettyyn aineistoon, vaan eri aineistot voivat joiltain osin käyttää etukäteen annettuja metatietoja, jos ne soveltuvat aineistolle eli pitävät paikkansa aineiston suhteen. Mitä tulee säilytystapaan, tietotekniset metatietojen tallennusratkaisut korostuvat, koska halusin valita esimerkkejä, jotka ovat jollain tavoin saavutettavissa selaimella.
Kun kerran metatiedolla tarkoitetaan näin monimuotoisia asioita, pitäisi kaikille olla selvää, että metatieto käsitteenä on useisiin keskusteluihin liian yleisluontoinen. Kun esimerkiksi vaaditaan julkisille tiedoille parempia metatietoja, tuskin kukaan tarkoittaa sillä tietokantaa, jossa on kiljoona tietoa tyyliin "Panu ei tykkää tekijänoikeuslaista" ja "eduskunnan etusivulla on 160 k-kirjainta". Metatietoja suunniteltaessa onkin pakosti mielessä jokin visio siitä, mihin metatietoja tullaan käyttämään. Esimerkiksi kirjastot keräävät teosten metatietoja tietokannoiksi helpottaakseen teosten löytämistä. Kyselyaineiston metatiedoilla pyritään usein myös tukemaan aineiston tulkintaa. Toisaalta asiakirjanhallintajärjestelmissä saatetaan pitää sellaisia asiakirjojen metatietoja, joita ei ole missään muualla ja jotka eivät saa hävitä: esimerkiksi asiakirjan vastuuhenkilöä, käsittelyhistoriaa ja julkisuusastetta.
Mutta vaikka metatietoja kirjoitettaessa onkin yleensä mielessä ainakin jokin metatietojen käyttötarkoitus, toisaalta metatiedoilla pyritään usein vastaamaan myös tuleviin, tuntemattomiin tarpeisiin. Periaatteessahan metatietojen rikastuttaminen ei ole keneltäkään pois, vaan jokainen lisätty metatieto on tulevaisuudessa potentiaalisesti hyödynnettävä tieto, vaikka se vaikuttaisi täysin epäolennaiselta: esimerkiksi kuvailtavan aineiston tuottajan oman henkilökohtaisen tietokoneen malli. Varsinkin kehitettäessä metatietostandardeja ja -vaatimusmäärittelyitä on suuri kiusaus vain lisätä määrittelyyn kaikki mahdollinen taivaan ja maan väliltä ihan vain kaiken varalta. Tällaisessa on kuitenkin ongelmansa, joita käsittelen seuraavissa kirjoituksissani.
Korkealuokkaisten metatietojen tuottamisessa on mielestäni keskeistä, että ainakin joitain niiden käyttötarkoituksia on selvillä. Tämä ohjaa metatiedon tuottajan intuitiota tarvittavasta tiedosta paremmin kuin perustelematon lista annettavista metatiedoista. Uskon, että metatieto, joka palvelee yhtä käyttötarkoitusta hyvin, on vähintään yhtä käyttökelpoista ennakoimattomiin tarkoituksiin kuin metatieto, jonka käyttötarkoitus on jätetty avoimeksi. Käyttötarkoituksen ei tarvitse olla kovin ihmeellinen: hyviä käyttötarkoituksia ovat esimerkiksi vastaaminen kysymyksiin "pystynkö käyttämään aineistoa koneellani" ja "missä aineistossa on minua kiinnostavia tietoja". Metatietoja voidaan käyttää tukemaan tiedon löytämisen lisäksi tiedon tulkintaa, verrannollisuutta muihin tietoihin, jatkokäsiteltävyyttä, tallettamista ja monia muita tarkoitusperiä.
Seuraavissa kirjoituksissani paneudun metatietojen yhtenäistämisen haasteisiin, jonka jälkeen käsittelen suoraan työhöni liittyviä relaatiomuotoisten aineistojen metatietoja.