Omat työkalut
Osiot
Olet täällä: Etusivu > Tiedot käyttöön > Metatiedot, osa 1½: rekisteriaineistojen metatietostandardeja
@CSC-blogit

Blogien kirjoittajat ovat CSC - Tieteen tietotekniikan keskus Oy:n asiantuntijoita. Asiantuntijat ovat vastuussa blogeihin tuottamastaan sisällöstä.

Lukijoilla on mahdollisuus kommentoida julkaistuja blogitekstejä. CSC tai sen työntekijät eivät vastaa lukijoiden palveluun tuottamista sisällöistä.

CSC:llä on oikeus poistaa palvelusta lukijoiden kommentit, mikäli ne ovat hyvän tavan tai lain vastaisia tai muulla tavoin loukkaavia.

 
Sivun toiminnot

Metatiedot, osa 1½: rekisteriaineistojen metatietostandardeja

Kirjoittanut Panu Kalliokoskikirjoitettu: perjantai 06. elokuuta 2010, 09.51 viimeisin muutos: maanantai 16. elokuuta 2010, 09.07
Ihmiset ja sitä myötä projektit palailevat pikku hiljaa kesälomilta, ja sitä myötä blogiakin voisi päivittää. En kuitenkaan kirjoita tällä kertaa kovin yleisellä tasolla, vaan kerron niistä käytännön metatietoasioista, joista on puhuttu ennen ja jälkeen kesälomien. Erityisesti tarkastelen matriisimuotoisten aineistojen kuvailun standardeja.

Kuten aiemmin kirjoitin, MIDRAS-pilotissa tarvittaisiin jonkinlainen katalogi olemassaolevien aineistojen kuvailemiseksi.  Koska aineistojen on tarkoitus tulla useammalta rekisteriorganisaatiolta, pitää sopia osapuolten kesken vähintään, mitä metatietoja aineistoista annetaan katalogia varten, ja mielellään myös, missä muodossa nämä tiedot annetaan.  Yhdessä rekisteriorganisaatioiden kanssa on jo sovittu siitä, mihin tarkoitukseen (ainakin) metatietoja kerätään eli mitä tavoitteita metatietojen keruulla on tarkoitus saavuttaa:

  1. aineistojen julkaisu ja mainostaminen
  2. aineistojen luokittelu ja etsintä
  3. käyttölupahakemusten laadun parantaminen
  4. aineistojen käsittelyn (tutkimuksen) tuki
  5. alkuperäisten aineistojen tietosuojan säilyttäminen

3. ja 5. kohta saattavat kaivata avaamista.  Koska henkilörekisteriaineistojen tietosuojavaatimukset ovat suuret, tutkijat eivät tietenkään voi selailla näitä aineistoja noin vain.  Tarvitaan tietojen käyttölupa, joka perustuu tutkimussuunnitelmaan.  Mutta miten hakea käyttölupaa, jos ei tiedä, mitä aineistoja on tarjolla?  Korkealaatuisilla aineistojen metatiedoilla voidaan suuresti helpottaa tutkimussuunnitelman laatimista ja kaikkien, sekä rekisteriorganisaatioiden että tutkijoiden, kommunikaatio- ja sopimistyö helpottuu.

Joka tapauksessa, kevään ja kesän mittaan on hiottu MIDRAS-järjestelmän metatiedon vaatimusmäärittelyä, eli määritystä siitä, mitä metatietoja pitäisi mistäkin aineistosta antaa ja kuinka keskeinen mikin on.  Vaatimusmäärittely alkaakin olla jo aika hyvässä jamassa.  Tämän työn esittely on kuitenkin niin laaja aihe, että se vaatisi oman artikkelinsa.

Sen sijaan haluan kertoa tarkemmin siitä, millaisia haasteita olemme kohdanneet, kun olemme yrittäneet löytää hyvän metatietojen esitysmuodon.  Tämä on malliesimerkki asiasta, jossa ei kannata keksiä pyörää uudelleen: mitä laajemmin jotain tiettyä metatiedon esitysmuotoa käytetään, sitä todennäköisempää on, että kahden aineiston eri tarkoituksia varten kirjoitetut metatietokuvaukset ovat edes jossain määrin yhteismitallisia, ja sitä enemmän laajasti käytetyn metatietomuodon työkaluja kehitetään ja on saatavilla.  Esimerkiksi, jos pohjoismaiden tilastokeskukset joskus päättävät yhdistää tuottamiensa aineistojen tiedot suureksi aineistokatalogiksi, työ on huomattavasti helpompaa jos metatiedot on alun alkaen esitetty samassa muodossa tai ne sisältävät edes suunnilleen samaan tapaan jaotellut tiedot, jolloin automaattinen muuntaminen muodosta toiseen on mahdollista.

Jos ei välitä ollenkaan aineiston sisäisestä rakenteesta vaan kiinnittää huomiota vain sen yleisiin ominaisuuksiin (kuten kirjoittajaan, julkaisupäivään ja kuvaukseen), tarjolla on monia standardeja siitä, kuinka metatiedot esitetään; kansainvälisesti prominentein on ilman muuta Dublin core ja Suomessa on olemassa myös sille pohjautuva asiakirjojen kuvailusuositus JHS143.  Rekisteriaineistoilla on kuitenkin metatiedoille asettamiemme tavoitteiden kannalta tärkeä rakenne, jota näillä standardeilla ei pysty kuvailemaan.  Tyypillinen rekisteriaineisto on matriisimuotoista (eli relationaalista / taulukkomaista yksilödataa), jossa yksi rivi vastaa jotain havaintoyksikköä kuten henkilöä, kiinteistöä tai lääkeostotapahtumaa, ja jokaisella rivillä on samat tiedot, kuten nimi, osoite ja sormien määrä.  Näitä eri tietoja kutsutaan aineiston muuttujiksi.  Erityisesti näiden muuttujien tiedot, kuten selitys, kattavuus aineistossa, esitystapa ja niin edelleen, ovat keskeisiä tavoitteidemme kannalta.

Yllättävää kyllä, vaikka matriisimuotoinen tieto on erittäin yleistä ja sille on vakiintuneita esitys- ja talletusmuotoja kuten CSV ja HTML-taulukot, emme ole onnistuneet löytämään mitään laajassa käytössä olevaa tapaa esittää matriisimuotoisten aineistojen metatietoja.  Niinpä matriisimuotoisten aineistojen kuvailustandardeihin tutustuminen on ollut hämmentävä seikkailu, jossa vähintään puolet tuntuu olevan politiikkaa: erilaisten metatietostandardien esittelijät tuovat esiin omien ratkaisujensa hyviä puolia, joskus moittivat toisiaan, ja tilasto- ja rekisteriviranomaiset eri puolilla maailmaa suunnittelevat ja tekevät periaatepäätöksiä siitä, mihin suuntaan ollaan menossa.  Tässä viidakossa pienen teknisen asiantuntijan pää menee pyörälle, mutta on myös korvaamattoman arvokasta oikeasti katsoa, millaisia eri standardit ovat, ja esittää oma, ehkä valistumaton arvionsa siitä, millaisia hyviä ja huonoja puolia niillä on.  Matriisimuotoisen aineiston metatietostandardit näyttävät myös olevan sen verran esoteerinen aihe, että juuri kukaan ei uskalla julistautua asiassa varsinaiseksi asiantuntijaksi.  Tarkastelen tässä niitä vaihtoehtoja, joista olen tietoinen: näitä ovat yhteiskuntatieteilijöiden DDI2.1 ja DDI3, Eurostatin SDMX ja Suomen tilastokeskuksen CoSSI.  Näillä kaikilla on XML-pohjaiset talletus- tai lähetysmuodot.

DDI2.1 on näistä vakiintunein ja ollut pisimpään käytössä.  Dokumentaatio jättää toivomisen varaa ja varsinkin käyttöesimerkkejä on vaikea löytää, mutta Suomessa yhteiskuntatieteellinen tietoarkisto FSD käyttää DDI2.1:a aineistojensa kuvailuun.  Jostain syystä DDI-muotoiset kuvailut eivät ole julkisesti saatavilla muutamaa esimerkkiä lukuun ottamatta, vaan FSD käyttää niitä sisäisiin tarkoituksiin ja tuottaa niiden perusteella aineistojen hakupalvelun sekä ihmisten luettavaksi tarkoitetun aineistokuvailun, "koodikirjan".  DDI2.1 on kohtuullisen yksinkertainen ja rakenteeltaan melko intuitiivinen tiedostomuoto; se on suunniteltu kuvaamaan erityisesti kyselylomakkeilla kerättyä dataa ja siksi siinä on joitain rekisteritietojen kannalta hankalia piirteitä, kuten turhaa infrastruktuuria alkuperäisten kyselylomakkeiden kuvaamiseen ja puuttuvia elementtejä, joita tarvittaisiin aineiston tietosuojan, keruutavan muutosten yms. kuvaamiseen.  DDI2.1:stä voisi laajentamalla saada vaatimusmäärittelyn mukaisen metatietostandardin.  Yksi DDI2.1:n ongelma on se, että jäyhän rakenteensa vuoksi siinä on vaikeaa uudelleenkäyttää tietoa: esimerkiksi, jos aineistossa käytetään kahden muuttujan koodaamiseen (esim. pää- ja sivudiagnoosi) samaa koodia (esim. jotain kansainvälistä tautiluokitusta), koodaus pitää määritellä molemmissa muuttujissa erikseen.

DDI3 on standardi, joka on suunniteltu korjaamaan DDI2.1:n puutteet.  Samalla rakenne on pantu täydellisen uusiksi.  DDI3-kuvailuista ei ole esimerkkejä ollenkaan ja sen dokumentaatiosta on todella vaikeaa yrittää päätellä, miten sitä olisi tarkoitus käyttää.  DDI3-kuvailuja on raskasta kirjoittaa käsin ja erittäin hankalaa lukea ilman apuohjelmia, koska ne ovat täynnä viittauksia paikasta toiseen.  Esimerkiksi muuttujan tiedoissa ei lue enää, mitä mikin muuttujan arvo tarkoittaa, vaan sieltä on viittaus koodausmäärittelyyn josta taas on viittaus asioiden kategorisointimäärittelyyn.  Projektimme tekisi mitä ilmeisimmin suuren hyvän työn, jos tuottaisimme DDI3:n käytöstä esimerkkejä ja työkaluja, joilla DDI3:a voi työstää.

SDMX on uusin tulokas, euroopanlaajuiseen tilastotietojen siirtoon ja kuvailuun tarkoitettu, kalliilla kehitetty standardi.  En ole tutustunut siihen vielä kovin perinpohjaisesti, mutta eräs SDMX:n hämmentävä piirre on se, että siinä voi esittää asiat varsin monella tavalla.  Erilaisille tietotyypeille (joita SDMX:ssä kutsutaan "viesteiksi") on monta eri koodausta, joiden peruste näyttää lähinnä olevan yleiskäyttöisyys vs. viestin lyhyys.  Koska ihan hyviä pakkaustapojakin on keksitty, ei olisi tullut minulle ensimmäiseksi mieleen, että tilastotietojen kuvailua suunnittelevien ihmisten tarvitsisi kiinnittää huomiota kuvailujen tilankulutukseen.  Dokumentaatio on kohtalaista, jopa käyttöesimerkkejä löytyy.  Tilastodatan kuvailu on jonkin verran erilaista kuin yksilödatan kuvailu, mikä vaikeuttaa SDMX:n soveltamista rekisteriaineistoihin.

CoSSI on hengeltään jonkin verran samanlainen mutta tietomalliltaan erilainen kuin DDI2.1.  Tilastokeskus käyttää sitä aineistojensa kuvailussa, mutta kovin kattavia kuvailuja CoSSIlla ei ilmeisesti ole vielä tehty.  CoSSI on kuitenkin käyttökelpoinen ja kattaa aineistojen perustiedot oikein hyvin.  CoSSIlle on jonkin verran työkaluja ja käyttöesimerkkejä, mutta kaikki näistä eivät ole julkisesti saatavilla.

Tietoarkiston DDI-muotoinen metadata nyt saatavilla

Kirjoittanut: Mari Kleemola - tiistai 07. joulukuuta 2010, 13.11
Tietoarkisto on nyt julkaissut kuvailunsa DDI-XML-tiedostoina:
http://www.fsd.uta.fi/aineistot/taustatietoa/ddi-records.html

Aiemmin näitä ei ole julkaistu siitä yksinkertaisesta syystä, että kysyntää ei ole ollut! Tilanne on nyt kuitenkin muuttunut ja kiinnostus metadataa kohtaan lisääntynyt huomattavasti viimeisen parin vuoden aikana, mistä olen enemmän kuin iloinen. Metadataratkaisuja kannattaa ehdottomasti hakea yhteistyöllä (kansallisella ja kansainvälisellä), monet kysymykset kun ovat samoja alasta tai kuvailtavasta datasta riippumatta. MIDRAS-loppuraporttia odotan suurella mielenkiinnolla.

Re: Tietoarkiston DDI-muotoinen metadata nyt saatavilla

Kirjoittanut: Panu Kalliokoski - tiistai 07. joulukuuta 2010, 13.41
Hienoa, Mari! Kiitos!

Nyt kaikilla on käytettävissään yhä enemmän tietoa siitä, miten aineistoja kuvaillaan ja mitkä ovat hyviksi havaittuja käytäntöjä (FSD:n aiempikin kontribuutio asiaan on tietenkin kunnioitettavaa).

PCGIXCLsgyBbqp

Kirjoittanut: EftMGRcPDKTQWivykRh - lauantai 25. helmikuuta 2012, 00.20
cuje se dobrMislim da je zjdani cas, da se represivni aparat neha vtikati pravico cloveka do uzivanja raznoraznih substanc. Ne vem zakaj je alkohol dovoljen, trava pa strogo prepovedana in preganjana. Vojna proti drogam kriminalizira povsem postene ljudi. Nekdo ki goji in prodaja konopljo ni slab clovek ali kriminalec, saj le zadovoljuje potrebe ostalih. Ideja coffi shopov kot so v Amsterdamu, Pragi ter se kje je povsem sprejemljiva. Ne prinasa nasilja ali motenja ostalih ter omogoca policiji da se zacne ukvarjati z resnejsimi problemi. V glavnem LEGALIZE IT, saj jo kdor jo zeli kaditi jo itak kadi.
Lisää kommentti

Voit lisätä kommentin täyttämällä alla olevan lomakkeen. Mitään muotoilumahdollisuuksia ei ole.

Pakollinen tieto
Kirjoita nimesi.
(Pakollinen)
(Pakollinen)
(Pakollinen)
Kirjoita kenttään oikeanpuoleisessa laatikossa olevat kirjaimet. Tällä estetään sivuston automaattinen väärinkäyttö.
Captcha