Omat työkalut
Osiot
Olet täällä: Etusivu > Tiedot käyttöön > MIDRAS-pilottijärjestelmä
@CSC-blogit

Blogien kirjoittajat ovat CSC - Tieteen tietotekniikan keskus Oy:n asiantuntijoita. Asiantuntijat ovat vastuussa blogeihin tuottamastaan sisällöstä.

Lukijoilla on mahdollisuus kommentoida julkaistuja blogitekstejä. CSC tai sen työntekijät eivät vastaa lukijoiden palveluun tuottamista sisällöistä.

CSC:llä on oikeus poistaa palvelusta lukijoiden kommentit, mikäli ne ovat hyvän tavan tai lain vastaisia tai muulla tavoin loukkaavia.

 
Sivun toiminnot

MIDRAS-pilottijärjestelmä

Kirjoittanut Panu Kalliokoskikirjoitettu: torstai 22. huhtikuuta 2010, 08.50 viimeisin muutos: keskiviikko 19. toukokuuta 2010, 16.20
Mukava tapa aloittaa blogi on mainostaa projektia, jossa työskentelee :)

CSC ja ReTki (Rekisteritutkimuksen tukikeskus) ovat tänä vuonna tekemässä pilottitoteutusta rekisteritietojen etäkäyttöjärjestelmälle opetus- ja kulttuuriministeriön rahoituksella.  Järjestelmän nimeksi on ehdotettu MIDRAS (microdata remote access system) ja sen tarkoituksena on tarjota selkeä, helppokäyttöinen, tietoturvallinen ja kaikkien osapuolten työtä vähentävä väylä rekisteritietojen tutkimuskäytön tukemiseksi.  Käytännössä kyseessä on etätyöpöytä, jolla tutkijat pystyvät työstämään eri rekisterinpitäjiltä tutkimusta varten käyttöön saatuja aineistoja lataamatta niitä omille koneilleen.  Tietosuoja on erityinen huomiokohta: käyttäjät identifioidaan vahvalla tunnistuksella ja heille avatut aineistot perustuvat tutkimussuunnitelman perusteella myönnettyihin käyttölupiin.  Selvitysprojektista on julkaistu aiemmin lehdistötiedote.

MIDRAS-järjestelmän keskeinen ominaisuus on se, että sen kautta on tarkoitus pystyä yhdistelemään useamman tahon tietoja, esimerkiksi työllisyystietoja terveystietoihin tai kuolinsyytietoja tulotietoihin.  Esimerkkejä aineistojen tuottajista ovat Tilastokeskus TK, Kansaneläkelaitos Kela, Terveyden ja hyvinvoinnin laitos THL, Väestörekisterikeskus VRK, työ- ja elinkeinoministeriö TEM, Finanssivalvonta FIVA, verohallinto ja niin edelleen.  Koska tietojen tuottajia on useampia ja henkilötietolaki edellyttää, että henkilötietoja käsitellään henkilötunnisteellisina vain niin kauan kuin on pakko, MIDRAS-järjestelmään liittyy myös mielenkiintoinen deidentifiointijärjestelmä: henkilötunnisteet korvataan tutkijoita varten pseudotunnisteilla, jotka ovat tutkimusprojektikohtaisia mutta yhdelle projektille eri rekisterinpitäjiltä saatavissa aineistoissa samat.

Nyt käynnissä olevan pilottiprojektin on tarkoitus selvittää, myös käytännön kokeilulla, millaisia hallinnollisia muutoksia esimerkiksi lakeihin ja viranomaisten käytäntöihin uusi järjestelmä edellyttää, millaisia tietoteknisiä ratkaisuja siihen käytetään ja millaista toimintamallia ja vastuunjakoa siihen sovellettaisiin käytännön töissä ja rahoituksessa.  Toteutuessaan MIDRAS-järjestelmä olisi käytettävissä moneen muuhunkin asiaan kuin rekisteritutkimuksen tukemiseen: se tarjoaa hyvän kanavan jakaa arkaluontoisia tai henkilötietosuojan alaisia aineistoja hyödylliseen käyttöön.  Jo rekisterinpitäjien kanssa käydyissä neuvotteluissa on tullut ilmi, että joillekin rekisterinpitäjille saattaisi olla hyötyä aineistojen jakamisesta oman talon käyttöön tällaisella joustavalla, tietosuojaltaan korkeatasoisella ja hyvin auditoidulla järjestelmällä.  MIDRAS-järjestelmään voisi tuoda myös muita, vähemmän arkaluontoisia aineistoja; esimerkiksi maanmittausaineistoja voisi käyttää yhdessä hoitoilmoitusrekisterin kanssa selvittämään, millaiset sairaudet ovat ominaisia millaiselle asuinalueelle.

Toinen mielenkiintoinen selvitystyössä ilmennyt asia on oheispalveluiden merkitys: ennen kaikkea se, että käytettävissä olevista aineistoista olisi käytössä mahdollisimman korkeatasoista julkista tietoa, aineistojen metatietoa.  Rekisteritutkimuksessa on haasteellista selvittää, millaisia aineistoja olisi olemassa omaa tutkimusaihetta varten ja mitä tunnetut aineistot tarkkaan ottaen sisältävät.  MIDRAS-järjestelmän oheispalveluksi on suunniteltu ensinnäkin rekisteriaineistojen laajamittaista metatietovarastoa, josta olisi helppoa selvittää esimerkiksi, missä kaikissa aineistoissa on syntyvyyteen liittyviä tietoja/muuttujia; toiseksi näihin metatietoihin pohjautuvaa lupahakemuspalvelua, joka auttaa ja ohjaa tutkijoita laadukkaiden ja tarkkojen lupahakemusten tekemisessä.  Hyvä metatieto käytettävissä olevista aineistoista sekä tukee tutkijaa, joka yrittää selvittää tutkimusideansa toteutustapaa, että antaa aineksia myös uusiin tutkimusideoihin.

Tästä kaikesta muodostuu mielestäni kaunis visio.  Tulevaisuudessa tutkijalle (tai muulle legitiimille tiedon käyttäjälle) on selkeästi tarjolla käytettävissä olevien aineistojen metatieto, joka auttaa hahmottamaan, millaista tietoa on mahdollista saavuttaa olemassa olevia aineistoja hyödyntämällä.  Aineistot ovat käyttösuunnitelmaan perustuvan käyttöluvan pohjalta helposti tarkasteltavissa, ilman että aineistojen päätymisestä vääriin käsiin tarvitsee huolehtia sen paremmin rekisterinpitäjän kuin käyttäjänkään.  Eri lähteissä tuotetut aineistot saadaan yhteen järjestelmään ilman aineistokohtaista erillistä sopimista ja selvittelyä osapuolten kesken.  Aineistot ovat tietosisällöltään mahdollisimman autenttista rekisteridataa, jonka ymmärtämisessä metatieto tarjoaa merkittävän avun.  Tutkimuksesta saadut tulokset ja tutkimuksen avuksi tehty työ voidaan helposti hyödyntää esim. jatkotutkimuksessa päivittämällä aineistoja.

Myöhemmissä kirjoituksissa olen ajatellut kertoa näkökulmista ja havainnoista, joihin olen törmännyt tämän projektin yhteydessä.  Itse projektista kertonen vain, jos siinä tapahtuu jotain selkeästi uutta tai jos esimerkiksi siinä julkaistaan uusia palveluita.  Seuraavaksi paneudun aineistojen metatietoihin ja siihen, millaisten kysymysten kanssa niissä painitaan.

Rekisteriaineiston metatiedot

Kirjoittanut: Reino Ruotsalainen - perjantai 26. marraskuuta 2010, 17.35
Eräillä aihealueilla aineistojen metatietokuvailut on jo melko tarkoin standardoitu. Esim. paikkatietojen metatiedoista on annettu peräti komission asetus (http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2008:326:0012:0030:FI:PDF). Se pohjautuu standardin ISO 19115 käyttämiseen. Lisäksi myös tietotuotteiden kuvailua on vakioitu esim. JHS 177:n avulla, joka puolestaan nojautuu standardiin ISO 19131.
Rekisterin kuvailemiseen ei ehkä jää suuria vapausasteita, kun otetaan huomioon vielä muut aihetta sivuavat standardit (esim. ISO 19135).

Sen sijaan melkoisen levällään on rekisteripalveluiden standardointi (siis millaisten standardien varaan rekisterien tietopalvelut pitäisi rakentaa). Rekisterien tietomalleja lähestyy esim. ebRIM ja kyselykieltä (Geo)SPARQL YM.

Käyttöoikeuksien hallintakysymykset kannattaa ehkä pitää metatiedoista erillään. Näihinkin yhteyksiin on yritetty kehittää standardeja, esim. ISO 19149 ja 19153 sekä ohjelmistoja http://shibboleth.internet2.edu/ ym.

Siispä jään mielenkiinnolla odottamaan, mitä JHS-hankeaihio "Rekisteriaineiston metatiedot" pitää sisällään.

Rekisteriaineiston metatiedot

Kirjoittanut: Panu Kalliokoski - maanantai 29. marraskuuta 2010, 11.16
Kiitos selventävistä huomautuksista! Metatietojen standardeja on käsitelty vielä tarkemmin toisessa kirjoituksessa (http://www.csc.fi/blogit/tiedot-kayttoon/metatiedot-osa-112). Asiat ovat kuitenkin edenneet tämänkin jälkeen; yritän sisällyttää JHS-hanke-esitykseeni kaiken tarvittavan.
Lisää kommentti

Voit lisätä kommentin täyttämällä alla olevan lomakkeen. Mitään muotoilumahdollisuuksia ei ole.

Pakollinen tieto
Kirjoita nimesi.
(Pakollinen)
(Pakollinen)
(Pakollinen)
Kirjoita kenttään oikeanpuoleisessa laatikossa olevat kirjaimet. Tällä estetään sivuston automaattinen väärinkäyttö.
Captcha