Datan säilytys ja turvaaminen

Datan säilytys ja turvaaminen

Tutkimuksessa käytetystä ja tuotetusta datasta huolehtiminen kuuluu tutkijan perustaitoihin. Jo tutkimuksen alkuvaiheessa tutkijoiden on huomioitava datan elinkaari.

Rahoitusta haettaessa monet rahoittajat kuten Suomen Akatemia vaativat datanhallintasuunnitelman, jossa huomioidaan mm. aineistonkeruu ja käsittely, oikeudet ja luvat, tiedostomuodot, metatiedot, pysyvät tunnisteet sekä datan tallennus, säilytys ja avaaminen. Datan sensitiivisyys, jatkuvat datavirrat ja suuret  datamäärät tuovat omat eritysvaatimuksensa datanhallintaan.

Datan tallennus

Hyvä datan tallennuspaikka on tietoturvallinen ja varmuuskopioitu ja data on helposti jaettavissa halutun ryhmän sisällä. Esimerkiksi CSC:n ympäristössä aktiiviselle datalle löytyy projektihakemistot laskentaympäristöstä ja pilvipalveluista tai datan voi tallentaa koko järjestelmän yhteiseen datanhallintaympäristöön. Aktiivisen datan tallennusvaihe on suhteellisen lyhyt ja sen jälkeen pysyvän (muuttumattoman) datan säilytykselle on omat säilytyspalvelunsa ja kansallisesti merkittävät aineistot siirretään digitaalisen pitkäaikaissäilytyksen piiriin.

Datan säilytyspalvelut

Datan säilyttämisellä tarkoitetaan pysyvän datan säilyttämistä useiden vuosien ajan. Tätä varten on olemassa erilaisia säilytyspalveluita. Esimerkiksi opetus- ja kulttuuriministeriön Fairdata-palveluihin kuuluu pysyvän datan säilytykseen ja jakamiseen tarkoitettu IDA ja yhteiseurooppalainen EUDAT tarjoaa B2SHARE-palvelun avoimesti lisensoidun tutkimusdatan säilyttämiselle ja jakamiselle.

Digitaalinen pitkäaikaissaatavuus

Digitaalinen pitkäaikaissäilytys (PAS) tarkoittaa digitaalisen informaation säilyttämistä ymmärrettävänä ja käytettävänä useiden kymmenien tai jopa satojen vuosien ajan.

Pitkäaikaissäilytyksen rinnalla puhutaan myös pitkäaikaissaatavuudesta, joka korostaa sitä, että data on paitsi säilöttynä, myös saatavilla tutkimuskäyttöön satojen vuosien päästäkin ja käytettävissä tulevilla laite- ja ohjelmistoympäristöissä ja tiedostomuodoissa. Tämä edellyttää jatkuvaa datan migraatiota.

Digitaalinen pitkäaikaissäilytys jaetaan usein semanttiseen, loogiseen ja bittitason säilyttämiseen. Näistä semanttinen säilyttäminen keskittyy aineistojen sisältöön, merkittävyyteen ja näiden kuvailuun, looginen säilyttäminen aineistojen käyttökelpoisuuden hallintaan ja bittitason säilyttäminen varmistaa datan eheyden.  

Loogisessa säilyttämisessä keskeinen menetelmä on tiedostomuotojen migraatiot, joita varten kehitetään menetelmiä ja välineitä sekä ylläpidetään tähän liittyvää osaamista. Bittitason säilytyksessä hallitaan datasta riittävää määrää kopioita heterogeenisessä laiteympäristössä maantieteellisesti hajautettuna. Päivittäisessä toiminnassa huolehditaan aineistojen eheydestä, korjataan mahdolliset poikkeamat ja huolehditaan laitteistojen elinkaaren hallinnasta.

Digitaalisessa pitkäaikaissäilytyksessä säilyttäminen muodostuu aktiiviseksi huolehtimiseksi siitä, että informaatio säilyy siihen kohdistuvista erilaisista murroksista huolimatta. Ilman tätä huolehtimista laitteet, ohjelmistot ja tiedostomuodot, mutta myös ihmiset ja osaaminen, vanhenisivat ajan saatossa ja tietosisällöt tuhoutuisivat. Keskeistä on varmistaa hyvin toimivat prosessit, jotka mahdollistavat henkilöriippumattoman toiminnan ja osaamisen siirron uusille tekijöille.

Opetus- ja kulttuuriministeriön kansalliset digitaalisen pitkäaikaissäilytyksen palvelut huolehtivat sekä kulttuuriperinnön että tutkimukseen liittyvien aineistojen säilymisestä tuleville sukupolville. Kulttuuriperintöaineistojen pitkäaikaissäilytys aloitettiin yhdessä kansallisten muistiorganisaatioiden kanssa syksyllä 2015 ja tutkimukseen liittyvien aineistojen pitkäaikaissäilytys vuoden 2019 lopulla.

Fairdata-palvelukokonaisuus

Fairdata-palvelut muodostavat yhteentoimivan palvelukokonaisuuden aineistonhallintaan, aineistojen kuvailuun ja turvalliseen säilytykseen sekä merkittävien tietoaineistojen pitkäaikaisäilytykseen. IDA on tutkimusdatan säilytyspalvelu, Qvaimen avulla tutkimusaineistoon liitetään kuvailutiedot eli metadata ja Fairdata PAS-palvelu on tutkimusaineistojen pitkäaikaissäilytyspalvelu. Etsimen avulla avulla tutkija voi hakea tietoa tutkimusaineistoista tai tutkimusaineistoja käyttöönsä. Palveluiden yhteentoimivuuden varmistaa yhteinen metatietovaranto.

 

Video

CSC – suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus

Katso video Youtubessa »

Latest blogs and articles

More insights

Accelerating the discovery of materials to advance clean energy and zero-emission vehicles

Professor Antti Karttunen and Dr. Kevin Conley from the School of Chemical Engineering at Aalto University, Finland, use LUMI supercomputer in their research, that accelerates the discovery of materials for clean energy and zero-emission vehicles.

Read More »

Excitement about supercomputing at the heart of Europe: LUMI consortium event in Brussels on 5 March

“We need to be more encouraged, passionate in Europe, about what we can really do with our supercomputers, and we need to broaden the community,” said Margrethe Vestager, Executive Vice-President of the European Commission responsible for digital policy.

Read More »

Antti Penttilä studies light scattering in space

University researcher and docent in planetary sciences Antti Penttilä from the University of Helsinki, Finland, uses LUMI to study light scattering in space. The use of the LUMI supercomputer enables the calculation of significantly larger models than before.

Read More »

Summer School brings together learners interested in high-performance computing

CSC Summer School in High-Performance Computing was organized for the 13th time in Nuuksio in summer 2023. The number of participants broke all records. The course attracted more than 30 students from all corners of Europe with different educational backgrounds and starting points.

Read More »