Datan säilytys ja turvaaminen

Datan säilytys ja turvaaminen

Tutkimuksessa käytetystä ja tuotetusta datasta huolehtiminen kuuluu tutkijan perustaitoihin. Jo tutkimuksen alkuvaiheessa tutkijoiden on huomioitava datan elinkaari.

Rahoitusta haettaessa monet rahoittajat kuten Suomen Akatemia vaativat datanhallintasuunnitelman, jossa huomioidaan mm. aineistonkeruu ja käsittely, oikeudet ja luvat, tiedostomuodot, metatiedot, pysyvät tunnisteet sekä datan tallennus, säilytys ja avaaminen. Datan sensitiivisyys, jatkuvat datavirrat ja suuret  datamäärät tuovat omat eritysvaatimuksensa datanhallintaan.

Datan tallennus

Hyvä datan tallennuspaikka on tietoturvallinen ja varmuuskopioitu ja data on helposti jaettavissa halutun ryhmän sisällä. Esimerkiksi CSC:n ympäristössä aktiiviselle datalle löytyy projektihakemistot laskentaympäristöstä ja pilvipalveluista tai datan voi tallentaa koko järjestelmän yhteiseen datanhallintaympäristöön. Aktiivisen datan tallennusvaihe on suhteellisen lyhyt ja sen jälkeen pysyvän (muuttumattoman) datan säilytykselle on omat säilytyspalvelunsa ja kansallisesti merkittävät aineistot siirretään digitaalisen pitkäaikaissäilytyksen piiriin.

Datan säilytyspalvelut

Datan säilyttämisellä tarkoitetaan pysyvän datan säilyttämistä useiden vuosien ajan. Tätä varten on olemassa erilaisia säilytyspalveluita. Esimerkiksi opetus- ja kulttuuriministeriön Fairdata-palveluihin kuuluu pysyvän datan säilytykseen ja jakamiseen tarkoitettu IDA ja yhteiseurooppalainen EUDAT tarjoaa B2SHARE-palvelun avoimesti lisensoidun tutkimusdatan säilyttämiselle ja jakamiselle.

Digitaalinen pitkäaikaissaatavuus

Digitaalinen pitkäaikaissäilytys (PAS) tarkoittaa digitaalisen informaation säilyttämistä ymmärrettävänä ja käytettävänä useiden kymmenien tai jopa satojen vuosien ajan.

Pitkäaikaissäilytyksen rinnalla puhutaan myös pitkäaikaissaatavuudesta, joka korostaa sitä, että data on paitsi säilöttynä, myös saatavilla tutkimuskäyttöön satojen vuosien päästäkin ja käytettävissä tulevilla laite- ja ohjelmistoympäristöissä ja tiedostomuodoissa. Tämä edellyttää jatkuvaa datan migraatiota.

Digitaalinen pitkäaikaissäilytys jaetaan usein semanttiseen, loogiseen ja bittitason säilyttämiseen. Näistä semanttinen säilyttäminen keskittyy aineistojen sisältöön, merkittävyyteen ja näiden kuvailuun, looginen säilyttäminen aineistojen käyttökelpoisuuden hallintaan ja bittitason säilyttäminen varmistaa datan eheyden.  

Loogisessa säilyttämisessä keskeinen menetelmä on tiedostomuotojen migraatiot, joita varten kehitetään menetelmiä ja välineitä sekä ylläpidetään tähän liittyvää osaamista. Bittitason säilytyksessä hallitaan datasta riittävää määrää kopioita heterogeenisessä laiteympäristössä maantieteellisesti hajautettuna. Päivittäisessä toiminnassa huolehditaan aineistojen eheydestä, korjataan mahdolliset poikkeamat ja huolehditaan laitteistojen elinkaaren hallinnasta.

Digitaalisessa pitkäaikaissäilytyksessä säilyttäminen muodostuu aktiiviseksi huolehtimiseksi siitä, että informaatio säilyy siihen kohdistuvista erilaisista murroksista huolimatta. Ilman tätä huolehtimista laitteet, ohjelmistot ja tiedostomuodot, mutta myös ihmiset ja osaaminen, vanhenisivat ajan saatossa ja tietosisällöt tuhoutuisivat. Keskeistä on varmistaa hyvin toimivat prosessit, jotka mahdollistavat henkilöriippumattoman toiminnan ja osaamisen siirron uusille tekijöille.

Opetus- ja kulttuuriministeriön kansalliset digitaalisen pitkäaikaissäilytyksen palvelut huolehtivat sekä kulttuuriperinnön että tutkimukseen liittyvien aineistojen säilymisestä tuleville sukupolville. Kulttuuriperintöaineistojen pitkäaikaissäilytys aloitettiin yhdessä kansallisten muistiorganisaatioiden kanssa syksyllä 2015 ja tutkimukseen liittyvien aineistojen pitkäaikaissäilytys vuoden 2019 lopulla.

Fairdata-palvelukokonaisuus

Fairdata-palvelut muodostavat yhteentoimivan palvelukokonaisuuden aineistonhallintaan, aineistojen kuvailuun ja turvalliseen säilytykseen sekä merkittävien tietoaineistojen pitkäaikaisäilytykseen. IDA on tutkimusdatan säilytyspalvelu, Qvaimen avulla tutkimusaineistoon liitetään kuvailutiedot eli metadata ja Fairdata PAS-palvelu on tutkimusaineistojen pitkäaikaissäilytyspalvelu. Etsimen avulla avulla tutkija voi hakea tietoa tutkimusaineistoista tai tutkimusaineistoja käyttöönsä. Palveluiden yhteentoimivuuden varmistaa yhteinen metatietovaranto.

 

Video

CSC – suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus

Katso video Youtubessa »

Latest blogs and articles

More insights

Have you rolled the DICE?

DICE offers “something for everyone”, from individual scientist all the way up to the most demanding scientific research projects. The offering includes services ranging personal cloud storage for individuals and small teams to sophisticated services for projects, organisations and research infrastructures. The core of the service offering is the EUDAT service portfolio complemented with additional state-of-the-art services.

Read More »

Customisable EUDAT services as part of CSC's service portfolio

CSC offers a comprehensive range of data management services to help customers take care of their valuable data. Today, CSC offers EUDAT data services as part of its own service portfolio. EUDAT is a European consortium with its roots in EU projects led by CSC.

Read More »

Introducing CSC's content retention policy in Services for Research and Education

The volume of digital data is ever-growing, also in research. The owner of the content needs to be aware of legislative issues, understand the meaning of good data management practices and make plans for the data lifecycle. GDPR also sets requirements on data. Personal data must always be managed and deleted according to published plans and consents.

Read More »

Finland launches its national Forum for the European Open Science Cloud

Finland's Ministry for Education and Culture, Academy of Finland, the Federation of Finnish Learned Societies and CSC on Monday 25 January 2021 launched the country's forum for the European Open Science Cloud: the EOSC Finnish Forum (EOSC-FF).

Read More »