Mitä tutkimusaineistoa luotaessa on syytä huomioida?

Kuva: Adobe Stock

Mitä tutkimusaineistoa luotaessa on syytä huomioida?

Tutkimusaineiston hallinta alkaa jo ennen aineiston keräämistä. Vähintään on syytä päättää, keiden ja millaiseen käyttöön aineisto on tarkoitettu, ja millaisin oikeuksin nämä lopuksi pääsevät siihen käsiksi. Tämä vaikuttaa erityisesti siihen, millaista lähdemateriaali voi olla sekä mistä ja miten keinoin sitä voi hankkia. 

Mikäli aineiston on tarkoitus sisältää julkaistua tekstiä tai audiovisuaalista materiaalia, tekijänoikeudet saattavat rajoittaa käyttöä ratkaisevasti. Vastaavasti esimerkiksi haastatteluina kerätty data on käyttökelpoista ainoastaan jos tutkittavien kanssa tehdyt sopimukset sen sallivat. Maailmassa on paljon käyttökelpoista tutkimusmateriaalia, joka pölyttyy fyysisesti tai virtuaalisesti, koska sille ei ole mahdollista antaa tarkoituksenmukaisen käytön mahdollistavaa lisenssiä.

Ihanteellisessa tilanteessa heti aluksi on jo tiedossa, missä valmis aineisto on tarkoitus julkaista. Useilla aloilla on omat julkaisualustansa ja arkistonsa, joihin kannattaa olla yhteydessä, koska jokaisella on todennäköisesti omat sääntönsä ja ohjeensa. Moni tutkimusinfrastruktuuri tarjoaa myös erilaisia tukipalveluja, joista kannattaa ottaa selvää hyvissä ajoin. Ajatuksissa oleva arkisto todennäköisesti luokittelee julkaistut aineistot jollain tavalla, joten on myös hyvä miettiä, miten oma aineisto suhtautuu näihin luokituksiin.

Aineiston julkaiseminen ja ylläpito vaativat teknistä osaamista, etenkin jollei julkaisualusta tarjoa sisällöntuottajille valmista niin sanottua julkaisuputkea tai aineiston tuottajalla satu olemaan omaa soveltuvaa osaamista. Tästä syystä datan koko elinkaari tulee huomioida budjetoinnissa ja rahoituksen olla suunniteltuna siten, että otetaan huomioon eri työvaiheiden kustannukset, myös siltä osalta jona tuottaja ei enää välttämättä itse ole aktiivisesti tekemisissä aineistonsa kanssa.

Toinen keräysvaiheen tärkeimmistä huomioitavista asioista on aineiston laatu. Tässäkin kohden kuvaan astuu datan elinkaari. Laadukas aineisto paitsi täyttää alkuperäisen tarkoituksensa, voi niin ikään olla kiinnostava jollekulle toiselle tutkijalle. Laatuun vaikuttaa datan formaatti, jonka valitsemiseksi kannattaa perehtyä julkaisualustan tarjoamiin ohjeisiin. Eri aloilla on omat vaatimuksensa aineistoille. Esimerkiksi kielitieteen tarkoituksiin kontekstistaan irrotetut lauseet (jollaisessa muodossa vaikkapa julkaistuja romaaneja voi olla mahdollista tarjota tutkimuskäyttöön), kun taas yhteiskuntatieteellinen tutkija haluaa nähdä tekstin kokonaisuudessaan.

Laadun ohella aineiston käytettävyyteen vaikuttavat sen saatavuus ja saavutettavuus. Mikäli aineisto sisältää esimerkiksi henkilötietoja tai muuta arkaluonteista, sen tarjoaminen loppukäyttäjille vaatii mitä todennäköisimmin suojausluokitusta sekä muun muassa pääsynhallintaa ja käyttölupien myöntämistä henkilökohtaisten, perusteltujen hakemusten perusteella, mahdollisesti määräajaksi. Mikäli data on erityisen arkaluonteista, useimmilla julkaisualustoilla ei välttämättä ole lainkaan olemassa olevia keinoja täyttää turvallisuusvaatimuksia. Arkaluonteisuutta voi vähentää esimerkiksi anonymisoimalla tekstiä, mutta tällöin on huomioitava, että joidenkin tutkimusalojen näkökulmasta tämä voi merkittävästi heikentää aineiston kiinnostavuutta. Puhe- ja videoaineistot sisältävät luonnostaan yksilöivää henkilötietoa, koska henkilöt ovat tunnistettavissa äänen tai kuvan perusteella.

Saavutettavuuden ratkaiseva tekijä on, että käyttäjät löytävät aineiston. Löydettävyydessä auttaa, että aineistolla on selkeät ja informatiiviset kuvailutiedot eli metadata, jotka ovat saatavilla kyseisellä alalla käytetyissä hakupalveluissa. Tarvitaan myös pysyviä tunnisteita, joiden avulla varmistetaan, että sekä aineisto itse että sen kuvailutiedot ovat löydettävissä vielä vuosienkin päästä, vaikka järjestelmä ja sijainnit muuttuvat.

Vaikka yksityiskohtaisen aineistonhallintasuunnitelman laatiminen ei ole aineiston kokoamisen ja julkaisemisen edellytys, on tärkeää ajatella datan koko elinkaarta hyvissä ajoin, jottei myöhemmässä vaiheessa tule turhia yllätyksiä ja aineistoa pystytään käyttämään siten kuin oli tarkoitus.
 

Tutustu CSC:n uusiin datanhallinnan sivuihin ja palvelukatalogiin.

Oletko tekemässä rahoitushakemusta Suomen Akatemialle? Tietopaketti akatemiahakijalle kokoaa hyödyllisiä linkkejä uudistetuille datanhallinnan palvelusivuillemme.

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tero Aalto

Kirjoittaja on kieliteknologi ja Kielipankin ylläpitäjä.