Mitä tutkijan kannattaa tietää pysyvistä tunnisteista

Mitä tutkijan kannattaa tietää pysyvistä tunnisteista

Kaikkein hyödyllisimmälläkään tiedolla ei ole merkitystä, jollei kukaan löydä sitä. Digitaalisessa maailmassa ongelma on erityinen. Siinä missä kirja tai kirjasto harvemmin yhtäkkiä lakkaa olemasta tai muuttuu joksikin aivan muuksi, verkkosivuille tämä on arkipäivää. Se, että hakujen tekeminen digitaalisesta materiaalista on helpompaa kuin paperista, korjaa ongelman vain osittain.

Pysyvä tunniste on tapa osoittaa internetissä dokumenttiin tai muuhun kohteeseen, jonka halutaan olevan löydettävissä mahdollisimman kauan. Nimensä mukaisesti pysyvän tunnisteen ajatus on, että kun sellainen on kerran asetettu, sen avulla voi luottaa löytävänsä luvatun kohteen vaikka vuodet kuluvat, ihmiset vaihtuvat ja järjestelmät muuttuvat. Tavallinen verkkosivun osoite ei ole kovinkaan pysyvä. Sivustojen tekniset ratkaisut kehittyvät jatkuvasti, polut muuttuvat, ja yksittäisten sivujen sisällöt voivat nekin elää villisti, vaikka sivu itse jatkaisikin edelleen olemassaoloaan.

Tieteelliselle tiedolle pysyvyys on erityisen tärkeää. Ilmeisin kysymys on luotettavuus eli että tutkimustulokset ovat mitä ne väittävät olevansa. Jo tässä kohtaa avautuu useampi kysymys, sillä pelkän julkaisun itsensä löytäminen luotettavasti ei riitä. Lukijan täytyy voida luottaa myös julkaisun lähde- ja muihin viitteisiin.

Toinen luotettavan tutkimuksen ominaisuus on toistettavuus, jonka kannalta pysyvyys on vähintään yhtä tärkeää. Jollei alkuperäinen materiaali ole saatavilla, tutkimuskysymyksiä ei voi toistaa. Tarvitaan tieto paitsi lähdeaineistosta, myös sen versiosta. Sama koskee myös tutkimuksessa käytettyjä työkaluja, joista niistäkin on todennäköisesti useita versioita, jotka saattavat pahimmassa tapauksessa tuottaa keskenään hyvinkin erilaisia tuloksia.

Vastaavasti omille julkaisuille ja julkaistuille tutkimusaineistoille kannattaa antaa pysyvät tunnisteet, jotta muut voivat puolestaan viitata niihin. Paitsi että näkyvyys ja löydettävyys paranevat, pysyvällä tunnisteella varustetuista kohteista on myös helpompi pitää kirjaa, esimerkiksi siitä, missä yhteyksissä ja miten usein tiettyyn dokumenttiin tai aineistoon on viitattu.

Mille kaikelle sitten kannattaa antaa pysyviä tunnisteita? Julkaisut ja aineistot ovat ilmeisiä kohteita mutteivät suinkaan ainoita. Joskus on aiheellista luoda erillisiä tunnisteita muun muassa aineistojen osille ja datan sijainneille. Erittäin olennainen osoitettava kohde on myös kuvailutieto eli metadata, joka kertoo muun muassa datan tyypin, määrän ja lisenssin, jonka mukaan sitä saa käyttää.

Erilaisia pysyvien tunnisteiden järjestelmiä on kehitetty useita, ja vanhimmat niistä ovat lähes yhtä vanhoja kuin internet itse. URN (Uniform Resource Name) toimii samaan tapaan kuin URL (Uniform Resource Locator, perinteinen verkko-osoite), paitsi että URNit kuuluvat aina tiettyyn nimiavaruuteen ja ovat sitä kautta ainutlaatuisia. Esimerkiksi kirjan yksilöivän ISBN:n (International Standard Book Number) voi sisällyttää URNiin. Suomessa URNeja hallinnoi Kansalliskirjasto.

Toinen yleisesti käytetty järjestelmä on Handle, jonka kehitti CNRI (Corporation for National Research Initiatives). CSC tukee molempia näistä järjestelmistä. Handlen päälle on rakennettu DOI-sovellus (Digital Object Identifier), joka lisäksi sisältää kuvailutietoja. Kansainvälinen standardointijärjestö ISO (International Organization for Standardization) on standardoinut DOI:n. Tutkimusaineistoille sopivaan DataCiten myöntämään DOI-tunnisteeseen liittyvät tutkimusaineistoille tärkeät peruskuvailutiedot. Tällaisia DOI-tunnisteita myöntävät esimerkiksi EUDAT B2Share ja pian myös Fairdata.fi–palvelut.

Tunnisteita annetaan myös henkilöille ja muille tahoille. On olennaista pystyä yksilöimään ja löytämään tutkijat, joille annetaan ORCID-tunnisteita (Open Researcher and Contributor ID). Organisaatioille puolestaan on muun muassa olemassa ROR-tunnisteita (Research Organization Registry). Sekä henkilöt että organisaatiot on syytä identifioida, koska molemmat voivat ajan myötä siirtyä paikasta toiseen tai muuttaa nimeään.

Aivan kaikelle ei kuitenkaan kannata antaa pysyvää tunnistetta. Jos tietyn datan version lataussijainti on pysyvä, siihen voi osoittaa tunnisteella, mutta elävään datavuohon viittaamisesta ei ole käytännön iloa. Lopulta paraskin tunniste on kuitenkin vain yhtä hyvä kuin sen ylläpito. Vanhentunut tunniste on huonompi kuin ei tunnistetta lainkaan. Jokainen pysyvä tunniste on lupaus. Kohteen siirtyessä osoitus päivitetään. Mikäli kohde poistetaan kokonaan, tunniste ohjataan hautakivisivulle, joka kertoo, mitä kohteelle tapahtui ja mitä etsijä voi sen sijaan tehdä. Tunnistetta ei pitäisi koskaan kokonaan poistaa käytöstä. Jollei pysty sitoutumaan tähän (tai delegoimaan tunnisteiden ylläpitoa), pysyvää tunnistetta ei alun perinkään välttämättä kannata myöntää.

Vielä oma kysymyksensä on, milloin aineisto tai muu kohde on muuttunut siinä määrin että on syytä luoda uusi tunniste ja milloin vanha tunniste edelleen käy. Tämän kysymyksen vastaus ei ole yksiselitteinen, vaan täytyy miettiä käyttötarkoitusta. Aineiston jokaisen yksittäisen kirjoitusmerkin korjauksen myötä ei uutta versiota (ja sen myötä uutta tunnistetta) kannata luoda, mutta toisaalta ei tarvita kovinkaan merkittäviä muutoksia lähtöaineistossa että aineistoon perustuvien algoritmien tulokset alkavat muuttua. Nämä ovat päätöksiä, joita ei voi ulkoistaa ulkopuoliselle tunnusten hallinnoijalle, joka ei tunne aineistoa yhtä hyvin kuin sen omistaja tai hallinnoija. Erääseen kontekstiin sovitettu (mutta silti tulkinnanvarainen) tämän kysymyksen vastaus on Kielipankin (CSC:n kielentutkimuksen ja muiden digitaalisten ihmistieteiden palvelukokonaisuus) kielivarojen elinkaari- ja kuvailumalli.

Pysyvät tunnisteet ovat oikein käytettyinä kaikkien eduksi. Aineistot, julkaisut ja tutkijat löytyvät vuosienkin jälkeen ja saavat ansaitsemansa huomion ja kunnian.

Tämän julkaisun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-202004216

 

Kuva: Adobe Stock

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tero Aalto

Kirjoittaja on kieliteknologi ja Kielipankin ylläpitäjä.