null Historiankirjoitus uusiksi avoimen tieteen menetelmin

Aatehistorioitsija Mikko Tolonen puhui Digitaaliset ihmistieteet -tilaisuudessa Helsingin yliopistolla maaliskuussa. © Anni Jakobsson, CSC

Historiankirjoitus uusiksi avoimen tieteen menetelmin – digitaaliset ihmistieteet nostavat päätään

Anni Jakobsson, CSC

Aatehistorioitsija on titteli, jota harvemmin näkee laskennallisista tieteissä puhuttaessa. Mikko Tolonen, aatehistorioitsija Helsingin yliopistosta, on yksi digitaalisten ihmistieteiden pioneereista Suomessa. Historiaa on tutkittu aiemmin lähinnä laadullisin keinoin, mutta nyt historiallisen datan analyysi ja laskennallisen tieteen uusimpien menetelmien ennakkoluuloton yhdistely mahdollistaa erilaisten syy-seuraussuhteiden tarkastelun ja uudet tutkimuslöydökset.

Historiankirjat uusiksi

Tolonen tutkii uusilla menetelmillä eurooppalaista painotuotantoa varhaiselta uudelta ajalta (n. 1470 – 1800), jolloin kaikki kirjat painettiin vielä käsin. Hän on tehnyt tutkimusta yhdessä laskennallisen tieteen asiantuntija Leo Lahden ja historian opiskelija Niko Ilomäen kanssa jo reilun kahden vuoden ajan. Tällä hetkellä tutkimus keskittyy erityisesti bibliografioiden metadataan.

"Tutkimme kaikkea mahdollista, mitä kirjastojen metadatasta saadaan irti: esimerkiksi julkaisijat, julkaisupaikat ja kirjojen fyysiset muodot. Tietoja louhitaan mm. otsikkokentistä. Näin voimme saada aivan uudenlaista täsmällistä tietoa julkaisutoiminnan kehittymisestä ajalta, jolloin kirjapaino levisi Euroopassa. Konkreettisia tavoitteitamme on esimerkiksi siirtyminen pelkästä dokumenttien kokonaismäärän tarkastelusta kirjatuotannon kokonaisvolyymin hahmottamiseen julkaisuissa käytetyn paperimäärän avulla."

Laskennallisten tieteen menetelmät avaavat aivan uusia näkökulmia historian tutkimukseen.

"Tavoitteena on tutkia myös, miten kirjapainotoiminta jo varhaisessa vaiheessa rikkoi ja ylitti kansalliset rajat. Jo pitkään on tiedetty, ettei kirja kunnioita valtion rajoja, mutta varsinaisia työkaluja tämän tehokkaaseen tutkimiseen ei aikaisemmin ole ollut tarjolla. Matkan varrella tulee varmaan vastaan paljon muutakin, mistä emme vielä tiedä", Tolonen kertoo.

Kustantajat vaikuttivat sisältöihin

Tutkimusryhmän käyttämillä työkaluilla voidaan tutkia kaikkia tilastollisia näkökulmia, joita kirjastoluetteloiden merkinnät mahdollistavat. Yksi mielenkiintoinen tutkimuskohde on esimerkiksi kirjojen julkaisijoiden erilaisten verkostojen selvittäminen. Varhaisella uudella ajalla kirjan julkaisemisen mahdollistaneet kustantajat näyttelivät huomattavan suurta roolia kirjapainotoiminnassa liittyen myös sisällöllisiin kysymyksiin.

Kuvateksti: Esimerkkejä bibliografioiden metatiedoista, eli kirjastoluetteloissa ilmoitetuista kuvailutiedoista (lähde: Tolonen)

Toinen esimerkki ryhmän kiinnostuksen kohteista on kysymys, miten sosiaalinen muutos yhteiskunnassa näkyy tiedontuotannossa. Oheisesta kaaviosta näkyy, miten Edinburghissa julkaistussa historia-aiheisissa dokumenteissa keskeisimmät yhteiskunnalliset muutokset vaikuttavat kirjastoluettelosta ilmeneviin julkaisumääriin vuosina 1540–1800. Näitä muutoksia, jotka näkyvät kaaviossa tummennettuina, ovat: Englannin sisällissota (1642–1651), Stuart-suvun paluu valtaistuimelle (1660), Mainio vallankumous (1688–1689), Ison-Britannian kuningaskunnan syntyminen eli unioni (1706–1707). Huomionarvoista on myös, ettei Yhdysvaltojen itsenäisyys (1776) aiheuta samanlaista julkaisupiikkiä.

Lähde: Tolonen

Datan saaminen vaikeaa ja hidasta

Tutkimusryhmä on tähän mennessä tutkinut käsin painettujen kirjojen metadataa Iso-Britanniasta (English Short Title Catalogue) ja Suomesta (Fennica, Suomen kansallisbibliografia). Helppoa työ ei ole, koska tietoaineistot eivät ole vielä avoimesti saatavilla. Ryhmä kerää aineistoja ottamalla itse yhteyttä eri maiden julkaisutuotannon tietokantoihin, ja mahdollisuuksien mukaan rikastaa näitä julkisista lähteistä löytyvien tietojen avulla, joita ovat mm. kirjoittajiin ja julkaisupaikkoihin liittyvät taustatiedot.

"Olemme pyytäneet nyt lisäaineistoja esimerkiksi Ruotsista. Tämä on hidasta, koska monet tutkimuksen kannalta kiintoisat aineistot eivät ole vielä valitettavasti avoimesti saatavilla."

Ongelmat aineistojen saatavuudessa ovat yleisiä humanistisella puolella.

"Osa raakadatasta löytyy valmiiksi digitoituna ja koneluettavassa muodossa, mutta lisenssit ovat kalliita. Lisäksi aineisto on harvoin valmiiksi saatavilla laskennalliseen soveltuvassa muodossa. Suurin osa ajastamme, noin 80%, meneekin datan siistimisessä sellaiseen muotoon, että voimme jatkotyöstää sitä. Tästä emme kuitenkaan valita, vaan siitä, että usein edes raakadataa ei ole saatavilla!"

Ryhmä hyödyntää sujuvasti avoimen lähdekoodin välineitä, kuten GitHubin versionhallintaa ja R-laskentakieltä. Hankkeessa syntyvät tutkimusmenetelmät julkaistaan kattavasti dokumentoituna ja avoimilla lisensseillä. Analysoitavat aineistot ovat pysyneet toistaiseksi kohtuullisen kokoisina, joten niiden analysoimiseen ei ole tarvittu suurteholaskentaa, vaan työskentely on onnistunut tutkijoiden omilla tietokoneilla.

"Kun tutkimuksen painopiste siirtyy metadatasta kirjojen kokoteksteihin, dataa tulee roimasti enemmän, ja saatamme yksityiskohtaisessa mallituksessa turvautua supertietokoneisiin."

Avoimuuden pioneereja

Tutkimusryhmä on aktiivisesti mukana avoimen datan hankkeissa, kuten Open Knowledge Finland ry:n toiminnassa. Tolonen oli puhumassa avoimen datan ja menetelmien merkityksestä tutkimukselle CSC:llä helmikuussa pidetyssä Research Data Alliance -seminaarissa ja ryhmä seuraa myös Avoin tiede ja tutkimus -hanketta.

"Kehitys ei mene eteenpäin ennen kuin tutkijat ja eri organisaatiot jakavat tutkimusaineistonsa ja lähdekoodinsa tehokkaammin avoimeen käyttöön. Yleinen harhaluulo on, että "pala sielua menetetään, kun tutkimusaineisto annetaan". Vielä ei edes ymmärretä, millä kaikella aineistolla voisi olla tutkimuskäyttöä. Erityisesti eri lähteistä saatavien, toisiaan tukevien aineistojen yhdistely tarjoaa lupaavia tutkimusmahdollisuuksia. Olemme kuitenkin Suomessa avoimen tieteen edelläkävijöitä. Täytyy myös muistaa, että kyseessä on tutkimuskulttuurin kokonaisvaltainen muutos, mikä ei tapahdu yhdessä yössä."

Helsingin yliopiston humanistisessa tiedekunnassa alkaa ensi syksystä lähtien kokoontua digitaalisia ihmistieteitä käsittelevä tutkijaseminaari, ja koko tiedekuntaa koskeva maisterin sivuainekokonaisuus on myös suunnitteilla.

"Monitieteinen yhteistyö tuo lisäarvoa, jota ei kukaan pysty saavuttamaan yksin. Sekä humanistit että laskennallisen tieteen osaajat hyötyvät toisistaan. Tämä ei poista laadullisen tutkimuksen tarvetta, mutta tarjoaa siihen uusia tutkimusmenetelmiä sekä tuoreita, täydentäviä näkökulmia", Tolonen muistuttaa.

Lisätietoja:

CSC järjestää yhteistyössä Helsingin yliopiston tutkijoiden kanssa 12.5.2015 aamiaisseminaarin Digitaalisten ihmistieteiden aamu

Toukokuussa 2015 järjestetään CSC:llä kurssi "Introduction to data science for researchers"

CSC:n koulutustarjonnasta löytyy myös mm. R-laskentakielen kursseja, jotka sopivat hyvin digitaalisten ihmistieteiden tutkijoille. Esimerkiksi lokakuussa 2015 on suunniteltu järjestettävän "Introduction to R" -kurssi, jolla ei vaadita ennakkotuntemusta R-kielestä.

CSC tarjoaa palveluja massiivisten digitaalisten aineistojen käsittelyyn

Esitykset Research Data Alliance -seminaarista "What does the Research Data Alliance offer for Finland?": http://web.csc.fi/csc/kurssit/arkisto/RDAFinland_seminar

RDA-hanke: https://europe.rd-alliance.org/

ATT-hanke: www.avointiede.fi

Suomen akatemian haku: www.aka.fi/digihum

Suomen Akatemia on avaamassa uuden haun digitaalisille ihmistieteille huhtikuussa 2015. Haussa rahoitetaan vain monitieteisiä hankkeita ja korostetaan tieteenalojen välistä vuoropuhelua. Tavoitteena on edistää humanististen ja yhteiskuntatieteellisten aineistojen tuottajien, käsittelijöiden ja käyttäjien yhteistyötä, tutkimusmenetelmien kehittämistä, tutkimusalueen eettistä tarkastelua, aineistojen käytettävyyttä ja niiden tunnettuutta. Tutkimusta välittömästi tukeva korkeatasoinen tietotekninen osaaminen on tärkeää.