Tekoäly rikastaa muistiorganisaatioiden digitaalisia aineistoja

CSC:n, Kansalliskirjaston ja Kansallisarkiston High-Performance Digitisation -hankkeessa luodaan älykäs annotaatioputki arkistoitujen aineistojen käsittelyyn ja rikastukseen. Aineistot voivat olla esimerkiksi skannattuja sanomalehtiä, kirjoja, kuvia ja virallisia asiakirjoja. Tekoälyn ja koneoppimisen avulla data laatua voidaan parantaa ja dataa voidaan hyödyntää tehokkaammin.

Metatietojen puute, datan vajavainen laatu ja heikot hakutoiminnot haittaavat digitaalisten aineistojen löydettävyyttä ja tehokasta käyttöä. Metatietoja on perinteisesti lisätty manuaalisesti, ja aineistojen digitointiprosessissa tapahtuvat virheet ja puutteet datan laadussa vaikeuttavat kokotekstihakuja ja aineiston automaattista annotointia. Annotoinnilla tarkoitetaan toimenpiteitä, joilla aineistoon liitetään systemaattisesti kuvaamiseen, luokitteluun ja jäsentelyyn liittyvää tietoa.

CSC:n superkoneympäristössä toimiva annotaatioputki perustuu konenäköön ja tekoälyyn ja se käyttää tehokkaan GPU-laskennan vauhdittamaa koneoppimista aineistojen annotointiin. Hanke kerää tarvittavan datan yhteistyöhön osallistuvilta arkistoilta ja kirjastoilta, ajaa kehittyneitä koneoppimismalleja, tuottaa laadukkaan annotaatioputken ja siihen liittyvän palvelun ja lopulta integroi palvelun takaisin arkistoihin.

Annotaatioputkesta kehitetään palvelu, jota tarjotaan muistiorganisaatioille kuten kirjastoille ja arkistoille. Valmis palvelu tulee saataville avoimen lähdekoodin ohjelmistona ja se avataan tuotantokäyttöön CSC:n pilvipalvelualustalla. Kansallisarkiston ja Kansalliskirjaston lisäksi kansalliset ja kansainväliset yhteistyökumppanit voivat hyödyntää uutta palvelua omien aineistojensa automaattiseen käsittelyyn. Hankkeessa tuotettuja aineistoja tarjotaan myös julkaistavaksi eurooppalaisiin dataportaaleihin, kuten Europeanaan ja European Data Portaliin.

Valmiin palvelun tuotoksista hyötyvät kansalaiset, tutkijat, yritykset ja julkishallinnon edustajat. Tällä hetkellä valtava määrä skannattuja ja arkistoituja kuvia ja kuvamuotoisia asiakirjoja jää käytännössä saavuttamattomiin, koska tarvittavaa ihmistyövoimaa aineiston järjestämiseen ja sisällön kuvailuun ei ole. High-Performance Digitalisation -hanke tarjoaa laskennallisen ratkaisun tähän ongelmaan ja avaa ainutlaatuiset aineistot julkiseen käyttöön ja jalostukseen.

Hanketta rahoittaa Euroopan komission alainen Innovation and Networks Executive Agency.

Lisätietoja

High-Performance Digitisation -hankkeen kotisivu

Tiedote kumppanuussopimuksesta: Kansallisarkisto, Kansalliskirjasto ja CSC hyödyntämään yhdessä tekoälyä (1.11.2018)

Aleksi Kallio, CSC, aleksi.kallio@csc.fi, puh. 050 3845158

Vili Haukkovaara, Kansallisarkisto, vili.haukkovaara@arkisto.fi, puh. 0295337019

Heli Kautonen, Kansalliskirjasto heli.kautonen@helsinki.fi, puh. 050 3102654