STT antaa sähköisen uutisarkistonsa Kielipankkiin

Suomen Tietotoimisto on luovuttanut sähköisen uutisarkistonsa Kielipankkiin tutkijoiden käytettäväksi. Kielipankkiin ladattu suomenkielinen uutisarkisto sisältää vuodet 1992–2018, ja pääosa yli 2,7 miljoonasta jutusta on eripituisia uutisjuttuja.

Kielipankki palvelee erilaisia kieliaineistoja käsitteleviä tutkijoita ja kieliteknologian kehittämistä.

– Toivomme näin hyödyttävämme yliopistotutkimusta erityisesti kieliteknologiaan, koneoppimiseen ja tekoälyyn liittyvissä tutkimushankkeissa. STT:n tehtäviin kuuluu kehittää sisällöntuotannon automaatiota ja robotiikkaa siten, että se palvelee yleisesti suomalaista media-alaa. Jos tutkimusryhmillä ei ole pääsyä median tuottamaan materiaaliin, on tuohon materiaaliin pohjautuvia sovelluksia luonnollisesti mahdotonta rakentaa, sanoo STT:n toimitusjohtaja Kimmo Pietinen.

Kielipankin sanomalehtiaineisto on toistaiseksi painottunut vanhempaan materiaaliin, joten STT:n arkisto paikkaa tätä puutetta tutkijoiden valikoimassa.

– Tuoreempia uutisaineistoja ei toistaiseksi juuri ole. Sikäli tämä on hieno lisä Kielipankin valikoimaan, Kielipankin projektisuunnittelija Mietta Lennes sanoo.

Kielipankki palvelee tutkijoita

Kielipankki on FIN-CLARIN-konsortion keskeinen palvelukokonaisuus, jonka kautta kieliaineistot ja niiden käsittelyyn sopivat työkalut tuodaan tutkijoiden saataville.

Kielipankissa oleva STT:n uutisarkisto on ladattavissa kokonaisuudessaan raakamateriaalina. STT arvioi ja hyväksyy kaikki tutkimussuunnitelmat ennen kuin pääsy arkistoon myönnetään.

Uutismateriaali tulee tutkijoiden käyttöön Kielipankissa paremmin jäsennetyssä muodossa syksyn aikana. Tuolloin tutkijat pääsevät kiinni aineistoon Korp-palvelussa, jossa selailu onnistuu helpommin.

FIN-CLARIN-konsortion muodostavat suomalaiset yliopistot, CSC– Tieteen tietotekniikan keskus ja Kotimaisten kielten keskus. Kielipankin kautta tarjottavien aineistojen hankkimisesta ja vastaanottamisesta, työkalujen kehityksestä sekä koulutustoiminnasta vastaa Helsingin yliopisto. Kielipankin teknisestä ylläpidosta vastaa CSC.

STT:n materiaalit ennenkin  tutkimuskäytössä

Kielipankin kautta STT:n arkistomateriaalia on jo jaettu kansainvälisen Embeddia-tutkimusprojektin käyttöön. Tänä vuonna alkaneeseen kolmivuotiseen Embeddia-projektiin osallistuu kuusi eurooppalaista yliopistoa ja STT:n lisäksi kolme muuta media-alan yritystä. Suomesta mukana on Helsingin yliopisto.

Eurooppalaisessa tutkimus- ja innovaatiohankkeessa tavoitellaan uutisrobotiikkakomponentteja, jotka skaalautuvat yli kielirajojen ja voisivat tukea mediayrityksiä erilaisin tavoin automaattisesta tekstintuotannosta aina kommenttien moderointiin. Keskiössä ovat Suomen kaltaiset pienet kielialueet, joilla ei ole voitu hyödyntää kaikkia niitä teknologioita, joita esimerkiksi anglosaksisella kielialueella on kehitetty.

Turun yliopiston NLP-kieliteknologia ryhmä on materiaalin avulla kehittänyt suomenkielen malliaan ja luonut erillisen mallin "STT-suomelle". Tavoitteena on kehittää tekoälyä ja koneoppimista hyödyntävä uutisapulainen, joka kirjoittaa erilaiseen dataan perustuvia uutisia suomeksi.

Lisätietoja:

Kielipankin sivut

STT:n uutinen: STT vauhdittaa kieliteknologian tutkimusta antamalla uutisarkistonsa tutkijoiden käyttöön