Kielentutkimuksen alueeseen kuuluvat kaikki kielen kanssa tekemisissä olevat tieteet. Tukeakseen kielentutkimusta CSC ylläpitää Kielipankkia. Se on palvelukokonaisuus, joka koostuu erikielisistä ja -muotoisista digitaalisista kieliresursseista, kuten tekstikokoelmista, sanalistoista ja puhetietokannoista sekä kielityökaluista, kuten muoto- ja lauseopillisista kielen malleista. Tutkijat käyttävät Kielipankkia Funet-verkon kautta.
– Kielipankin tyypillisimmät käyttäjät ovat tutkijoita ja kieliaineiden opiskelijoita. Esimerkiksi Helsingin Yliopiston Yleisen kielitieteen laitoksen opiskelijat käyttävät nykyään Kielipankin palveluja, kertoo Kielipankin ylläpitäjä Tero Aalto CSC:stä.
Aalto kuvailee tyypillistä Kielipankin käyttötilannetta:
– Tutkija tutkii vaikkapa joidenkin sanojen suhteita: mitkä sanat esiintyvät yhdessä ja kuinka usein. Kielipankkia käytetään paljon tällaiseen perustutkimukseen, johon useimmat opiskelijat tutustuvat jossain vaiheessa opintojaan.
Tero Aalto on Kielipankin ylläpitäjä CSC:llä. Kielipankki on palvelukokonaisuus, joka koostuu erilaisista kieliresursseista.
Kotimaisten kielten tutkimuskeskuksen ja Helsingin yliopiston kokoama suomen kielen tekstipankki on yksi Kielipankin palveluista. Tekstipankki on tarkoitettu tutkijoille tietokoneavusteisen kielentutkimuksen raaka-aineeksi. Suomen kielen tekstipankissa on tällä hetkellä sähköisessä muodossa muun muassa eri kustantamoiden julkaisemia kirjoja sekä useiden sanoma- ja aikakauslehtien tekstejä.
Kielipankissa on myös niin kutsuttu Oulun korpus, joka on kokoelma 1960-luvun Suomen yleiskieltä. Kielipankki ylläpitää myös suomen kielen puheaineistoa, joka koostuu digitaalisiin formaatteihin tallennetuista äänija elokuvatallenteista.
Kielipankin kokoelmia voidaan käyttää muun muassa kielellisten ilmiöiden yleisyyden tutkimiseen. Myös kieliteknologian sovel-lukset voivat hyödyntää aineistoa. Kieliteknologian sovelluksista laajimmin suuren yleisön tuntemia ovat konekäännös, automaattinen oikeinkirjoituksen ja kieliopin tarkistus sekä puheentunnistus ja -tuottaminen.
Suomi ja swahili suosituimpia
Kielipankilla on yli 300 käyttäjää Suomen korkeakouluissa ja muissa tutkimuslaitoksissa. Tavoitteena on, että Kielipankista löytyisi jo lähiaikoina teksti- ja puheaineistoja yli 70 kielestä.
– Suomen kielen aineistot ovat luonnollisesti Kielipankin käytetyimpiä aineistoja. Ne ovat Kielipankin laajimmat aineistot, eikä niitä löydy muualta maailmasta niin hyvin kuin Suomesta, Aalto sanoo.
Suomen ja ruotsin kielen aineistojen lisäksi yllättäen myös swahilin, jota puhutaan laajalla alueella Itä-Afrikassa, aineistot ovat Kielipankin kolmen suosituimman aineiston listalla.
– Kielipankin swahilin aineistot ovat kansainvälisesti merkittävät. Ne ovat käytössä paljon, Aalto selittää swahilin aineistojen suosiota.
Kansainvälistä yhteistyötä luvassa
Tutkimus on tehokkainta, kun käytössä on mahdollisimman laajat aineistot. Tämä pätee myös kielentutkimuksessa. Eurooppalaisilla tutkimuskeskuksilla on käytössään laajat valikoimat kielentutkimuksen aineistoja ja työkaluja. Suurin osa näistä on kuitenkin vain tiettyjen tutkijoiden saatavilla. Tallennusmuotojen kirjo, yhteensopimattomat ohjelmistot ja aineistoihin vaadittavat käyttöoikeudet hankaloittavat aineistojen kansainvälistä jakamista.
– Aineistoja ei koskaan jaeta liikaa tutkijoiden keskuudessa, pohtii Aalto. Hänen mielestään juuri jakamiseen ollaan kuitenkin nykyään pyrkimässä.
CSC ja Kielipankki ovat mukana EU-rahoitteisessa CLARIN-hankkeessa. CLARINprojektin (Common Language Resources and Technology Infrastructure) tavoitteena on luoda Euroopan kielitieteilijöille yhteinen infrastruktuuri, jonka avulla tutkimusaineistot ovat helpommin kaikkien saatavilla.
– Hankkeessa pyritään kansainvälisten aineistojen jakamiseen. Se helpottaa kielentutkimusta valtavasti, jos se toteutuu. Se olisi käytännössä kansainvälinen Kielipankki, Aalto sanoo.
Kirsti Turtiainen