Kieliteknologia digitaalisten ihmistieteiden edelläkävijänä

Kieliteknologia digitaalisten ihmistieteiden edelläkävijänä

Teknologian hyödyntäminen ihmistieteissä ei ole uusi asia, mutta kielentutkimuksella on tällä saralla erityinen etulyöntiase: kieliteknologia, tiede, joka yhdistää kielitieteen ja tietojenkäsittelyn.

Tietokonelingvistiikka, kieliteknologian keskeisin osa-alue, syntyi jo 1950-luvulla, siis aiemmin kuin esimerkiksi bioinformatiikka. Siitä lähtien kieliteknologia on ollut merkittävä luonnollisen kielen tutkimuksen haara. Luonnollisilla kielillä tarkoitetaan kieliä, joita ihmiset käyttävät tavallisessa kanssakäymisessä ja jotka ovat kehittyneet historian saatossa osana kulttuureja. Esimerkiksi keinotekoiset kielet ja ohjelmointikielet eivät ole luonnollisia kieliä. Tietokonelingvistiikka tutkii kielen rakennetta ja toimintaa hyödyntäen tietojenkäsittelyn menetelmiä ja teorioita.

Kielipankki (The Language Bank of Finland) palvelee kieliteknologiaa Suomessa. Se on kielentutkimuksen ja muiden digitaalisten ihmistieteiden palvelukokonaisuus, jota nykyään koordinoi kansallinen FIN-CLARIN-konsortio, jonka muodostavat suomalaiset yliopistot ja kielelliset tutkimuslaitokset Helsingin yliopiston johdolla. CSC vastaa Kielipankin teknisestä ylläpidosta ja laskentaresursseista.

Perustamisestaan 90-luvun lopulla lähtien Kielipankki on tarjonnut palvelujaan tutkimuksen ohella myös opetuskäyttöön. Uudet kieliteknologian opiskelijat kirjautuvat yhtenä ensimmäisistä teoistaan Kielipankin oikeudet -sovellukseen, joka perustuu CSC:llä kehitettyyn REMS-teknologiaan (Resource Entitlement Management System), ja hakevat Kielipankin käyttöoikeuksia sekä halutessaan myös CSC:n superkoneiden käyttäjätunnuksia. Kielipankin tiedeala-asiantuntijat tukevat opiskelijoita siinä missä keitä tahansa asiakkaita.

Muilla ihmistieteillä ei ole käytössään kieliteknologiaan tai bioinformatiikaan verrattavissa olevaa vakiintunutta poikkitieteellistä ulottuvuutta. Sellaista asiaa kuin vaikkapa "historiateknologia" ei ole olemassa. Nykyään laskennallisten menetelmien hyödyllisyys ihmistieteiden tutkimuksessa tiedostetaan, mutta haasteena on, ettei aina ole helppoa keksiä luontevaa lähtöpistettä tai näkökulmaa.

Me Kielipankissa olemme viimeisten parin vuoden aikana koettaneet aktiivisesti laajentaa verkostojamme muiden digitaalisten ihmistieteiden suuntaan. Luonnollinen kieli sisältää monella muullakin kuin varsinaisilla kielialoilla tärkeää dataa. Kielivarat, eli kieliaineistot ja -työkalut, voivat olla hyödyksi kenelle tahansa, jonka tutkimuskohteen voi koodata kieltä käyttäen.

Olemme muun muassa miettineet, miten nykyiset työkalumme taipuisivat tutkimusaiheisiin, joissa kieli itsessään ei välttämättä ole tutkimuksen kohde, ja mitä kokonaan uusia palveluja voisimme näiden tarpeisiin kehittää. Esimerkiksi Korp-käyttöliittymä, jossa pystyy tekemään hakuja muun muassa Suomi 24 -keskustelupalstan sisällöstä, soveltuu jo sellaisenaan monen eri alan kysymyksiin. Tästä kertoo muun muassa, että digitaalisten yhteiskuntatieteiden yhdistys Rajapinta ry:n viime vuonna myöntämät opinnäytetyöpalkinnot menivät molemmat juuri tätä aineistoa hyödyntäneille tutkijoille.

Kielentutkimus on myös perinteisesti ollut CSC:n tieteenaloista kansainvälisesti suuntautunein. Kielipankin käyttäjistä yli kymmenen prosenttia on tullut Suomen ulkopuolelta. Kielipankki on myös ollut mukana euroopanlaajuisessa eri maiden kielipankkien CLARIN-verkostossa ja sen suunnittelussa vuodesta 2007 lähtien. Nykyään Kielipankki on Suomea CLARINissa edustavan FIN-CLARINin ydin.

Myös muilla digitaalisten ihmistieteiden aloilla on vastaava euroopanlaajuinen infrastruktuuri nimeltä DARIAH. Suomi ei vielä ole sen jäsen, mutta liittymisvalmistelut ovat käynnissä, ja Kielipankki on niissä mukana. Yhteinen tavoitteemme on tuoda Euroopan digitaalisten ihmistieteiden yhteisöt yhteen ja tarjota niille palvelujamme.

Kielipankki  CLARIN   DARIAH   Kielipankin oikeudet

REMS    Korp

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tero Aalto

Kirjoittaja on kieliteknologi ja Kielipankin ylläpitäjä.