Kielipankki palvelee ihmistieteitä

Kielipankki palvelee ihmistieteitä

Kielipankki on suomalaisten yliopistojen ja tutkimuslaitosten yhdessä rakentama palvelukokonaisuus, jota Helsingin yliopisto koordinoi ja jonka teknisestä puolesta vastaa CSC. Yhdessä nämä muodostavat FIN-CLARIN-konsortion, joka puolestaan on eurooppalaisen CLARIN-infrastruktuurin suomalainen osa.

Alun perin Kielipankki oli CSC:n kielentutkijoille tarjoama tieteenalatuen haara, joka kasvoi tiiviiseen yhteistyöhön ensin Helsingin yliopiston ja myöhemmin muiden kotimaisten yliopistojen ja tutkimuslaitosten kanssa. Sittemmin yhteistyö on laajentunut kansainväliseksi CLARINin kautta, mikä on käytännössä moninkertaistanut tutkijoiden käytössä olevat kielivarat (aineistot ja työkalut). Muutaman viime vuoden aikana Kielipankki on myös aktiivisesti laajentanut kohderyhmäänsä kielentutkimuksen aloilta palvelemaan muitakin ihmistieteitä.

– Kielipankkiin voi sijoittaa erilaisia tekstistä, puheesta ja videosta koostuvia aineistoja. Se kannattaa, sillä aineistojen kerääminen, esikäsittely ja dokumentointi on työlästä ja sama aineisto soveltuu usein monenlaiseen tutkimukseen, sanoo projektisuunnittelija Mietta Lennes Helsingin yliopistosta.

Mietta Lennes

Mietta Lennes

 

Tutkimuksen ohella Kielipankin kielivaroja käytetään yleisesti myös opetuksessa. Mietta Lenneskin pitää vuosittain useita avoimia, ihmistieteellisille aloille suunnattuja verkkokursseja, joiden aikana tutustutaan Kielipankin palveluihin ja opitaan korpusten käsittelyä ja käyttöä. Niin tutkijat kuin opiskelijatkin pääsevät hyödyntämään myös CSC:n supertietokoneita.

– Opiskelijat innostuvat huomatessaan, miten monenlaisia ilmiöitä teksteistä tai puhenäytteistä on mahdollista tutkia, kun aineistoa hoksaa käsitellä sopivilla menetelmillä, Lennes kertoo.

Nykyiset aineistot sisältävät noin 20 miljardia kirjoitettua sanaa ja yli 10000 tuntia ääni- ja videotallenteita. Tekstit ovat pääosin sanoma- ja aikakauslehtiä, kirjallisuutta sekä sosiaalisesta mediasta kerättyä materiaalia. Puheaineistoihin kuuluvat muun muassa eduskunnan täysistuntokeskustelut sekä suomen murteiden ja Helsingin puhekielen aineistot. Kielipankissa on myös viittomakielisiä aineistoja. Lisäksi Kielipankin kautta pääsee käyttämään monia työkaluja, jotka helpottavat puhetta tai tekstiä sisältävän aineiston käsittelyä ja tutkimista.

Kielipankki tarjoaa aineistojen tuottajille ja kerääjille ohjeita ja tukea prosessin eri vaiheissa. Aineiston käytettävyyden kannalta on tärkeää huomioida julkaisemiseen liittyvät kysymykset mahdollisimman varhain, jotta muun muassa julkaistava aineistoversio voi olla lisenssiltään sellainen, että se sallii halutunlaisen loppukäytön, oli se sitten täysin avoimesti saatavilla oleva, henkilökohtaisen käyttöluvan vaativa, tai jotain siltä väliltä.

Jokainen Kielipankkiin sijoitettu kielivara saa vähintään yhden pysyvän tunnisteen, jonka tarkoitus on, että aineisto tai työkalu (ja sen tietty versio) sekä kuvailutiedot löytyvät vielä vuosienkin päästä, vaikka järjestelmät ja verkkosivut muuttuvat. Kielipankissa käytetään ensisijaisesti URN-tunnisteita (Uniform Resource Name). Tunnisteen mainitseminen helpottaa tiettyyn kielivaraan perustuvan tutkimuksen toistamista.

Kielivarojen (ja niiden tuottajien) näkyvyyden kannalta on myös olennaista, että niihin viitataan. Yhtenäistä viittauskäytäntöä noudattamalla aineiston koostaja saa kunnian tekemästään työstä. Kielipankissa tämä on tehty mahdollisimman helpoksi tarjoamalla kunkin aineiston yhteydessä valmiiksi muotoiltu viittausohje, kolmessa vaihtoehtoisessa muodossa. Suoraan aineistolistasta käsin pystyy myös tekemään Google Scholar -haun, kuinka usein kyseiseen kielivaraan on viitattu.

 

Tutustu CSC:n uusiin datanhallinnan sivuihin ja palvelukatalogiin.

Oletko tekemässä rahoitushakemusta Suomen Akatemialle? Tietopaketti akatemiahakijalle kokoaa hyödyllisiä linkkejä uudistetuille datanhallinnan palvelusivuillemme.

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tero Aalto

Kirjoittaja on kieliteknologi ja Kielipankin ylläpitäjä.