Tiedeala- ja menetelmätuki > Kielentutkimus > Kielentutkimuksen aineistot
 
Tehdyt toimenpiteet

Kielentutkimuksen aineistot

Kielipankin tekstikokoelmien 246 miljoonaa sanamuotoa käsittävät 897 tuhatta dokumenttia on koodattu Kielipankin omaan XML-muotoon, joka on yksinkertaistettu versio XCES-standardista. Tekstikokoelmien tekstit löytyvät hippu.csc.fi-palvelimelta, sekä – suurimmaksi osaksi – myös CSC:n Tutkijan käyttöliittymästä Lemmiestä käsin. Kielipankin käytetyimmät tekstikokoelmat ovat

  • Suomen kielen tekstikokoelma ftc,
  • Suomenruotsin tekstikokoelma fstc ja
  • Helsingin swahilikorpus hcs.

Kaikkien kokoelmien tiedot löytyvät sivulta Ohjelmistot ja tietokannat.

Taajuussanastot

Kielipankin sanomalehtiteksteistä koostetussa taajuussanastossa luetellaan aineiston 9996 yleisintä lemmaa. Sanasto on vapasti käytettävissä tutkimukseen lataussivulla mainitun Creative Commons-lisenssin mukaan.

Loput Kielipankin taajuussanastot ovat käytettävissä koneella hippu.csc.fi. Verkosta löytyy lisäksi Kotimaisten kielten tutkimuskeskuksen aineistopalvelussaan julkaisemat sanalistat.