Kielipankin tekstikokoelmien 246 miljoonaa sanamuotoa käsittävät 897 tuhatta dokumenttia on koodattu Kielipankin omaan XML-muotoon, joka on yksinkertaistettu versio XCES-standardista. Tekstikokoelmien tekstit löytyvät hippu.csc.fi-palvelimelta, sekä – suurimmaksi osaksi – myös CSC:n Tutkijan käyttöliittymästä Lemmiestä käsin. Kielipankin käytetyimmät tekstikokoelmat ovat
Kaikkien kokoelmien tiedot löytyvät sivulta Ohjelmistot ja tietokannat.
Taajuussanastot
Kielipankin sanomalehtiteksteistä koostetussa taajuussanastossa luetellaan aineiston 9996 yleisintä lemmaa. Sanasto on vapasti käytettävissä tutkimukseen lataussivulla mainitun Creative Commons-lisenssin mukaan.
Loput Kielipankin taajuussanastot ovat käytettävissä koneella hippu.csc.fi. Verkosta löytyy lisäksi Kotimaisten kielten tutkimuskeskuksen aineistopalvelussaan julkaisemat sanalistat.