null DeepFin luonnollisen kielen käsittelyn aallonharjalla

Kuva: Adobe Stock

DeepFin luonnollisen kielen käsittelyn aallonharjalla

BERT (Bidirectional Encoder Representations from Transformers) on alun perin Googlen kehittämä luonnollisen kielen käsittelyn menetelmä, jonka päälle voi rakentaa erilisia kielen ymmärtämiseen perustuvia työkaluja. Menetelmää suomen kieleen soveltava FinBERT-malli tuotettiin DeepFin-projektissa, joka oli yksi CSC:n Grand Challenge 2019 -pilottihankkeista.

 

Kun BERT-menetelmä julkaistiin vuonna 2018, se saavutti huipputuloksia muun muassa yleisessä kielen ymmärtämisessä ja kielellisessä päättelyssä sekä kysymys–vastaus-järjestelmissä. Aluksi se oli saatavilla vain englannille. Google käyttää BERTiä hakukoneessaan ymmärtääkseen käyttäjiensä hakuja paremmin.

BERT on kaksisuuntainen menetelmä, mikä tarkoittaa, että se tarkastelee kaikilla käsittelytasoillaan syötettä käsiteltävän tekstikohdan molemmilta puolilta. Tämä mahdollistaa tekstin ymmärtämisen syvemmällä tasolla ja tuottaa parempia ennakointituloksia. Myös monikielisiä BERT-malleja on kehitetty, mutta yksikieliset toimivat yleensä paremmin.

Mallin kaksisuuntaisuus perustuu Googlen Transformer-syväoppimismallin kykyyn tunnistaa sanojen kontekstuaalisia suhteita. BERT koulutetaan kätkemällä kustakin lauseesta yksi tai useampi sana ja antamalla mallin arvata puuttuva osa (masked language modeling).

Menetelmän soveltamisen eri kielille haasteena on ollut mallin kouluttamiseksi tarvittavan tekstisyötteen suuri määrä ja tämän vaatima laskentateho. Miljardien sanojen tekstimassan ja supertietokoneiden avulla on vihdoin pystytty luomaan suomen kielen malli, joka pystyy kilpailemaan niin muiden lähestymistapojen kuin muiden kielten BERT-mallienkin kanssa.

– Syväoppimiseen pohjautuvan, kattavan kielimallin kouluttaminen vaatii paljon laskentatehoa, eikä FinBERT-mallien kouluttaminen olisi ollut mahdollista ilman Puhdin GPU-osion tehoa, sanoo kieli- ja puheteknologian apulaisprofessori Sampo Pyysalo Turun yliopistosta.

– Mallit laskettiin Puhdilla käyttäen kahdeksaa Nvidia V100 GPU:ia kahdessa laskentasolmussa. Mallin kunkin muodon esikoulutus kesti noin 12 päivää. CSC:n laskentaresursseja hyödynnettiin erityisesti myös Finnish Internet Parsebank -hankkeen tekstien esikäsittelyssä. Sen suomenkielisestä internetistä kerätyt tekstit olivat suurin yksittäinen datalähteemme, Pyysalo jatkaa.

– Grand Challenge -pilottiprojekti oli erittäin myönteinen kokemus. Teknisiä ongelmia oli hyvin vähän, ja saimme nopeaa ja ammattimaista tukea. Pilotti on myös poikinut useita eri suuntiin lähteneitä uusia hankkeita, jotka niin ikään käyttävät laskentaan Puhtia, hän toteaa.

Pilotin jälkeen hanke jatkoi BERT-mallien kehittämistä myös muille kielille.

GPU-pohjaiset luonnollisen kielen käsittelyhankkeet hyötyvät jatkossa merkittävästi CSC:n uudesta LUMI-superlaskentaympäristöstä.

Puhti-pilottiprojektien haku järjestettiin CSC:n Grand Challenge -haun kautta. Grand Challenge -hankkeet ovat tieteellisiä tutkimushankkeita, jotka edellyttävät tavanomaista suurempia laskentaresursseja. CSC:n Tieteellinen asiakaspaneeli valitsee projektit Grand Challenge -kutsuin niiden vaikuttavuuden perusteella.

TurkuNLP-tutkimusryhmä

Lue lisää Puhti-supertietokoneesta

Lue lisää Grand Challenge -hausta

 

Lisää tästä aiheesta » Siirry sisältöihin ja uutisiin »

Tero Aalto