Blogi 10.11.2021

Analytiikan askeleet hankesuunnittelun tukena

Analytiikan askeleet on CSC:llä kehitetty työkalu data-analytiikan valmiuksien tunnistamiseen. Työkaluun on haettu inspiraatiota ohjelmistotuotannossa käytetyistä kypsyysmalleista. Analytiikan askelissa data-analytiikan vaiheet on kuvattu viidellä askelmalla: kerää, kuvaile, ymmärrä, ennusta ja vaikuta. Askeleet havainnollistavat analytiikan eri tasoja ja auttavat analytiikan nykytilan ja tavoitteiden tunnistamisessa. Taustalla on ajatus, ettei ylemmälle askeleelle voi siirtyä ennen kuin alemmat askeleet ovat kunnossa.

Analytiikkahankkeen suunnittelu kannattaa aloittaa miettimällä, mitä ongelmaa analytiikan ja tekoälyn avulla halutaan ratkaista. Halutaanko saada ymmärrystä myynnin kehittymisestä, ennustaa laitteen vikaantumista vai tunnistaa ennakolta opintonsa keskeyttäviä opiskelijoita? Kenties ratkaistavana ongelmana on nuorten syrjäytyminen ja tavoitteena ymmärtää paremmin syrjäytymistä ennustavia indikaattoreita. Kun ongelma on selvillä, voidaan pohtia, miten haluttuun lopputulokseen päästään. Tämän vaiheen tukena voidaan käyttää analytiikan askelia. Niiden avulla on helpompi miettiä millä tasolla ongelmaa on järkevää tarkastella, ja millä tasolla nykytilanteessa ollaan.

Kerää dataa

Alimmaisella askelmalla on datan kerääminen. Tällä tasolla oleellista on miettiä mitä dataa ongelman ratkaisemiseksi tarvitaan. Perinteisen numerodatan lisäksi on hyvä tunnistaa myös teksti-, kuva- ja ääniaineistot mahdollisina datalähteinä. Sen jälkeen selvitetään, onko dataa jo valmiiksi kerättynä vai aletaanko sitä kerätä. Samalla myös suunnitellaan aineiston asianmukainen säilyttäminen. Pieniä aineistoja voi kenties säilyttää omalla koneella, mutta isommat aineistot vaativat tehokkaampia ratkaisuja. Sensitiivinen, eli arkaluontoista henkilötietoa sisältävä, aineisto vaatii erilaisen ratkaisun kuin julkinen data. Jos datan keruu ja varastointi eivät ole vielä hallussa, voi analytiikkaprojektin rinnalle olla tarpeellista perustaa tietovarastoprojekti.

Esimerkkinä datan keräämisestä voi olla vaikkapa opiskelijan opintotietojen tallentaminen tietokantaan tai liikkumishankkeeseen osallistuneiden koulujen tulosten kerääminen ja varastointi. Alimmalla askelmalla ei tehdä vielä analytiikkaa, mutta kerätyn datan perusteella voidaan jo vastata yksinkertaisiin kysymyksiin kuten: minkä arvosanan opiskelija on saanut englannin kielen kurssista tai onko tarkasteltava koulu osallistunut liikkumishankkeeseen?

Kuvaile data

Seuraavalla tasolla analytiikan askelissa on datan kuvailu. Kuvailuvaihe sisältää monenlaista datan esikäsittelyä, aineistojen yhdistämistä sekä yksinkertaisten tunnuslukujen kuten keskiarvon ja vaihteluvälin laskemista. Kuvailuvaiheen lopputuotoksena voi olla esimerkiksi kuvaaja kuluvan vuoden myynnistä tai vuorovaikutteinen raportti eli nk. dashboard järjestelmän käyttäjistä. Tähän vaiheeseen kuluu usein ennakoitua enemmän aikaa. Perinteisen säännön mukaan jopa 80 % analytiikan ajasta menee datan esikäsittelyyn eli esimerkiksi aineiston virheiden havaitsemiseen ja korjaamiseen, päällekkäisten muuttujien karsimiseen ja aineistojen yhdistämiseen. Toisaalta tämän vaiheen jälkeen aineistosta ja tarkasteltavasta ilmiöstä saadaan paljon hyödyllistä tietoa, jota voidaan hyödyntää toiminnan suunnittelussa.

Opiskelijadatasta voidaan esimerkiksi laskea vuosittainen opintonsa keskeyttäneiden määrä, kurssikohtaisia arvosanajakaumia sekä opiskelijakohtaisia tunnuslukuja kurssien läpipääsystä ja etenemisestä. Vastaavasti liikkumishankkeen tuloksista voidaan laskea koulukohtaisesti esimerkiksi yli tunnin päivässä liikkuvien nuorten osuus. Aineistot voidaan myös yhdistää kuntatasolla ja samalla rikastaa yhdistettyä aineistoa muilla kuntakohtaisilla tiedoilla kuten kunnan talousluvuilla, nuorten mielenterveysasiakkuuksien määrällä, Kouluterveyskyselyn tuloksilla tai vaikkapa kirjastojen käyttöasteella. Näin voidaan laskea kuntakohtaisia tunnuslukuja nuorten hyvinvoinnista ja tunnistaa mahdollisia kehityskohteita.

Ymmärrä ilmiö

Kolmannella askelmalla tarkoituksena on ymmärtää tutkittavaa ilmiötä syvemmin ja havaita aineistosta esimerkiksi poikkeavuuksia, yhteyksiä ja ryhmittymiä. Vaihe voi sisältää sekä tilastollisia analyyseja että koneoppimista. Tyypillisesti lopputuotoksena on jonkinlainen tilannekuva tarkasteltavan ilmiön nykytilasta ja sen ominaisuuksista.

Tilastollisilla menetelmillä on mahdollista havainnoida tarkasteltavan ilmiön käyttäytymistä ja hälyttää tavallisuudesta poikkeavista tapahtumista esimerkiksi, jos opiskelija saa hylätyn arvosanan useasta kurssista peräkkäin. Korrelaatioanalyysi lisää ymmärrystä tarkasteltavan ilmiön riippuvuuksista suhteessa muihin muuttujiin. Esimerkiksi liikkumisdatasta voidaan laskea korrelaatio fyysisen kunnon ja joidenkin taustamuuttujien kesken tai tarkastella kuntakohtaisesti onko liikunnan käyttömenojen ja nuorten liikuntamäärien välillä yhteyttä.

Klusteroinnilla tarkasteltavia kohteita voidaan ryhmitellä klustereihin eli keskenään erilaisiin ryhmiin. Nuorten liikunta- ja hyvinvointiaineistoa voidaan tarkastella kuntatason klusteroinnilla ja siten tunnistaa keskenään samankaltaisia kuntia ja niiden ominaispiirteitä. Meneekö joissain kunnissa nuorilla erityisen hyvin ja mitä muita ominaisuuksia noilla kunnilla on? Klusterointi voidaan tehdä myös yksilötasolla ryhmittelemällä nuoria heidän vastausten perusteella. Tämä voidaan tehdä anonyymisoidulle datalle, jolloin yksittäistä vastaajaa ei voida tunnistaa, mutta klusterianalyysilla saadaan kuitenkin tietoa ja ymmärrystä nuorten hyvinvoinnin tekijöistä.

Ennusta

Neljännellä askelmalla on ennustaminen. Tämä vaihe sisältää koneoppimista ja tilastollista mallintamista. Ennustaminen perustuu tarkasteltavasta ilmiöstä tehtyyn matemaattiseen malliin, joka kuvaa ilmiötä ja sen vuorovaikutuksia mahdollisimman tai ainakin riittävän hyvin. Ennustemallin tekemiseen tarvitaan tyypillisesti sekä historiadataa että asiantuntijaosaamista.

Koneoppimisessa tietokoneohjelmisto oppii tarkasteltavan ilmiön ominaisuudet sille syötetyn aineiston perusteella. Jos siis halutaan tehdä malli, joka ennustaa nuoren syrjäytymisriskiä, tarvitaan mallin opetukseen opetusdataa sekä syrjäytyneistä nuorista että nuorista, jotka eivät ole syrjäytyneitä. Jos opetusdatassa ei ole riittävästi esimerkkejä molemmista ryhmistä, ennustaminen vaikeutuu eikä malli ole luotettava. Vastaavasti jos halutaan luokitella nuorisoalan järjestöjen avustushakemuksia viiteen ennalta määrättyyn luokkaan, tarvitaan kattavasti esimerkkejä kaikista viidestä luokasta. Toisaalta esimerkiksi koronaviruksen leviämisestä ei ole ollut olemassa historiatietoa, joten tartuntatilanteen mallinnus on perustunut muiden virusten käyttäytymisestä ja rokotuksista kertyneeseen asiantuntijatietoon.

Koska koneoppimismalli perustuu aiemmin kerättyyn tietoon tarkasteltavasta ilmiöstä, täytyy mallinnuksessa olla tarkkana, että data tosiaankin kuvaa sitä ilmiötä, jota ollaan ennustamassa. Usein hankaluutena on, ettei opetusdatassa ole riittävästi havaintoja harvinaisemmista tapahtumista. Jos halutaan ennustaa opiskelijan keskeyttämisriskiä, mutta opetusdataa on oikeastaan vain hyvin menestyvistä oppilaista, ei ennustemallista luultavasti saada luotettavaa. Hankaluuksia tulee myös, jos opetusdatassa on jokin systemaattinen virhe. Esimerkiksi jos avustuspäätöksissä on syrjitty jotain ihmisryhmää, myös ennustemalli oppii syrjinnän.

Vaikuta ja luo uutta

Viidennellä askelmalla tavoitteena on vaikuttaa ilmiöön ja luoda uusia toimintatapoja. Tekniikan alalla tätä kutsutaan takaisinkytkennäksi eli toimintaa muokataan edellisen askeleen ennusteen perusteella. Kun ennusta-askeleella tunnistettiin mahdollisesti syrjäytymisriskissä olevat nuoret, tällä askeleella toteutetaan tukitoimet syrjäytymisen estämiseksi.

Vaikuttaminen voi olla automaattista tai ihmisen toimintaan perustuvaa. Esimerkiksi itseohjautuva auto pysähtyy automaattisesti havaittuaan, että ihminen on astumassa suojatiellä. Vastaavasti automaattinen toiminto voisi olla esimerkiksi avustuspäätöksien tekeminen. Koneoppimismallin voisi opettaa vanhoilla hakemuksilla ja päätöksillä tekemään automaattisia päätösehdotuksia virkamiehille. Tämä voisi nopeuttaa päätöksentekoprosessia ja parhaimmillaan muokata koko prosessia uudenlaiseksi. Aina vaikuttamiskeinot eivät ole helposti määriteltäviä. Vaikka koronatartuntojen ennustettaisiin lisääntyvän, ei ole varmuutta millä toimenpiteillä niiden määrään voitaisiin vaikuttaa.

On tärkeää huomata, että ilmiöön vaikuttavia päätöksiä voidaan tehdä muillakin askelmilla. Usein se, että ilmiöstä saadaan edes karkeaa tietoa, auttaa kohdistamaan päätöksiä oikeaa suuntaan. Esimerkiksi jos kuvailuvaiheessa on huomattu syrjäytyneiden nuorten lisääntyminen, voidaan havainnon perusteella tehdä päätöksiä, joilla yritetään vaikuttaa tuleviin määriin. Toisaalta ennustemallin avulla voidaan saada ilmiöstä ja sen syistä tarkempaa tietoa, ja jopa arvioida yksittäisen nuoren syrjäytymisriskiä, jolloin myös tukitoimet voidaan kohdentaa paremmin.

Lopuksi

Analytiikkaa on monen tasoista, eikä alimmalta askelmalta voi suoraan hypätä ylimmälle askelmalle. Analytiikkahankeen suunnittelussa on hyvä miettiä, mikä on se taso, jolla riittävä hyöty saavutetaan. Tasolta toiselle siirtyminen voi olla kallista eikä onnistuminen ole taattua, joten on järkevää harkita, riittäisikö alempi taso. Pienet analytiikkakokeilut ovat hyvä tapa kartoittaa seuraavan tason hyötyjä ja mahdollisuuksia. Niiden avulla myös kasvatetaan osaamista analytiikan mahdollisuuksista ja riskeistä sekä ymmärrystä omista tarpeista.

Aino Ropponen
Kirjoittaja on data-analytiikan asiantuntija CSC:n tekoälyn ja data-analytiikan ryhmässä. Sähköposti aino.ropponen@csc.fi.

Aleksi Kallio
The author is the manager of CSC’s data analytics group, coordinating development of machine learning and data engineering based services. Email aleksi.kallio@csc.fi.

Tekoäly Tutkimusdatan hallinta

Välttämättömät evästeet

Verkkosivuston kävijätilastot