Julkaisut > Tietoyhteys (2002-2008) > HTML-lehdet > Tietoyhteys 1/2008 > Proteiineista maailmankartta
 
Tehdyt toimenpiteet

Proteiineista maailmankartta

Liisa Holm © Mikael Soininen Liisa Holm © Mikael Soininen


Helsingin yliopiston bioinformatiikan professori Liisa Holmin tutkimusryhmä on maailman johtavia proteiinien rakennevertailumenetelmien kehittäjiä. Tutkimusryhmän tavoitteena on luokitella kaikki proteiinit. Suuret perimän sekvenointiprojektit tuottavat runsaasti sekvenssidataa. Tutkijat yrittävät selvittää, mitä uudet sekvenssit tekevät. Proteiinien funktioiden ennustamisessa käytetään laskennallisia menetelmiä kuten samankaltaisuushakuja. Jos uusi proteiini on sekvenssiltään riittävän samanlainen tunnetun proteiinin kanssa, voidaan olettaa että sillä on myös samankaltainen funktio.

– Me teemme tavallaan proteiinien maailmankarttaa. Selvitämme proteiinien sukulaisuussuhteita. Voimme myös tutkia uusia proteiineja, joista ei tiedetä vielä mitään. Jos löydämme sille sukulaisia, voimme niiden funktiosta päätellä, mitä tämä uusi proteiini mahdollisesti saattaisi tehdä, Liisa Holm selittää.

Sukulaisten etsintää tietokantojen avulla


Helsingin yliopiston Viikin bioinformatiikkatutkimus on alkanut 2000-luvulla. Viikissä on erityisesti keskitytty kehittämään tietokantasovelluksia, jotka edistävät proteiiniperheiden kehityshistorian selvittämistä, proteiinien kaukaisten sukulaisuussuhteiden tunnistamista ja täsmällistä biologisen funktion määritystä.

– PairsDB-tietokannan idea on äärimmäisen yksinkertainen. Tiedetään, että monet proteiinit polveutuvat samoista kantamuodoista. Sekvenssejä vertaamalla tietokannoista etsitään tutkittavan proteiinin sukulaisia, joiden ominaisuudet mahdollisesti ovat yhteisiä tutkittavan proteiinin kanssa, Holm kertoo.

Verrataan kaikkia kaikkia vastaan


Tutkimuksessa verrataan kaikkia proteiinisekvenssejä toisiaan vastaan. Tuloksista nähdään ensiksikin, mitkä parit ovat keskenään samankaltaisia, ja sitten voidaan etsiä proteiineista ryhmiä, jotka ovat niin samankaltaisia, että sillä on biologista merkitystä. Ryhmän proteiineilla on usein sama kantamuoto ja niiden rakenne sekä funktio ovat samanlaisia. Ryhmien avulla voidaan ennustaa myös tuntemattomien proteiinien rakennetta.

– Olen tehnyt proteiinitutkimusta vuosikymmeniä. Ensin aloitin rakenteiden vertailulla ja myöhemmin siirryin sekvenssivertailuun. Periaate niissä on ihan sama, Holm toteaa.


Holmin ryhmä tekee perustutkimusta,
jonka tuloksia soveltamalla voidaan kehittää
esimerkiksi uusia lääkkeitä.


PairsDB-tietokantaan on koottu kaikkien tunnettujen proteiinisekvenssien naapurustot, jotka on määritetty BLAST-ohjelmalla sekä kaukaisten sukulaisten etsintään sopivalla PSI-BLAST-ohjelmalla. Webbiliittymää käyttävä tutkija saa tietyn tutkittavan proteiinin sukulaiset näkyviin yhdellä klikkauksella. Proteiinien parittaiset vertailut on tietokannassa valmiiksi laskettu.

– Meidän tutkimuksemme on puhtaasti laskennallista. Käytämme sekvenssidataa, vaikka sekvenssit on tietysti määritelty laboratoriossa. Kyseisen BLAST-ohjelman käyttö tietokantahakuihin on kaikkien molekyylibiologien perustyötä. Maailmasta tuskin löytyy alan tutkijaa, joka ei olisi tehnyt suosikkisekvenssillään BLAST -hakua.

PairsDB:n tärkein ominaisuus on se, että lukuisat sovellukset voivat hyödyntää kaikkien proteiinisekvenssien välisten naapuruussuhteiden muodostaman verkon tuntemusta. Funktionaalisessa genomiikassa se auttaa tarkempien inferenssien tekemisessä kohinaisesta datasta. PairsDB:ssa myös sekvenssirinnastukset on talletettu niin, että käyttäjä voi tarkastella säilyneitä sekvenssipiirteitä ja suodattaa naapurilistaa esimerkiksi organismin perusteella.


PairsDB:n tärkein ominaisuus on se, että
lukuisat sovellukset voivat hyödyntää kaikkien
proteiinisekvenssien välisten naapuruussuhteiden
muodostaman verkon tuntemusta.


Liisa Holmin ryhmä on kehittänyt myös automaattisia menetelmiä proteiinien rakenteellisten perusyksiköiden, domeenien, tunnistamiseen ja ryhmittelyyn perheiksi. Domeenit ovat proteiinirakenteen alayksiköitä. Domeeni pystyy laskostumaan itsenäisesti eli se on rakenteellisesti itsenäinen. Usein sillä on tietty funktio. Lisäksi on multidomeeniproteiineja, joissa on yhdistynyt erilaisia domeeneja, eri rakenteellisia yksiköitä ja funktiota. Näin saadaan uusia funktioita.

– Omassa tutkimuksessani PairsDB-tietokanta on lähtökohtana syvemmälle meneville analyyseille. Yksi tällainen on ADDA-domeenitietokanta, joka pohjautuu Pairs DB:lle. Käsittelemme tämän samankaltaisuusdatan ja jaamme proteiinisekvenssit domeeneiksi.  Niitä me ryhmittelemme niin, että saamme domeeniperheitä.

– Olemme kehittäneet automaattisia menetelmiä proteiinien domeenirakenteen selvittämiseen ja domeenien ryhmittelyyn perheisiin. PairsDB:n verkkorakennetta käytämme kaukaisten sukulaisten etsinnässä. Olemme esimerkiksi johtaneet PairsDB:stä uuden sekvenssipiirreavaruuden, jossa samaa sukujuurta olevat proteiinit erottuvat muista selvemmin kuin tavallisilla etäisyysmitoilla. Tämä menetelmämme tunnistaa yhtä kaukaisia sukulaisia pelkän sekvenssidatan perusteella kuin kilpailevat lisäksi rakenneinformaatiota käyttävät menetelmät. Yleensä biologit tutkivat laboratoriossa jotain tiettyä proteiinia, yhtä ainoata. Me katsomme niitä kaikkia.

Perustutkimusta esimerkiksi lääkekehityksen hyödyksi


Holmin ryhmä tekee perustutkimusta, jonka tuloksia soveltamalla voidaan kehittää esimerkiksi uusia lääkkeitä.

– Kun me sijoitamme uuden proteiinin johonkin tunnettuun proteiiniperheeseen, proteiinimallittajat voivat tehdä siitä mallin ja yrittää kehittää siitä lääkeaineen, joka sopii kyseiseen rakenteeseen.  Muut tutkijat voivat myös käyttää meidän etsimiämme linkkejä hyväkseen ja tutkia sitten tarkemmin kohdeproteiineja. Tämä aineisto voi hyödyttää jonkun geenin parissa työskenteleviä molekyylibiologeja. He saattavat saada näistä tuloksista uutta tietoa tai hypoteesin, jota voivat lähteä jäljittämään, Liisa Holm kertoo.

Holmin ryhmä on CSC:n suurimpia biokäyttäjiä. He laskevat CSC:n laitteilla proteiinien sekvenssivertailuja. Superlaskentaresursseja käytetään, kun dataa muokataan funktionaalisten sekvenssipiirteiden etsimiseen sopivaksi. Sekvenssidatan määrä kaksinkertaistuu noin vuodessa tai puolessatoista.

– Teemme PairsDB-projektia yhdessä CSC:n kanssa. Me olemme akateeminen tutkimusryhmä ja haluamme kehittää uusia menetelmiä. CSC:n PairsDB-tietokanta on hyödyllinen lähtökohta meidän tutkimuksillemme, mutta meillä ole omia resursseja tietokannan päivitysten tekemiseen, Holm erittelee.

- CSC:llä pystytään laskemaan PairsDB:n päivityksiä noin puolivuosittain. ■

Kaisa Riikilä