Helsingin yliopiston bioinformatiikan professori Liisa
Holmin tutkimusryhmä on maailman johtavia proteiinien rakennevertailumenetelmien kehittäjiä. Tutkimusryhmän tavoitteena on luokitella
kaikki proteiinit. Suuret perimän sekvenointiprojektit tuottavat runsaasti
sekvenssidataa. Tutkijat yrittävät selvittää, mitä uudet sekvenssit tekevät. Proteiinien
funktioiden ennustamisessa käytetään laskennallisia menetelmiä kuten samankaltaisuushakuja. Jos uusi proteiini on sekvenssiltään riittävän samanlainen
tunnetun proteiinin kanssa, voidaan olettaa että sillä on myös samankaltainen
funktio.
– Me teemme tavallaan proteiinien maailmankarttaa. Selvitämme
proteiinien sukulaisuussuhteita. Voimme myös tutkia uusia proteiineja, joista
ei tiedetä vielä mitään. Jos löydämme sille sukulaisia, voimme niiden
funktiosta päätellä, mitä tämä uusi proteiini mahdollisesti saattaisi tehdä,
Liisa Holm selittää.
Sukulaisten etsintää tietokantojen avulla
Helsingin yliopiston Viikin bioinformatiikkatutkimus on
alkanut 2000-luvulla. Viikissä on erityisesti keskitytty kehittämään tietokantasovelluksia,
jotka edistävät proteiiniperheiden kehityshistorian selvittämistä, proteiinien kaukaisten
sukulaisuussuhteiden tunnistamista ja täsmällistä biologisen funktion
määritystä.
– PairsDB-tietokannan idea on äärimmäisen yksinkertainen.
Tiedetään, että monet proteiinit polveutuvat samoista kantamuodoista.
Sekvenssejä vertaamalla tietokannoista etsitään tutkittavan proteiinin
sukulaisia, joiden ominaisuudet mahdollisesti ovat yhteisiä tutkittavan
proteiinin kanssa, Holm kertoo.
Verrataan kaikkia kaikkia vastaan
Tutkimuksessa verrataan kaikkia proteiinisekvenssejä toisiaan
vastaan. Tuloksista nähdään ensiksikin, mitkä parit ovat keskenään
samankaltaisia, ja sitten voidaan etsiä proteiineista ryhmiä, jotka ovat niin
samankaltaisia, että sillä on biologista merkitystä. Ryhmän proteiineilla on
usein sama kantamuoto ja niiden rakenne sekä funktio ovat samanlaisia. Ryhmien
avulla voidaan ennustaa myös tuntemattomien proteiinien rakennetta.
– Olen tehnyt proteiinitutkimusta vuosikymmeniä. Ensin
aloitin rakenteiden vertailulla ja myöhemmin siirryin sekvenssivertailuun.
Periaate niissä on ihan sama, Holm toteaa.
Holmin ryhmä tekee perustutkimusta,
jonka tuloksia soveltamalla voidaan kehittää
esimerkiksi uusia lääkkeitä.
PairsDB-tietokantaan on koottu kaikkien tunnettujen proteiinisekvenssien
naapurustot, jotka on määritetty BLAST-ohjelmalla sekä kaukaisten sukulaisten etsintään
sopivalla PSI-BLAST-ohjelmalla. Webbiliittymää käyttävä tutkija saa tietyn
tutkittavan proteiinin sukulaiset näkyviin yhdellä klikkauksella. Proteiinien parittaiset
vertailut on tietokannassa valmiiksi laskettu.
– Meidän tutkimuksemme on puhtaasti laskennallista. Käytämme
sekvenssidataa, vaikka sekvenssit on tietysti määritelty laboratoriossa.
Kyseisen BLAST-ohjelman käyttö tietokantahakuihin on kaikkien
molekyylibiologien perustyötä. Maailmasta tuskin löytyy alan tutkijaa, joka ei
olisi tehnyt suosikkisekvenssillään BLAST -hakua.
PairsDB:n tärkein ominaisuus on se, että lukuisat
sovellukset voivat hyödyntää kaikkien proteiinisekvenssien välisten naapuruussuhteiden
muodostaman verkon tuntemusta. Funktionaalisessa genomiikassa se auttaa
tarkempien inferenssien tekemisessä kohinaisesta datasta. PairsDB:ssa myös sekvenssirinnastukset on talletettu niin,
että käyttäjä voi tarkastella säilyneitä sekvenssipiirteitä ja suodattaa
naapurilistaa esimerkiksi organismin perusteella.
PairsDB:n tärkein ominaisuus on se, että
lukuisat sovellukset voivat hyödyntää kaikkien
proteiinisekvenssien välisten naapuruussuhteiden
muodostaman verkon tuntemusta.
Liisa Holmin ryhmä on kehittänyt myös automaattisia
menetelmiä proteiinien rakenteellisten perusyksiköiden, domeenien,
tunnistamiseen ja ryhmittelyyn perheiksi. Domeenit ovat proteiinirakenteen
alayksiköitä. Domeeni pystyy laskostumaan itsenäisesti eli se on
rakenteellisesti itsenäinen. Usein sillä on tietty funktio. Lisäksi on
multidomeeniproteiineja, joissa on yhdistynyt erilaisia domeeneja, eri
rakenteellisia yksiköitä ja funktiota. Näin saadaan uusia funktioita.
– Omassa tutkimuksessani PairsDB-tietokanta on lähtökohtana
syvemmälle meneville analyyseille. Yksi tällainen on ADDA-domeenitietokanta, joka pohjautuu
Pairs DB:lle. Käsittelemme tämän samankaltaisuusdatan ja jaamme proteiinisekvenssit
domeeneiksi. Niitä me ryhmittelemme
niin, että saamme domeeniperheitä.
– Olemme kehittäneet automaattisia menetelmiä proteiinien
domeenirakenteen selvittämiseen ja domeenien ryhmittelyyn perheisiin. PairsDB:n
verkkorakennetta käytämme kaukaisten sukulaisten etsinnässä. Olemme esimerkiksi
johtaneet PairsDB:stä uuden sekvenssipiirreavaruuden, jossa samaa sukujuurta
olevat proteiinit erottuvat muista selvemmin kuin tavallisilla
etäisyysmitoilla. Tämä menetelmämme tunnistaa yhtä kaukaisia sukulaisia pelkän
sekvenssidatan perusteella kuin kilpailevat lisäksi rakenneinformaatiota
käyttävät menetelmät. Yleensä biologit tutkivat laboratoriossa jotain tiettyä
proteiinia, yhtä ainoata. Me katsomme niitä kaikkia.
Perustutkimusta esimerkiksi lääkekehityksen hyödyksi
Holmin ryhmä tekee perustutkimusta, jonka tuloksia
soveltamalla voidaan kehittää esimerkiksi uusia lääkkeitä.
– Kun me sijoitamme uuden proteiinin johonkin tunnettuun
proteiiniperheeseen, proteiinimallittajat voivat tehdä siitä mallin ja yrittää
kehittää siitä lääkeaineen, joka sopii kyseiseen rakenteeseen. Muut tutkijat voivat myös käyttää meidän
etsimiämme linkkejä hyväkseen ja tutkia sitten tarkemmin kohdeproteiineja. Tämä
aineisto voi hyödyttää jonkun geenin parissa työskenteleviä molekyylibiologeja.
He saattavat saada näistä tuloksista uutta tietoa tai hypoteesin, jota voivat
lähteä jäljittämään, Liisa Holm kertoo.
Holmin ryhmä on CSC:n suurimpia biokäyttäjiä. He laskevat
CSC:n laitteilla proteiinien sekvenssivertailuja. Superlaskentaresursseja
käytetään, kun dataa muokataan funktionaalisten sekvenssipiirteiden etsimiseen
sopivaksi. Sekvenssidatan määrä kaksinkertaistuu noin vuodessa tai
puolessatoista.
– Teemme PairsDB-projektia yhdessä CSC:n kanssa. Me olemme
akateeminen tutkimusryhmä ja haluamme kehittää uusia menetelmiä. CSC:n PairsDB-tietokanta
on hyödyllinen lähtökohta meidän tutkimuksillemme, mutta meillä ole omia
resursseja tietokannan päivitysten tekemiseen, Holm erittelee.
- CSC:llä pystytään laskemaan PairsDB:n päivityksiä noin puolivuosittain. ■