Omat työkalut
Osiot
Olet täällä: Etusivu > @CSC-lehden arkisto > 2008 > @CSC 3/2008 > Monen sekvenssin rinnastus MAFFT ohjelmalla – olisiko jo aika hylätä ClustalW?
Sivun toiminnot

Monen sekvenssin rinnastus MAFFT ohjelmalla – olisiko jo aika hylätä ClustalW?

ClustralW-ohjelmisto on ollut standardityökalu monen sekvenssin rinnastukseen jo kohta kymmenen vuoden ajan. Ohjelman suosiota ovat ylläpitäneet sen tunnettuus, hyvät käyttöliittymät ja se, että myös monet muut palvelut käyttävät sitä. ClustalW on edelleen toimiva vaihtoehto etenkin silloin, kun sekvenssejä ei ole paljon (alle 100) ja ne ovat kohtuullisen helposti rinnastettavissa.

Nykyään on kuitenkin saatavissa useita uudempia rinnastusohjelmia, joiden käyttämät rinnastusmenetelmät ovat tarkempia ja/tai nopeampia kuin Clustalin käyttämä parittain etenevä sekvenssirinnastus (pairwise progressive sequece alignment). Näihin uudempiin rinnastusohjelmiin kuuluvat mm. T-coffee, Muscle ja MAFFT. Tässä artikkelissa esittelemme MAFFT-rinnastuohjelman käyttöä Tutkijan käyttöliittymässä.

MAFFT tutkijan käyttöliittymässä

MAFFT-ohjelmaa voi CSC:llä käyttää Tutkijan käyttöliittymässä olevan WWW-käyttöliittymän kautta sekä komentorivikäyttöisenä Murska- ja Corona-palvelimilla. WWW-käyttöliittymän osoite on:
https://hotpage.csc.fi/appl/molbio/mafft.phtml

Käyttöliittymän rakenne on hyvin yksinkertainen. Rinnastettavat sekvenssit syötetään sisään fasta-muodossa joko kopioimalla sekvenssit Input sequence data-kenttään tai poimimalla sekvenssitiedosto omalta koneelta Browse-napin avulla. EMBOSS- ja ClustalW käytöliittymissä olevaa kolmatta vaihtoehtoa, jossa sekvenssit luetaan CSC:n levyiltä, ei tässä käyttöliittymässä ole.

Tämän jälkeen käyttäjän on määriteltävä rinnastuksessa käyttävä algoritmi. Valinta riippuu rinnastettavien sekvenssien luonteesta ja määrästä. Jos et ole varma, mitä algoritmia kannattaa käyttää, voit jättää valitsin kohtaan “Automatic selection”. Tällöin MAFFT valitsee algoritmin itse sekvenssijoukon koon perusteella. Algoritmeihin palaamme myöhemmin tässä artikkelissa.

MAFFT soveltuu sekä nukleotidi- että proteiinisekvenssien rinnastuksiin. Ohjelma koittaa automaattisesti tunnistaa, mitä tyyppiä syötesekvenssit ovat, mutta käyttäjä voi tehdä määrittelyn myös itse Sequence type –valitsimella.

Tulostiedosto voi sisältää rinnastuksen joko Clustal- tai Fasta-muodossa, Tulostiedeoston tyyppi valitaan valitsimella Output format. Tulostiedosto kannattaa myös nimetä. Mikäli mitään nimeä ei anneta, tulee tiedoston nimeksi mafft_result.aln tai mafft_result.fasta valitusta tiedostotyypistä riippuen. Rinnastuksen laskeminen käynnistetään painamalla Run nappia.

mafft-kuva.jpg

Kuva1. MAFFT-käyttöliittymä Tutkijan käyttöliittymässä

Ohjelman suoritus

Käytössä oleva WWW-käyttöliittymä on toteutukseltaan hyvin yksinkertainen eikä sisällä minkäänlaista työn hallintaa tai seurantaa. Käyttäjälle tämä tarkoitta sitä, että kun työ on lähetetty, selainikkuna jää odottamaan tulosten valmistumista antamatta väliaikatietoja työn etenemisestä. Tyypillisesti muutaman kymmenen sekvenssin MAFFT-ajot menevät läpi alle minuutissa, mutta jos sekvenssejä on paljon, saattaa työ kestää kauemminkin.

Kun työ on valmis, käyttöliittymä kirjoittaa näkyviin ajetun työn parametrit sekä varsinaisen sekvenssirinnastuksen. Tulossivu sisältää myös linkin, jolla tulostiedosto voidaan kopioida omalle koneelle. Tuloksena saadun rinnastuksen tarkastelu on usein järkevintä tehdä omalla koneella esim. Jalview- tai Seaview-sekvenssieditoreilla.

Jos rinnastus kestää useita minuutteja, saattaa selain lopettaa tulostiedoston valmistumisen odottamisen. Tämä ei kuitenkaan tarkoita sitä että ajo on epäonnistunut. Vaikka selain on kadottanut yhteyden pitkään kestäneeseen MAFFT-ajoon, ajo yleensä suoritetaan loppuun ja tulokset tulevat käyttäjän $METAWRK-hakemistossa olevaan tiedostoon. Tutkijan käyttöliittymässä tästä levyalueesta käytetään nimeä “verkkolevy”. Pystyt näkemään verkkolevyn sisällön valitsemalla tutkijan käyttöliittymän vasemmasta sivupalkista toiminnon: Tiedostoni. Tämän jälkeen valitse sivun yläosassa olevasta hakemistovalikosta “Verkkolevy - /fs/metawrk/käyttäjätunnus“ ja paina nappia
“Siirry hakemistoon”.

Vaikka laskennallisesti raskaiden rinnastusten laskeminen onnistuu siis tutkijan käyttöliittymästäkin, suosittelemme silti perinteistä komentorivikäyttöä pidemmille töille.

MAFFT-ohjelman algoritmit

MAFFT ohjelmisto tarjoaa mahdollisuuden käyttää useita eri rinnastusalgoritmeja. Suurille sekvenssijoukoille kannattaa yleensä käyttää nopeita algoritmityyppejä kuten FFT-NS-2 tai FFT-NS-i. Pienemmille sekvenssijoukoilla kannatta taas käyttää tarkempia, mutta hitaampia algoritmeja.

FFT-NS-2

Tämä on nopein tutkijan käyttöliittymässä tarjolla olevista MAFFT-algoritmeista.
Algoritmi muistuttaa ClustaliW:n käyttämää pareittain etenevää sekvenssirinnastusta, FFT-NS-2 laskee ensin parittaiset etäisyysarvot kaikille sekvenssipareille ja tekee niiden perusteella ensimmäisen rinnastuksen. Rinnastusta käytetään uusien ja tarkempien parittaisten etäisyyksien laskemiseen, minkä jälkeen monen sekvenssin rinnastus kootaan uudelleen. Sekvenssiryhmien rinnastuksessa käytetään nopeaa Fourier-muunnokseen perustuvaa sekvenssiryhmien rinnastusmenetelmää.
 

FFT-NS-i

Tämä algoritmi tekee ensin edellä esitetyn FTT-NS-2 algoritmin mukaisen rinnastuksen. Tämän jälkeen saatua rinnastusta pyritään parantamaan jakamalla rinnastus kahteen osaan, jotka uudelleen yhdistetään MAFFT:in sekvenssirinnastusten yhdistelyalgoritmilla. Mikäli uusi rinnastus on parempi kuin vanha, se otetaan käyttöön jatkokierroksilla. Rinnastuksen laatua mitataan laskemalla rinnastukselle hyvyysarvo painotettua parisummamenetelmää käyttäen (Wieghted sum of pairs). Iteraatioita jatketaan niin kaunan että rinnastuksen hyvyysarvo ei enää parane.
 

L-INS-i, G-INS-I ja E-INS-I

Nämä algoritmit toimivat kuten FFT-NS-i mutta iteraatiokierrosten aikana ne käyttävät rinnastuksen hyvyyden arviointiin sekä parisummamenetelmää että COFFEE-tyyppistä konsistenssifunktiota. Tämä parantaa rinnastusten laatua mutta hidastaa laskentaprosessia. Näistä algoritmivarianteista G-INS-i rinnastaa kaikki sekvenssit koko pituudeltaan. Tätä vaihtoehtoa kannattaa siis käyttää silloin, kun sekvenssien oletetaan oleva kokonaan rinnastettavissa keskenään. Mikäli rinnastettavuudesta ei ole varmuutta, kannattaa käyttää L-INS-i versiota joka tekee paikallisen monen sekvenssin rinnastuksen. Tuloksensa saadussa rinnastuksessa on siis yksi hyvin rinnastuva alue, mutta sen ympärillä rinnastuksen laatuun ei kiinnitetä huomiota. Kolmas vaihtoehto E-INS-i on tarkoitettu sellaisille sekvenssijoukoille, joista löytyy useita rinnastuvia alueita, joiden välissä on pitkiä huonosti rinnastuvia alueita.
 
Taulukko 1.
Esimerkki algoritmien suoritusajoista Murskassa
Esimerkkinä 500 proteiinisekvenssin rinnastus

 FFT-NS-2    5 s
 FFT-NS-i    8min 4s
 L-INS-i  18 min  31s

 

Lisätietoa MAFFT ohjelmasta

CSC:n MAFFT-sivu

MAFFT-ohjelman kotisivu

Artikkeli jossa on vertailtu eri rinnastusohjelmia:
Nuin et al. The accuracy of several multiple sequence alignment programs for proteins BMC Bioinformatics 2006, 7:471