Omat työkalut
Osiot
Olet täällä: Etusivu > @CSC-lehden arkisto > 2007 > @CSC 3/2007 > "Murskaantuneet" bio-ohjelmistot
Sivun toiminnot

"Murskaantuneet" bio-ohjelmistot

Useimmat CSC:n bioinformatiikan ohjelmistoista ovat käytettävissä uudella Murska-palvelimella. Jotkut ohjelmistoista ovat käytössä vain Murskalla, mutta useimmat ovat edelleen myös Corona- ja Sepeli-palvelimilla. Murskaa suositellaan käytettäväksi erityisesti massiivisiin ajoihin, sillä kone on Coronaa huomattavasti tehokkaampi.

Murska on Sepelin kaltainen klusterikone, joka koostuu kolmesta edustakoneesta ja 512 laskentasolmusta, joista kussakin on kaksi kaksiytimistä 2,6 GHz AMD Opteron -prosessoria.

Aivan kuten Sepelissäkin, käyttäjän kotihakemisto ja metatyöhakemisto eivät näy laskentasolmuihin, joten eräajojen tapauksessa käsiteltävä data on siirrettävä työhakemistoon ($WRKDIR).

Ohjelmien alustus tehdään Murskassa käyttäen komentoa module load. Coronassa ja Sepelissä käytössä oleva use-komento ei toimi Murskassa. Esimerkiksi EMBOSS-ohjelmiston käyttöönotto tehdään Murskassa komennolla:

module load emboss

Sekvenssirinnastusohjelmistot

Murskaan on jo asennettu suuri joukko sekvenssirinnastusohjelmia. Sekvenssitietokantoja ei kuitenkaan ole siirretty Murskaan. Niinpä esimerkiksi BLAST-ohjelmaa voi käyttää Murskassa, kunhan käyttäjä itse huolehtii haluamansa sekvenssitietokannan tuomisesta Murskaan.

BLAST

NCBI-BLAST -ohjelman [7] versio 2.2.15 on käyttävissä Murskalla ilman valmiiksi asennettuja tietokantoja. CSC:llä NCBI-BLAST:iin on lisätty optimoitu blastpgp-ohjelma tehostamaan PSI-BLAST ajoja sekä pb-apuohjelma suurten sekvenssijoukkojen analysointia varten.

CD-HIT.

CH-HIT-ohjelmistoa käytetään suurten sekvenssijoukkojen luokitteluun ja samankaltaisen tai identtisten alisekvenssien poistamiseen sekvenssijoukosta. Alkuperäinen CD-HIT -ohjelma oli kehitetty  proteiinisekvenssijoukkojen analysointiin. Murskaan asennetun CD-HIT -ohjelmiston uusin versio sisältää myös intronittomille nukleotidisekvensseille kehitetyn version (cd.hit-est) sekä proteiini- ja est-tietokantojen vertailuun kehitetyt versiot (cd-hit-2d ja cd-hit-est-2d).

EXONERATE

EXONERATE on ohjelmisto, joka tarjoaa laajan valikoiman menetelmiä sekvenssien parittaiseen vertailuun. Ohjelmalla voidaan muun muassa vertailla genomista sekvenssiä proteiini- tai EST-sekvensseihin käyttäen kehittyneitä intronirakenteet huomioivia rinnastusmalleja.

HMMER 

HMMER  [8] on yleisohjelmisto proteiinisekvenssien HMM-mallien luomiseen ja analysointiin sekä malleilla tehtäviin vertailuihin ja hakuihin. PFAM -tietokannat eivät ole automaattisesti käytettävissä Murskassa, joten tarvottaessa käyttäjän on tuotava haluamansa HMM-tietokanta itse omalle työlevylleen.

EMBOSS

Sekvenssianalyysin laaja yleispaketti, EMBOSS [9], on Coronan lisäksi käytettävissä myös Murskassa. Coronassa EMBOSS:iin kytketyt sekvenssitietokannat (EMBL, Uniprot jne.) eivät kuitenkaan ole käytettävissä Murskassa.  Varsinaisten EMBOSS -ohjelmien lisäksi käyettävissä ovat seuraavat EMBOSS-ympäristöön sovitetut niin sanotut EMBASSY -ohjelmistot: SIM4, MEME, HMMER, PHYLIP, TOPO ja VIENNA. Yhteensä Murskan EMBOSS-asennukseen kuuluu 241 sekvenssianalyysiohjelmaa.

MAFFT

MAFFT [10] on usean sekvenssin rinnastusohjelmisto, joka tarjoaa useita erilaisia rinnastusstrategioita. Paras strategia riippuu analysoitavien sekvenssien määrästä ja odotettavissa olevan rinnastuksen luonteesta

Muscle

Muscle-ohjelmisto[1], jota käytetään usean sekvenssin rinnastuksiin on käytettävissä Sepelin lisäksi Murskalla.

Usean sekvenssin rinnastuksissa on syytä siirtyä käyttämään Musclea tai MAFFT:ia Clustalin sijaan, sillä ne antavat tarkempia tuloksia kuin Clustal. Lisäksi suurempien sekvenssijoukkojen (>20) ollessa kyseessä esimerkiksi Muscle tuottaa rinnastuksen paljon Clustalia nopeammin samalla säilyttäen paremman tarkkuutensa.

Fylogenetiikkaohjelmistot

POY:n [2] uusin versio beta 4, build 1822 on asennettu Murskalle sekä peräkkäis- että rinnakkaistöitä varten. Version 3.0.11 peräkkäistyöversio on edelleen käytettävissä Sepelillä.

RAxML [3], MrBayes [4] ja TNT [5] on niinikään asennettu Murskalle, mutta ne säilyvät edelleen käytössä Coronalla ja Sepelillä. Murskalla on kuitenkin asennettu näiden ohjelmien kaikkein tuoreimmat versiot.

PHYLIP-paketti säilyy käytössä Corona-palvelimella, mutta PHYLIP-ohjelmien käytöstä on syytä siirtyä tehokkaampien RAxML- ja TNT-ohjelmien käyttöön, jotka antavat tarkempia tuloksia PHYLIP-ohjelmia nopeammin.

DNA-siruanalyysi

Tilasto-ohjelmisto R:stä [6] on Murskalle asennettu versio 2.5.1. Se sisältää Bioconductor-pakettien julkaisun 2.0 mukaiset peruspaketit.

Lisätietoja

[1] http://www.csc.fi/english/research/sciences/bioscience/programs/muscle/index_html

[2] http://www.csc.fi/english/research/sciences/bioscience/programs/poy/index_html

[3] http://www.csc.fi/english/research/sciences/bioscience/programs/raxml/index_html

[4] http://www.csc.fi/english/research/sciences/bioscience/programs/mrbayes/index_html

[5] http://www.csc.fi/english/research/sciences/bioscience/programs/tnt/index_html

[6] http://www.csc.fi/english/research/sciences/statistics/R_en

[7] http://www.csc.fi/english/research/sciences/bioscience/programs/blast/index_html

[8] http://www.csc.fi/english/research/sciences/bioscience/programs/hmmer/index_html

[9] http://www.csc.fi/english/research/sciences/bioscience/programs/emboss/index_html

[10] http://www.csc.fi/english/research/sciences/bioscience/programs/mafft/index_html