CSC Blog has moved

Find our blogs at www.csc.fi/blog.

This site is an archive version and is no longer updated.
 

Go to CSC Blog
RSS

Entries with Blog Topic Data .

Marraskuun 2019 lopussa uusi koronavirus alkoi tarttua ihmisiin Kiinassa. Virukselle annettiin nimeksi SARS-CoV-2 (Acute Respiratory Syndrome-related coronavirus 2) ja WHO alkoi kutsua viruksen aiheuttamaa sairautta nimellä COVID-19.

Iso-Britannian Imperial Collegen ja kotimaisen THL:n mallitusten mukaan koronaviruksen suurin aalto on tulossa Eurooppaan huhti-toukokuussa. Aalto alkaa vyöryä jo. Italia raportoi noin 500 ihmisen kuolleen yhden vuorokauden aikana koronaviruksen aiheuttamiin komplikaatioihin. 

Tutkimus on tunnistanut yli tuhat ihmiseen vaikuttavaa virusta. Moni näistä aiheuttaa infektion – elimistön normaalin biokemiallisen puolustusreaktion. Koronaviruksen kaltaisen vakavan infektion syyn ja taudinaiheuttajan ilmaantuminen oli siten vain ajan kysymys. Ihmiset elävät silmälle näkymättömien mikrobiologisten elämänmuotojen viidakossa. Eihän ole kuin pari sukupolvea, kun tuhkarokon ja isorokon kaltaiset virukset sairastuttivat kymmeniä tuhansia ihmisiä saman tapaan joka vuosi.

Tällä hetkellä terveydenhuollolla ei ole lääketieteellisiä työkaluja kuten rokotteita ja lääkeaineita koronavirusta vastaan. Keinoina käytetäänkin nyt samoja konsteja kuin sata vuotta sitten espanjantaudin tapauksessa: koulut ja huvittelupaikat suljetaan ja ihmisten liikkumista rajoitetaan. 

Isorokon aiheuttaja on variolavirus. Säännölliset rokotukset isorokkoa vastaan alkoivat 50-luvulla, ja tauti on onnistuttu käytännössä hävittämään ihmiskunnasta. Virusten toiminnan tutkimus ja hoitokeinojen kehitys ovat pitkäjänteistä toimintaa. Kun etsimme rokotetta ihmishenkiä uhkaavia ja yhteiskuntia lamauttava uusia viruksia vastaan, voimme vain nojautua olemassa olevaan, jo kerrytettyyn tutkimustietoon.   

Perustutkimus, jonka avulla kriiseihin pystytään varautumaan, vaatii rahoitusta. Terveyskriiseihin ei pysty reagoimaan ketterällä on-demand bisneslogiikalla. Infrastruktuurin rakentamista ei voi aloittaa siinä vaiheessa, kun kriisi on käynnissä.

Tutkimusinfrastruktuurit ovat virustiedon säilytys- ja jakelupaikkoja. Nämä ekosysteemit koostuvat laitteistoista, tietoverkoista, tietokannoista, aineistoista ja palveluista. Ne muodostavat globaalin tiedon vaihtamisen verkoston ja mahdollistavat eri vaiheissa tapahtuvan, kansalliset rajat ylittävän tutkimusyhteistyön.

Tiedon vaihto täytyy olla luotettavaa. Kokemuksesta hyvä toimija on tutkimusinfrastruktuuri, joka kerää, ylläpitää, säilyttää ja yhdistää biologisen ja lääketieteellisen tutkimuksen tuottamaa aineistoa ja sen tarvitsemaa dataa. Dataa ovat esimerkiksi molekyylibiologinen tieto sekä lääkeaineiden rakenteet, toiminta ja turvallisuus. 

Luotettuja  kansainvälisiä tutkimuksen tietokantoja ovat esimerkiksi European Nucleotide Archive (ENA), josta koronaviruksenkin genomi on saatavana, sekä Universal Protein Resource (Uniprot), johon kerätään proteiinien, solun osien ja eliöiden toimintojen dataa.

Kun tutkijat suunnittelevat rokotetta koronavirukseen, he käyttävät avoimia biologisen tietojen tietokantoja ja dataintensiivistä laskentaa. CSC osallistuu näihin talkoisiin. Se on avannut koronaviruksen tutkimusta helpottavan ohituskaistan tutkijoille, mikä mahdollistaa pääsyn superlaskentaan ja kansalliset rajat ylittävän datan hallintaan (European Data Space, Digital Europe).

Nopean, tietoon pohjautuvan päätöksenteon ja reagoinnin edellytys on, että tiedosta vastaavat tahot (kuten rekisterinpitäjät) tekevät tiedosta yhteentoimivaa ja koneluettavaa. Tietoja kerätään mm. tilastoinnin, terveydenhuollon, tutkimuksen ja päätöksenteon tarkoituksiin, mutta tätä dataa tulisi voida kriisitilanteessa hyödyntää myös alkuperäisestä tarkoituksesta poikkeavaan toisiokäyttöön, kuten  tieteelliseen tutkimukseen. Tätä säätelee niin sanottu toisiolaki, joka tuli voimaan keväällä 2019.

Miten varautuisimme jatkossa koronaviruksen kaltaisiin tsunameihin?  Jatkuva tiedonkeruu, tutkimus ja datainfrastruktuurin ylläpito virusten ja bakteerien ekosysteemeistä olisi parasta riskienhallintaa. Löydettyihin viruksiin voitaisiin ennaltaehkäisevästi kehittää rokoteaihioita ja lääkeaineita, jolloin kriisin puhjetessa terveydenhuollon hoitovarustelun kehitys olisi rivakampaa. Loppujen lopuksi, satojenkin miljoonien investoinnit tähän infrastruktuuriin ja osaamiseen tuntuvat nopeasti nousevan kuolleisuuden ja syvän, pitkäkestoisen globaalin talouskriisin valossa lähes taskurahoilta.


Lisätietoja:

CSC tarjoaa resursseja COVID-19-pandemian vastaiseen tutkimukseen

CSC:n varautuminen koronaviruksen aiheuttamaan poikkeustilanteeseen

Koronavirusskenaariot seuraavalle 18 kuukaudelle

Uusia COVID-19 SARS-CoV-2 tutkimuksia

Ihmiseen tarttuvat virukset

UK Imperial college COVID-19 leviämisennuste

Rokotteilla hävitetyt taudit  

Lääkkeitä laskemalla

COVID-19 proteiinin uusia lääkeaihioita laskennallisilla menetelmillä

Euroopan bioinformatiikan infrastruktuuri ELIXIR

Kuva: Adobe Stock
Taulukko: Picture modified from publicly shared Imperial College COVID-19 Response Team article from https://www.imperial.ac.uk/

 
“Tommi Nyrönen

Tommi Nyrönen

Dr. Tommi Nyrönen leads a team of experts in the European Life Science Infrastructure for Biological information ELIXIR at CSC.

tommi.nyronen(at)csc.fi

 

Twitter: @nyronen
Linkedin: https://www.linkedin.com/in/nyronen
puh. +358503819511

 

Blogger: Tommi Nyrönen Blog Topic: Data HPC Science and research

At the end of November 2019, a new type of virus began to infect humans in China. The virus was named SARS-CoV-2 (acute respiratory syndrome-related coronavirus 2), and WHO started calling the viral illness COVID-19.

According to the models produced by Imperial College London and the Finnish Institute for Health and Welfare, the biggest wave of coronavirus will hit Europe in April and May. The impacts of the wave are already being felt. It has been reported that in Italy, about 500 people have died of the complications from coronavirus within a period of 24 hours.

Scientists have identified more than one thousand different viruses affecting humans. Many of them cause infections, which are normal biochemical reactions of the human body to the infectious agents. Thus, it was only a matter of time before a pathogen causing a serious infection such as coronavirus would appear. We are surrounded by a vast variety of microbiological life forms that are invisible to human eye. In fact, only two generations ago, tens of thousands of people were infected with viral diseases, such as measles and smallpox, every year.

There is still no treatment or vaccine for coronavirus and the measures now used are the same as during the Spanish influenza pandemic 100 years ago: schools and places of entertainment are closed and there are restrictions on people’s movements.

Smallpox is caused by the variola virus. Regular vaccinations against smallpox began in the 1950s and the disease has been practically eradicated from the world. Studying the behavior of viruses and developing treatments are long-term activities. When we are developing vaccines against new viruses threatening human lives and paralyzing societies, we rely on existing information produced by research.

Basic research helping us to prepare for crises requires sustained funding. Reactions to health crises cannot be based on agile on-demand business logic and we cannot start building the infrastructure when the crisis is already on.

Research infrastructures are places where virus data is stored and where it is available. These ecosystems consist of hardware, information networks, databases, documents and services. They form a global information exchange network and provide a basis for research cooperation at different stages across national borders.

The exchange of information must be carried out in a reliable manner. Experience has shown that a specialized organization, research infrastructure that collects, maintains, stores and combines findings produced by biological and medical research and data is a key actor in the overall process.. This data includes molecular biological information and the structures and functioning of medical substances as well as their safety.

Reliable international research databases include the European Nucleotide Archive (ENA), where the coronavirus genome is also available, and Universal Protein Resource (UniProt), which collects data on the functions of proteins, cell parts and organisms.

When researchers are developing a vaccine against coronavirus, they use open biological databases and data-intensive computing. CSC is a partner in this effort. It has opened a priority lane facilitating coronavirus research and provides access to supercomputing and management of data across national borders (European Data Space, Digital Europe).

A prerequisite for fast, knowledge-based decision-making and reactions is that the parties responsible for information (such as data controllers) make the information interoperable and machine-readable. Data is collected for such purposes as statistics, healthcare and decision making, but in a crisis, such data should also be made available for secondary purposes that differ from the original purpose (such as scientific research). Provisions on such applications are contained in the Finnish act on secondary uses of social and health data, which entered into force in spring 2019.

How should we prepare for future tsunamis that have similar impacts as coronavirus? Systematic collection of data, research, and maintenance of a data infrastructure containing information on viral and bacterial ecosystems would be the best way to manage risks. Investigational vaccines and medical substances could be developed more consistently to modulate discovered pathogens to be able to respond more quickly to a crisis. In the final analysis, even if we spent hundreds of millions of euros on this infrastructure and expertise, these sums would only be a fraction when compared with rapidly rising mortality rates and a prolonged and severe global economic crisis.

Further information:

Coronavirus scenarios for the next 18 months 

CSC offers resources for efforts against COVID-19 pandemic

CSC's preparations for the exceptional situation caused by coronavirus

Recent research on COVID-19 SARS-CoV-2

Viruses contagious to humans

Forecast of COVID-19 spread produced by Imperial College London

Diseases eradicated with vaccines (in Finnish)

Developing pharmaceuticals through computing (in Finnish)

Developing new prodrugs for COVID-19 protein with computational methods

European bioinformatics infrastructure ELIXIR

Image: Adobe Stock
Table: Picture modified from publicly shared Imperial College COVID-19 Response Team article from https://www.imperial.ac.uk/

 
“Tommi

Tommi Nyrönen

Dr. Tommi Nyrönen leads a team of experts in the European Life Science Infrastructure for Biological information ELIXIR at CSC.

tommi.nyronen(at)csc.fi

 
Twitter: @nyronen
Linkedin: https://www.linkedin.com/in/nyronen
puh. +358503819511
Blogger: Tommi Nyrönen Blog Topic: Data HPC Science and research

The EU’s digital policy has been a hot topic lately. Last week the European Commission published three significant strategies concerning digitalization, artificial intelligence and data. At the same time, the member states, the European Parliament the Commission are fighting over the size and priorities of the EU’s budget for the next seven years. The importance of the topic is emphasized by the fact that digital solutions are crucial for the realization of the Green Deal, the Commission’s other top priority.
 
The guiding document for the EU’s digital policy is the communication named “Shaping Europe’s digital future”. The communication draws together all the major policies concerning digitalization that the Commission intends to introduce during its five-year term. As in Finland’s government program, many topics are promised to be specified in strategies and reports that will be published later.

There are many favorable objectives in the communication. For example, climate neutrality of data centers by 2030 is easy to support. What comes to CSC, there is no need to wait for ten years; our data center in Kajaani is already carbon neutral. Next year it will even become carbon negative as the excess heat generated by our world-class supercomputer LUMI will be fed into the district heating network.

In order to achieve the carbon neutrality goal, it is necessary to place big, EU-funded computing facilities to environments where computation can be done ecologically. This opens up a possibility for Finland to act as a forerunner. Other warmly welcomed openings are, for example, investing in Europe’s strategic digital capacities and better access to health data, which will advance its use in research.

European perspectives on AI and data will sharpen with time

The Commission opened a discussion about the EU’s perspective on artificial intelligence (AI) in the form of a white paper. AI has great potential to act for the common good areas such as the health sector and transportation as well as by optimizing energy consumption. However, the use of AI includes also risks, which is why adequate legislation needs to be in place. The first half of the white paper lists actions that the EU plans to take in order to develop Europe’s AI capacities. It is especially important to develop high-performance computing, to deploy the FAIR principles (findability, accessibility, interoperability and re-usability) for data and to develop skills.

What comes to legislation, the white paper proposes new rules only for high-risk applications of AI. This is a sensible approach as many of the existing laws already concern AI. In addition, AI applications are very different in nature, and thus it does not make sense to regulate them all in the same manner. For no-high-risk applications, the Commission proposes a creation of a voluntary labelling system. Whatever actions will be taken with the regulation of AI, it is of utmost importance that there is one common set of rules for AI in the EU. It is the only way we can realize a true single market for data and AI.

In the third new document, data strategy, the EU aims to advance the usage and movement of data between member states and organizations. This will be realized by developing data sharing infrastructures and principles, such as interoperability and machine readability. A good starting point for interoperability is the European Interoperability Framework: data must be interoperable in technical, organizational, legal and semantic level. A completely new proposal is to create data spaces for certain strategic sectors; together these data spaces will form a single European data space. In the research world, this kind of data space has already been developed in the form of the European Open Science Cloud, which should be a good benchmark for others to start from. In order to succeed, it is vital that data really is interoperable, and that it moves between the sectors (research, public administration, business).

These three strategies lay out the digital policy of the EU for the next five years. However, in addition to policies and strategies, digitalization needs funding. Currently, the EU institutions and member states are negotiating a multiannual financial framework (MFF), i.e. the 7-year budget of the EU. MFF will determine how much EU money will be spent on research, digitalisation and competence building during the next seven years. Science and research get much attention in the politicians’ speeches, but in the EU’s budget, they seem once again to be superseded by old priorities. However, the negotiations are still far from done, so there remains hope that the Commission’s new policies will get some financial support to back them up.

 

Blogger: Ville Virtanen Blog Topic: Science and research Data HPC CSC: Blog Year: 2020

EU:ssa eletään digipolitiikan kannalta mielenkiintoisia aikoja. Viime viikolla komissio julkaisi kolme merkittävää strategia-asiakirjaa liittyen digitalisaatioon, tekoälyyn ja dataan. Samaan aikaan jäsenmaat, parlamentti ja komissio taistelevat seuraavien seitsemän vuoden budjetin koosta ja painotuksista. Aiheen tärkeyttä korostaa se, että digitaaliset ratkaisut ovat elintärkeässä asemassa EU:n toisen kärkihankkeen, Green Dealin eli vihreän kehityksen ohjelman, onnistumisessa.

EU:n digipolitiikkaa ohjaa tiedonanto liittyen Euroopan digitaaliseen tulevaisuuteen, joka on myös yksi komission kuudesta painopistealueesta. Tiedonannossa linjataan komission keskeisiä digipolitiikan tavoitteita ja hieman keinojakin näiden saavuttamiseen. Kotimaisen hallitusohjelmamme tapaan monista aiheista luvataan lisää selvityksiä ja linjauksia myöhemmin.

Tiedonannon konkreettisissa tavoitteissa oli paljon hyvää. Esimerkiksi tavoite datakeskusten hiilineutraaliudesta vuoteen 2030 mennessä on helppo allekirjoittaa. CSC:n puolesta ei tarvittaisi edes tätä kymmentä vuotta; Kajaanin datakeskuksemme on jo nyt hiilineutraali, ja ensi vuonna siitä tulee hiilinegatiivinen, kun uuden LUMI-supertietokoneen ylijäämälämpö syötetään kaukolämpöverkkoon.

Hiilineutraalisuustavoitteen saavuttamiseksi on tärkeää sijoittaa suuret EU-varoilla rakennettavat laskentaympäristöt sellaisiin paikkoihin, joissa laskentaa voidaan tehdä ympäristöystävällisesti. Tämä avaa Suomelle mahdollisuuden toimia edelläkävijänä. Muita tervetulleita linjauksia ovat muun muassa terveysdatan parempi saatavuus tutkimuskäyttöön sekä Euroopan digitaalisten kapasiteettien kehittäminen.

Euroopan näkökulmat tekoälyyn ja dataan tarkentuvat ajan kanssa

Komissio avasi myös keskustelun Euroopan näkökulmasta tekoälyyn valkoisen kirjan muodossa. Tekoälyllä on suuri potentiaali tuottaa yhteistä hyvää esimerkiksi terveydenhuollossa, liikenteessä ja energiankäytön optimoimisessa, mutta samalla sen käyttäminen sisältää myös riskejä. Valkoisen kirjan alkupuoli koostuu toimenpiteistä, joita EU aikoo toteuttaa Euroopan tekoälyvalmiuden kehittämiseksi. Erityisesti esille täytyy nostaa suurteholaskennan, datan FAIR-periaatteiden (löydettävyys, saatavuus, yhteentoimivuus ja uudelleenkäytettävyys) ja osaamisen kehittämisen tärkeys.

Lainsäädännön osalta asiakirjassa ehdotetaan uutta sääntelyä vain korkean riskin tekoälyn sovelluksiin. Tämä kuulostaa järkevältä, sillä monet jo olemassa olevat säädökset koskevat myös tekoälyä. Lisäksi on otettava huomioon, että tekoälyn sovelluksia on hyvin erilaisia, eikä olisi tarkoituksenmukaista säännellä niitä kaikkia samalla tavalla. Muille kuin korkean riskin sovelluksille ehdotetaan vapaaehtoista sertifikointijärjestelmää, mikä on myös tervetullut ajatus. Sisämarkkinoiden toimivuuden kannalta on pääasia, että tekoälyn sovelluksille on yhdet yhteiset säännöt ja sertifikaatit.

Datastrategiassaan EU pyrkii edistämään datan liikkuvuutta maiden ja organisaatioiden välillä kehittämällä datan jakamisen infrastruktuureja ja periaatteita, kuten yhteentoimivuutta ja koneluettavuutta. Yhteentoimivuuden osalta hyvänä lähtökohtana toimivat eurooppalaiset yhteentoimivuusperiaatteet: datan pitää olla yhteentoimivaa niin teknisellä, organisatorisella, semanttisella kuin lainsäädännölliselläkin tasolla. Uutena konkreettisena ehdotuksena on perustaa strategisille sektoreille omat data-avaruutensa, joista yhdessä muodostuu yksi suuri eurooppalainen data-avaruus. Tutkimuspuolella tällaista datapalvelua on jo edistetty Euroopan avoimen tieteen pilvipalvelun muodossa, joten aivan alusta ei tätä harjoitusta tarvitse aloittaa. Onnistumisen kannalta olennaista on jo mainittu yhteentoimivuus, sekä se, että data todella saadaan liikkumaan eri sektoreiden (tutkimus, julkishallinto, elinkeinoelämä) välillä.

Nämä kolme strategiaa linjaavat hyvin pitkälti sen, mitä EU seuraavan viiden vuoden aikana digipolitiikan saralla tulee tekemään. Oman lisämausteensa soppaan tuovat parhaillaan käytävät neuvottelut EU:n monivuotisesta rahoituskehyksestä. Rahoituskehys määrittää, kuinka paljon EU:n varoja tullaan seuraavien seitsemän vuoden aikana käyttämään tutkimukseen, digitalisaation edistämiseen ja osaamisen kehittämiseen. Digitalisaatio, tiede ja tutkimus saavat paljon huomiota juhlapuheissa, mutta budjetissa ne näyttävät valitettavasti tälläkin kertaa jäävän vanhojen painopisteiden jalkoihin. Neuvottelut ovat kuitenkin pahasti kesken, joten vielä on toivoa, että komission uudet linjaukset saavat taakseen myös rahallista tukea.

 

Blogger: Ville Virtanen Blog Topic: Science and research Data HPC CSC: Blog Themes: Kestävä tulevaisuus Viewpoints: Supertietokoneet Datan arvon maksimointi Vipuvoimaa tekoälystä

Tekoäly on puheenaihe, joka ei tällä hetkellä esittelyä kaipaa. Aihe on kuitenkin IT-ammattilaisten maailmassa siinä mielessä poikkeuksellinen, että se on kiinnostava, lähestyttävä ja jopa kutkuttava myös suuren yleisön näkökulmasta. Ja niinpä tekoälystä kirjoitetaan nykyään paljon, kaikkialla ja kaikenlaista. Tekoälyn määrittely on vaikeaa alan tutkijoillekin, joten ymmärrettävästi moni tavallinen keskustelija ei tunnu ihan kauhean hyvin tietävän mistä puhuu, kun puhuu tekoälystä.

Haastattelin aiemmin tekoälyn uranuurtajaa, professori Timo Honkelaa hallitusammattilaisten yhdistyksen blogissa julkaistua kirjoitusta varten. Keskustelusta jäi mieleeni erityisesti ajatus, johon huomaan palaavani uudestaan ja uudestaan. Honkela vertasi tekoälyä käsitteenä supertietokoneisiin: molemmat ovat termejä, jotka kehityksen myötä pakenevat omaa määrittelyään.

Supertietokoneilla tarkoitetaan aina kunkin ajan kaikista tehokkaimpia tietokoneita – voidaan ajatella, että laskentakeskusten ylläpitämä Top500-lista maailman tehokkaimmista tietokoneista on samalla sanan supertietokone ajantasainen määritelmä. Et ole super, jos et ole listalla. Yksittäinen tietokonejärjestelmä ei pysy listattuna juurikaan viittä vuotta kauempaa, joten tässä mielessä supertietokoneen määritelmä uusiutuu noin viiden vuoden välein.

Kun termi tekoäly1  puretaan osiinsa, voidaan havaita, kuinka puhumme jostain ihmisen älykkyyden kaltaisesta asiasta, joka ei kuitenkaan ole ihmisälyä. Usein voidaan myös hyvin puhua pelkästä älykkyydestä: asiayhteydestä käy hyvin ilmi, että esimerkiksi älykoti ei omaa inhimillistä älykkyyttä, vaan sen sijaan on rakennettu erilaisten tekoälyjärjestelmien avulla.

Trendi ajan saatossa on ollut, että vaatimustaso ihmisen älykkyyden kaltaisuuden saavuttamiseen on noussut kussakin sovellusalueessa sitä mukaa, kun tekninen kehitys on edennyt. Esimerkiksi vielä vähän aikaa sitten automekaanikot usein puhuivat älylaatikoista, kun kyse oli melkein mistä tahansa auton sähköisestä ohjainmoduulista. Nämä laatikot olivat korvanneet aiemmat yksinkertaisemmat mekaaniset laitteet ja tuoneet auton toiminnan ohjaukseen hitusen monimutkaisempaa logiikkaa, jota siis älykkyydeksi kutsuttiin. Nyt kun autojen kehitys on saavuttamassa pisteen, jossa itsekseen ajavat robottiautot tulevat liikenteeseen, niin ajovalot automaattisesti päälle napsauttavaa ohjainpiiriä tuskin enää voidaan pitää esimerkkinä autoteollisuuden älykkäiden järjestelmien kehitysponnisteluista.

Tekoälytutkimus on kulkenut tietokoneiden kehityksen rinnalla aivan alusta alkaen, mutta tasaisen voittokulun sijaan tekoälyn historia on ollut varsinaista vuoristorataa nousuineen ja jyrkkine laskuineen. Omana erityisalueenaan tietokonepelien tekoäly on kuitenkin kehittynyt tasaisemmin läpi vuosikymmenten.

Tietokonepeleistä voidaan lukea tuttu kehityskulku: pari yksinkertaista loogista sääntöä riittivät liikuttamaan niitä kummituksia, jotka 1980-luvulla jahtasivat Pacman-otusta labyrintissa, kun taas nykyaikaisten pelien monimutkaisissa virtuaalisissa maastoissa tarvitaan kehittyneitä algoritmeja etsimään parhaita reittejä ja ohjaamaan hahmot esteiden ohi.

Vuonna 2016 AlphaGo-niminen tekoäly onnistui päihittämään maailman huippua edustaneen pelaajan eräänlaisena ihmisen peliälyn viimeisenä linnakkeena pidetyssä Go-pelissä. Tätä saavutusta varten tutkijat olivat yhdistelleet useita kehittyneitä koneoppimisen tekniikoita. Matka Pacmanista AlphaGo:hon on pitkä ja niissä käytetyt menetelmät ovat vaativuudessaan aivan eri tasoilla, mutta päämäärä on sama: luoda illuusio älykkäästä vastapuolesta.

Tietotekniikassa kaikki on aina ollut monimutkaisen logiikan ohjaamaa ja siksi lähtötasokin älykkyydelle on verrattain korkea. Reitinhakualgoritmit ja niihin perustuvat navigaattorit ovat meille jo arkipäivää, mutta toki aikoinaan varmasti tekivät moniin vaikutuksen. Tänä päivänä emme kuitenkaan usein enää osaa pitää tavallista navigaattoria älykkäänä, vaan odotamme, että älykkääksi kutsuttavan navigaattorin tulisi vähintään ymmärtää puhetta ja arvata puolesta sanasta, että mihin haluamme mennä.

Algoritmit ja automaatio ovat arkipäiväistyneet. Tietotekniikan suuret algoritmit ovat ehkä jo kirjoitettu. Tietotekniikan ja digitalisaation kehityksen jatkumiseksi tietokoneen älykkyys ei voi enää kulkea ohjelmoijan sormien kautta, vaan järjestelmien tulee kyetä oppimaan itse. Näin ollen tämän päivän tekoäly perustuu koneoppimiseen eli tietokonejärjestelmiin, jotka eivät tarvitse valmiita sääntöjä, vaan voivat oppia ne datasta.

Nykyisen tekoälyvallankumouksen käynnisti koneoppimisen sisällä tapahtunut edistysaskel, nimittäin niin kutsutun syväoppimisen menetelmien kehittyminen. Koneoppimisen perinteinen rajoite on ollut datan määrä. Jos kirjastossasi on vain yksi kirja, niin yleissivistyksesi ei kasva, vaikka luet sitä samaa kirjaa päivittäin. Opit kyllä varmasti ulkoa kaikki ladontavirheet, jokaisen aliluvun sivunumerot ja kahvitahrojen paikat.

Suurten tietomassojen saatavuus sekä oppimistehtäviin hyvin soveltuvien uudenlaisten GPU-laskentakiihdyttimien kehittyminen mahdollistivat sen, että tekoälyn eteen on voitu latoa hyllykilometreittäin mielekästä opeteltavaa. Nämä koneoppimisen ympäristön muutokset puhalsivat uutta eloa jo pidemmän aikaa sitten kehitettyihin neuroverkkomenetelmiin ja tarjosivat sen työkalupakin, jota tarvitaan seuraavien kehitysaskelten ottamiseen tekoälyn rintamalla.

Onkin siis hyvä muistaa, että tekoäly ei ole itsessään menetelmä tai teknologia. Paras määritelmä mielestäni on, että tekoäly tarkoittaa älykkäinä pidettävien toimintojen toteuttamista tietokoneella. Ja kuten edellä kävi ilmi, niin tuo älykkyyden rima nousee jatkuvasti eri sovelluskohteissa.

Voidaan ajatella, että tekoäly on kuin ilmansuunta. Talvipakkasia voidaan lähteä karkuun etelään ja sinne matkustaminen onnistuu monelle eri välineellä: esimerkiksi laivalla ja bussilla voi matkustaa Viron kylpylöihin, kun taas lentokoneella pääsee Välimeren kohteisiin. Toisaalta jos Kreikan saaristoon iskee ennätyskylmä talvi, niin ei auta, että ollaan jo Suomesta katsoen hyvin pitkällä etelässä. Matkaa täytyy jatkaa Pohjois-Afrikkaan lämpimämpien säiden toivossa.

Myös tekoälykompassin osoittamaan suuntaan olemme matkanneet jo monin eri välinein, aina perusalgoritmiikasta erilaisiin koneoppimisen ja tiedonlouhinnan menetelmiin. Voidaan kuitenkin varmuudella sanoa, että kovin pitkällä emme tuolla matkalla ole ja tulemme vielä tarvitsemaan monia uusia matkustusvälineitä.

Kun etelään matkaamista jatkaa riittävän kauan, niin lopulta pääsee perille. Ensimmäisenä sinne saapui Roald Amundsenin retkikunta ja nyt etelänavasta on tullut usean suomalaisenkin hiihtovaelluksen kohde. Tekoälyn osalta se suuri filosofinen kysymys on, että onko tekoäly pelkästään suunta, vai myös lopulta kohde? Kun olemme tehneet matkaa riittävän kauan, niin tulemmeko lopulta perille? Ja mikä meitä siellä odottaa?

1 Tekoälyn sijaan oikeampi termi olisi keinoäly. Laitteista puhuttaessa teko-alku viittaa laitteeseen, joka jäljittelee esikuvaansa toiminnaltaan ja ulkonäöltään. Keinoälyn kaltaisia termejä puolestaan ovat esimerkiksi keinomunuainen ja keinohorisontti, jotka eivät vastaa esikuvansa ulkoista olemusta. Tekoäly on kuitenkin vakiintuneempi ja kirjoittaja mieluusti tyytyy siihen, että termin kieliasu on hieman epätarkka, kunhan käsitys varsinaisesta asiasta sanan takana tarkentuisi.

Blogger: Aleksi Kallio Blog Topic: Data HPC CSC: Blog Themes: Laskennallinen tiede Theme Front Page Viewpoints: Vipuvoimaa tekoälystä

If you follow CSC on social media you might have noticed a recent announcement about a new service based on OKD/Kubernetes called Rahti. This new service allows you to run your own software packaged in Docker containers on a shared computing platform. The most typical use case is web applications of all sorts. In this blog post I will provide additional context for the announcement and more detail and examples about what Rahti is and why it’s useful.

CSC has been running cloud computing services for a while. The first pilot systems were built in 2010 so the tenth anniversary of cloud computing at CSC is coming up next year. All of CSC’s previous offerings in this area – cPouta, ePouta and their predecessors – have been Infrastructure as a Service (IaaS) clouds. In this model, users can create their own virtual servers, virtual networks to connect those servers and virtual disks to store persistent data on the servers. This gives you a lot of flexibility as you get to choose your own operating system and what software to run on that operating system and how. The flip side is that after you get your virtual servers, you are on your own in terms of managing their configuration.

Rahti takes a different approach. Instead of a virtual machine, the central concept is an application. The platform itself provides many of the things that you would need to manage yourself in more flexible IaaS environments. For example:

  • Scaling up applications by adding replicas
  • Autorecovery in case of hardware failures
  • Rolling updates for a set of application replicas
  • Load balancing of traffic to multiple application replicas

Not having to manage these yourself means you can get your applications up and running faster and  don’t have to spend as much time maintaining them. What enables this is standardization of the application container and the application lifecycle. In IaaS clouds you have a lot of choice in terms of how you want to make your application fault tolerant and scalable. There are many software products available that you can install and configure yourself to achieve this. With Rahti and other Kubernetes platforms, there is one standard way. This simplifies things greatly while still providing enough flexibility for most use cases.

Based on the description above you might think that Rahti fits into the Platform as a Service (PaaS) service model. While there are many similarities, traditional PaaS platforms have typically been limited in terms of what programming languages, library versions and tools are supported. It says so right in the NIST Definition of Cloud Computing: “The capability provided to the consumer is to deploy onto the cloud infrastructure consumer-created or acquired applications created using programming languages, libraries, services, and tools supported by the provider.” These limitations are largely not there in Rahti or other Kubernetes platforms: if it runs in a Docker container, it most likely also runs (or can be made to run) in Rahti. You are free to choose your own programming language and related libraries and tooling yourself.

Setting up Spark in Rahti

One of the big benefits of Rahti is that complex distributed applications that would be difficult to install and configure on your own on virtual machines can be packaged into templates and made available for a large number of users. This means figuring out how to run the application has to be done only once – end users can simply take the template, make a few small customizations and quickly get their own instance running. You are of course also free to create your own templates and run your own software.

One example of a distributed application that can be difficult to install and manage is Apache Spark.   It is a cluster software meant for processing large datasets. While it is relatively simple to install it on a single machine, using it that way would defeat the point of running Spark in the first place: it is meant for tasks that are too big for a single machine to handle. Clustered installations on the other hand mean a lot of additional complications: you need to get the servers to communicate with each other, you need to make sure the configuration of the cluster workers is (and stays) somewhat identical and you need to have some way to scale the cluster up and down depending on the size of your problem – and the list goes on.

Let’s see how one can run Spark in Rahti. The template that we use in Rahti is available on GitHub and the credit for it goes to my colleagues Apurva Nandan and Juha Hulkkonen. And yes, I know that is actually the Hadoop logo.

First select “Apache Spark” from a catalog of applications:

You can also find other useful tools in the catalog such as databases and web servers. After selecting Apache Spark, you’ll get this dialog:

Click next and enter a few basic configuration options. There are many more that you can customize if you scroll down, but most can be left with their default values:

After filling in a name for the cluster, a username and a password, click “Create” and go to the overview page to see the cluster spinning up. After a short wait you’ll see a view like this:


The overview page shows different components of the Spark cluster: one master, four workers and a Jupyter Notebook for a frontend to the cluster. These run in so called “pods” that are a collection of one or more containers that share the same IP address. Each worker in the Spark cluster is its own pod and the pods are distributed by Rahti on separate servers.

From the overview page you can get information about the status of the cluster, monitor resource usage and add more workers if needed. You can also find a URL to the Jupyter Notebook web interface at the top and if you expand the master pod view you can find a URL to the Spark master web UI. These both use the username and password you specified when creating the cluster.

If you need a more powerful cluster you can scale it up by adding more workers. Expand the worker pod view and click the up arrow next to the number of pods a few times:

You can then follow the link from the overview page to Jupyter Notebook which acts as a frontend for the Spark cluster.

And that’s all there is to it! The process for launching other applications from templates is very similar to the Spark example above. The plan for the future is to add more of these templates to Rahti for various types of software in addition to the ones that are already there.

If you’re interested in learning more about Rahti, you can find info at the Rahti website or you can contact servicedesk@csc.fi.

Photo: Adobe Stock

 

 

Blogger: Risto Laurikainen Blog Topic: Science and research Data HPC CSC: Blog News Categories: Research Themes: Laskennallinen tiede

Variant Calling

Modern next-generation sequencing technologies have revolutionized the research on genetic variants whose understanding hold a greater promise for therapeutic targets of human diseases. Many human diseases, such as cystic fibrosis, sickle cell disease and various kinds of cancers are known to be caused by genetic mutations. The identification of such mutations helps us diagnose diseases and discovery new drug targets. In addition, other relevent research includes topics such as human population separation history, species origin, animal and plant breading research.

Variant calling refers to the process of identifying variants from sequence data. There are mainly four kinds of variants: Single Nucleotide Polymorphism (SNP), short Insertion or deletion (Indel), Copy Number Variation (CNV) and Structural Variant (SV) (Figure 1).

Figure 1 The four most common types of variants.

Industry gold-standard for variant calling: GATK and Best Practices

To offer a high accurate and repeatable variant calling process, Broad Institute developed variant calling tools and its step-by-step protocol, named: Genome Analysis Toolkit (GATK) and Best Practices.

GATK is a multiplatform-capable toolset focusing on variant discovery and genotyping. It contains the GATK variant caller itself and it also bundles other genetic analysis tools like Picard. It comes with a well-established ecosystem that makes it able to perform multiple tasks related to variant calling, such as quality control, variation detection, variant filtering and annotation. GATK was originally designed and most suitable for germline short variant discovery (SNPs and Indels) in human genome data generated from Illumina sequencer. However, Broad Institute keeps developing its functions. Now, GATK also works for searching copy number variation and structure variation, both germline and somatic variants discovery and also genome data from other organisms and other sequencing technologies.

Figure 2 The GATK variant calling process.

GATK Best Practices is a set of reads-to-variants workflows used at the Broad Institute. At present, Best Practices contains 6 workflows: Data Pre-processing, Germline SNPs and Indels, Somatic SNVs and Indels, RNAseq SNPs and Indels, Germline CNVs and Somatic CNVs. (You can check the Best Practices introduction on forum and codes on github).

Although workflows are slightly different from one another, they all share mainly three steps: data pre-processing, variant discovery and additional steps such as variants filtering and annotation. (1) Data pre-processing is the starting step for all Best Practices workflows. It proceeds raw FASTQ or unmapped BAM files to analysis ready BAM files, which already aligned to reference genome, duplicates marked and sorted. (2) Variant discovery is the key step for variant calling. It proceeds analysis ready BAM files to variant calls in VCF format or other structured text-based formats. (3) Additional steps are not necessary for all workflows and they are tailored for the requirements of different downstream analysis of each workflow. Variants filtering and annotation are the two common choices.

GATK pipelining solution: WDL and Cromwell

It is great and time saving to have scripts to run analysis pipelines automatically. In the past, people used Perl or Scala to do this. However, it shows steep learning curve for non-IT people. Broad Institute solved this problem by introduced a new open source workflow description language, WDL. By using WDL script, you can easily define tasks and link them orderly to form your own workflow via simple syntax and human understandable logic. WDL is simple but powerful. It contains advanced features and control components for parallelism or running time and memory control. Also, WDL is a cross-platform language which can be ran both locally and on cloud.

Cromwell is the execution engine of WDL, which is written in Java and supports three types of platform: local machine, local cluster or computer farm accessed via a job scheduler or cloud. Its basic running environment is Java 8.

Write and run your own WDL script in 5 minutes with this quick start guide.

Run GATK4 on CSC Pouta Cloud and Taito

GATK3 was the most used version in the past. Now, GATK4 taking advantage of machine learning algorithm and Apache Spark tech presents faster speed, higher accuracy, parallelization and cloud infrastructure optimization.

The recommend way to perform GATK Best Practices is to combine GATK4, WDL script, Cromwell execution engine and Docker container. In CSC, Best Practices workflows are written in WDL, then run by Cromwell on Pouta cloud and relative tools such as GATK4, SAMtools and Python are called as Docker images to simplify software environment configuration.

CSC provides large amount of free computing/storage resources for academic use in Finland and facilitates efficient data transfer among its multiple computing platforms. cPouta and ePouta are the open shell IaaS clouds services at CSC. cPouta is the main production public cloud while ePouta is the private cloud which is suitable for sensitive data. They both own multiple virtual machine flavors, programmable API and Web UI, which enables users to generate and control their virtual machines online easily. They are suitable for various kinds of computational workloads, either HPC or genetic computing load.

In CSC, GATK4 Best Practices germline SNPs and Indels variants discovery workflow has been optimized and performance benchmarked on Pouta virtual machine (FASTQ, uBAM and GVCF files are acceptable input). Somatic SNVs and Indels variants discovery workflow is coming soon.

Besides using cloud infrastructure for GATK via launcing a virtual machine in Pouta with this tutorial, one can also use GATK in supercomputing cluster environment (e.g. on Taito with tutorial) by loading GATK module as below:

module load gatk-env

The detailed usage of instructions can be found in GATK user guide and the materials from the GATK course held in May 2019 at CSC can be found in “Variant analysis with GATK” course page.

You are welcome to test GATK tool in CSC environment and our CSC experts are glad to help you to optimize running parameters, set up virtual machine environment, estimate sample processing time and offer solutions for common error message.

Photo: Adobe Stock

Blogger: Shuang Luo Blog Topic: Data HPC CSC: Blog News Categories: Research

During past years, sensitive data has become one of the hottest of hot topics in the area of Finnish scientific data management discussion — and not least thanks to the European General Data Protection Regulation. At the same time, for nearly five years now, CSC has provided ePouta cloud platform for all sensitive data processing needs with quite substantial computing and storage capacity. From grounds up, this virtual private IaaS cloud solution has been designed to meet the national requirements for IT systems for protection level III (ST III) data.

While ePouta has been successful in providing our institutional customers a safe and robust platform for their sensitive data processing, it has lately become very clear that something more is desperately needed; something which is more easily adopted and accessed, something for individual researchers and research groups, and something more collaborative.

Now here, a problem arises; by definition sensitive data contains information which should only be processed either by explicit consent or a legitimate permission, and there are certain rules for such processing. Probably most notable ones of those rules — from researchers’ perspective — are requirements for data minimisation, pseudonymisation, encryption, safe processing and data disposal after its use.

Data minimisation and pseudonymisation relate directly to dataset definition. Minimisation means that only the data that is absolutely needed should be processed. For example, if the dataset includes information about persons' age but that information is not needed for the research, it should not be included in the dataset and should be removed from it before processing.

Pseudonymisation is a de-identification procedure by which personally identifiable information fields within a data record are replaced by one or more artificial identifiers, or pseudonyms.

Pseudonymisation differs from anonymisation in that pseudonymised data can be restored to its original state with the addition of information which then allows individuals to be re-identified again. Such re-identification codes must be kept separate from the pseudonymised data. Clearly then, these topics are something that the data owner or the researcher should take care of but for the rest, they seem to be more of a technical things and are something CSC should help with. And this is exactly where our sensitive data services step in.

You know the rules and so do I

The center piece for sensitive data services is storage. The data should be stored in such a way that unauthorised access is virtually impossible yet at the same time legitimate access is as easy as possible. Furthermore, the data should not disappear, corrupt, or leak out while being stored and used. Data owners should be able to easily store their sensitive data and be able to share it with only those users they grant permissions to.

CSC’s Sensitive Data Archive service is designed to fulfil all the requirements mentioned above and even some more. Instead of providing just regular storage space the new Sensitive Data Archive adds a service layer between the storage and the user applications. This service layer, called Data Access API, takes care of encryption and decryption of data on behalf of the user, which also offloads the encryption key management tasks from users.

Furthermore, the Data Access API ensures that the secured data is visible and accessible for only those users who have been granted to access it by the data owner. The processing environment, access mechanism and the sensitive data storage are all logically and physically separated from each other in order to ensure maximum security. This also makes the sensitive data platform flexible since compute and storage are not dependent on each other but the glue between them still makes it seamless and transparent for the user.

Take my hand, we’re off to secure data land

So, how does it work for the user then? Let’s first assume that the dataset a user is interested in has already been stored in the Sensitive Data Archive. The data is safely stored and it is findable by its public metadata but by no means it is accessible at this point — the user needs a permission for the dataset she needs for her research. Instead of traditional paper application sent to the dataset owner, she will apply through a web portal to a Resource Entitlement Management System, REMS, which will circulate the application with data owner(s). Once the application has been accepted a digital access token will be created, which is equivalent, e.g. to a passport and visa granting entry into a foreign country.

Now, when logging in to a sensitive data processing system, this digital access token will be transparently passed along with login information on the compute system. The Sensitive Data Archive’s Data Access API will query the token and, based on the information in it, will present the dataset in a read-only mount point on the local file system. Even though files seem just like your regular files on your file system they are actually a virtual presentation of the actual files. No single file has been copied into the compute system, yet they are accessible as any regular file. Once a file operation is acted upon a dataset file the Data Access API will fetch just the requested bits from the storage, decrypt them and hand out to the process requesting them — just like any other operating system call to any other file.

One added benefit directly derived from the usage of access tokens is the fact that they have a validity period — or they can be revoked by the data owner at any given time. Once the token expires the Data Access API will cut off the access to the files; they simply disappear from the compute system like a puff. Or the validity period can be easily extended, too. Thus, the data owner retains full control over the data she stored on the Sensitive Data Archive.

For data owner the procedure for storing the data is — if possible — even simpler. You just need to define metadata for your dataset and then enter it (either manually or automated through an API) into REMS and then upload your data. The upload tool will encrypt the data and send it to the archive, which will re-encrypt the data such that it truly is secure. Even you, as a data owner and submitter, are not able to read it back without granting yourself a permission first and using the Data Access API on our sensitive data compute systems.

Something old, something new, something browser’ed

So far so good, but the question has always been ePouta being too inflexible for individuals and smaller research groups, actually. Good news is that the Data Access API has been successfully demonstrated in ePouta and it will become a full-blown service later this year.

But even better news is that along with that there will be a whole new service for ePouta: a remote desktop connection for individual users.

Each user, or a group of users  if that’s the case, will get their very own private virtual cloud resource with Data Access API. And the best part of it is that it does not require any client software installations on users’ end. Just a reasonably modern web browser is enough, even a smartphone’s browser is sufficient (I have tested it, it works, even on 4G — but really, it is close to useless on such a small screen with touch input only).

Are we there yet?

While we haven’t really figured out yet how the project model goes, or how users can install the software they need — it is ePouta without external connections — and some other pretty important stuff for service processes, the technology is already there and becoming mature and robust enough that we’re confident in saying that ePouta Remote Desktop is a publicly available service later this year.

The end credits (which no one reads)

Early on with much planning put into our sensitive data model we realised that it is vital that we do not just develop a new fancy platform and then try to make everyone use it. Instead, we tried to team up and collaborate with partners with similar ambitions and focused on making as flexible a service as possible and use open standards as much as possible.

Developed in a joint effort with Nordic e-Infrastucture Collaboration’s (NeIC) Tryggve project and Centre for Genomic Regulation (CRG), the Data Access API is part of the Federated EGA concept designed to provide a general, distributed and secure storage for genomic data along the European Genome-Phenome Archive (EGA). But while genomic data has been the driving factor the API is actually data type agnostic and works for any data type, e.g. text, binary, video, etc.

In our future dreams anyone could install the Sensitive Data Archive and host their sensitive data by themselves but still make it available for access in ePouta Remote Desktop — something we’ve already tested with our Swedish partners, accessing two separate datasets stored in Finland and Sweden, used in ePouta Remote Desktop with a mobile phone at Oslo Airport…

Image: Adobe Stock

Blogger: Jaakko Leinonen Blog Topic: Data CSC: Blog News Categories: Research Themes: Theme Front Page Viewpoints: Datan arvon maksimointi Datan säilytys ja turvaaminen

CSC develops, integrates and offers high-quality digital services and is committed to good data management. We believe that the future of the world and people will become better as a result of research, education and knowledge management. That's why we promote them to the best of our abilities and develop and provide internationally high-quality digital services. CSC’s strategic goals include enabling world-class data management and computing and maximizing the value of data.

Data is often too important and valuable to be handled carelessly. In their work our customers, especially researchers, are required to adhere to the FAIR data principles and to make their data Findable, Accessible, Interoperable and Re-usable. Furthermore, they need tools to enable proper data citation. This affects us as a service provider and puts expectations on our data management service development.

Our revised data policy and new policy for persistent identifiers support us in achieving our strategic goals and promote the best data management practices. These newly released policies oblige us to undertake appropriate institutional steps to help customers to safeguard the availability, usability and retention of their data and help us assure compliance with all applicable laws and regulations as well as internal requirements with respect to data management. The policy for persistent identifiers (often referred to as PIDs, the most commonly known are probably the DOI and URN identifiers) enables creation and management of globally unique unambiguous identifiers at CSC for our own processes and for those of our customers.

These documents are, in their first versions, mainly written for research dataset management, but as they represent generic level principles of good data management, they are aimed to cover and guide all data and information management at CSC including both customer-owned and CSC-owned data. In addition, these policies are living documents that will be reviewed regularly and revised when needed.

More information

CSC’s Data Policy

Data Policy in Finnish

CSC’s PID Policy

PID policy in Finnish

Blogger: Jessica Parland-von Essen Minna Ahokas Blog Topic: Data CSC: Blog News Categories: Research Viewpoints: Datan arvon maksimointi Datan säilytys ja turvaaminen

CSC:n tavoitteet ja tehtävät tulevalle hallitukselle pohjautuvat strategisiin linjauksiimme siitä, miten suomalaisen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon kilpailukykyä edistetään. Näiden sektoreiden toiminnan kehittäminen kestävällä tavalla on merkittävä tekijä koko Suomen kilpailukyvyn kannalta.

Suomi on edelläkävijä muun muassa avoimessa tieteessä sekä digitaalisessa oppimisessa ja opetuksessa. Myös datakeskusten osalta Suomella on loistavia kilpailuetuja. Näiden hyödyntäminen ja vahvistaminen tulee olla seuraavan hallituksen agendalla.

CSC haluaa, että Suomi panostaa jatkossakin tutkijoiden työkaluihin ja tutkimusinfrastruktuureihin. Esimerkkinä mainittakoon suuritehoinen laskenta, joka on välttämätön keino vaikkapa ilmastonmuutoksen aiheuttamiin haasteisiin vastaamisessa sekä uusien lääkeaineiden ja hoitojen kehittämisessä.

 
"Suomi on edelläkävijä muun muassa avoimessa tieteessä sekä digitaalisessa oppimisessa ja opetuksessa."
 

Tällä hallituskaudella osoitettu rahoitus datanhallinnan ja laskennan kehittämiselle on keskeinen panostus suomalaisen tutkimuksen kansainvälisen kilpailukyvyn ylläpitoon. On tärkeää, että rahoitus on tulevaisuudessa kestävällä pohjalla, ja siksi infrastruktuurit on päivitettävä säännöllisesti. Ilman tehokasta laskentaa ei ole myöskään tekoälyä tai data-analytiikkaa.

Data puolestaan on kullanarvoinen raaka-aine, jonka liikkuvuuteen, avoimeen saatavuuteen, uudelleenkäyttöön ja hyödyntämiseen tulee panostaa kaikilla sektoreilla. Kuitenkin niin, että se tapahtuu hallitusti, yhteisten pelisääntöjen puitteissa.

Dataa koskevan lainsäädännön tarkastelu on ulotettava läpi sektorirajojen ja esteet datan liikkuvuudelle tulee purkaa. Myös eksponentiaalisesti kasvavat osaamistarpeet datan osalta tulee huomioida kaikilla aloilla, myös opettajankoulutuksessa.

Osaaminen ylipäänsä on teema, jossa tarvitaan uudistumista: uudistuvan työelämän tarpeisiin on vastattava, ja siksi jatkuvan oppimisen reformia ja digitaalisten infrastruktuurien rakentamista oppimisen tueksi tulee jatkaa seuraavallakin hallituskaudella.

 
"Arktisen datakaapelin myötä Suomen on mahdollista profiloitua arktisena dataliikenteen ja -osaamisen solmukohtana."
 

Datakeskukset ovat Suomelle mahdollisuus, mutta eivät pelkästään infrastruktuurin muodossa vaan datakeskusekosysteemeinä, jotka rakentuvat useiden erilaisten toimijoiden yhteistyössä ja luovat synergioita sekä uusia työpaikkoja.

Suomen tuleekin jatkaa datakeskusinvestointien houkuttelemista ja ekosysteemien rakentamista – myös arktisen datakaapelin myötä Suomen on mahdollista profiloitua arktisena dataliikenteen ja -osaamisen solmukohtana. Hyödynnetään kilpailuetumme tässäkin asiassa!

Digitalisaation osalta tapahtuu paljon myös EU:ssa. Unioni valmistelee parhaillaan mittavia rahoitusohjelmia tutkimukselle, innovaatioille ja digitaalisille palveluille.

Suomalaisten toimijoiden menestymistä EU-rahalla tehtävässä kehitystyössä tulee tukea, jotta pääsisimme vähintään verrokkimaiden tasolle ja miksei ohikin, koska osaamista meiltä löytyy. Suomen tulee myös olla aktiivinen vaikuttaja EU:n rahoitusohjelmien strategisessa suunnittelussa.

CSC:n hallitusohjelmatavoitteet on tarkoitettu herättämään ajatuksia ja keskustelua. Kerromme mielellämme lisää ja annamme asiantuntemuksemme käyttöön Suomen kilpailukyvyn edistämiseksi. Ota yhteyttä!

#digisuomensuunta

Kuva: Adobe Stock

Blogger: Irina Kupiainen Blog Topic: Science and research Data CSC: Blog Themes: Laskennallinen tiede

Modern medical science has been able to improve human health tremendously during the last decades. Many diseases are much better understood than before leading to better treatments and more effective drugs. And the advances are rapidly continuing as we speak, for example towards precision medicine tailored for the patient's individual genomic characteristics.

Biomedicine is just one of the fields in which research including the analysis of personal data allows researchers to make new discoveries. Other such areas are for example language research or social sciences, or any other field that studies humans or the society.

It is clear that the use of personal data in research must always be based on high legal and ethical standards, as well as high security of the data and analysis environments.

 
"Biomedicine is just one of the fields in which research including the analysis of personal data allows researchers to make new discoveries."
 

Collecting and managing personal data has received lot of attention in recent years not least because of the new EU legislation, the General data protection regulation GDPR, and its influence in member states’ national legislation. The GDPR makes several clarifications in how personal data can be processed, for instance data subject’s right to know about processing and right to be forgotten. These conditions translate into requirements that sensitive data service providers need to match.

The term personal data is used for data that relates to an identifiable individual, either directly or indirectly. Thus name, address, personal ID number and passport photo are clearly personal data, but so are also location information, health records, genetic information, economic status and so on.

When personal data is used in research the directly identifying information is typically first removed and replaced with a random identifier, so that the mapping between these new identifiers and real persons is not visible to researchers.

This procedure decreases risks of accidental identification of people in further processing, although the data is still considered as personal data. Such data sets are said to be pseudonymized.
 
At CSC we are developing and providing services for our research customers to manage sensitive data securely and reliably, in a way that it is accessible only for authorized persons. The purpose is to offer effective and reliable services for research on sensitive data in the same way as CSC has done for other research for decades.

We also want to support the process of bringing valuable data collections available for research.

 
"Such research needs a secure processing environment that has connections to various data sources."
 

Using legal terminology, CSC acts as a data processor whereas the data owner acts as a data controller. In practice this means that the owner defines who can access the data and under what conditions, and CSC provides tools and environment that are specially designed for secure data processing. CSC’s sensitive data services currently combine secure processing in ePouta cloud, secure data archiving and strict access control.

This platform has been used, for instance, to pilot combining health cohort data with health records as a pre-study for national genome center in Finland. However, CSC specializes in the secondary use of health data, meaning that aim is in supporting research, not the clinical care directly. More information on the management of sensitive data in CSC environment will be discussed in the webinar by CSC experts on 25 September 2018.
 
Taking biomedical research again as an example, novel research combining genomic data with health information, data from longitudinal studies, register data and so on can be used to study diseases on unprecedented accuracy leading to quicker diagnoses and personalized medicine.

Such research needs a secure processing environment that has connections to various data sources and that combines usability with high security and tight access control. This is what CSC is currently working on.

The development work is done in close collaboration with key European players in the field, for example within the European ELIXIR research infrastructure and the Nordic NeIC Tryggve collaboration.
 
Regardless of the international collaboration, CSC as national actor stores sensitive data only inside Finland and will not move it outside of country borders – unless specifically instructed and authorized by the data controller. CSC has no commercial interests in the data stored in CSC’s services, since CSC as a public institution is not aiming for financial profit. Instead CSC's mission is to benefit research and the Finnish society.

 

Picture: Adope Stock

 

Blogger: Antti Pursula Blog Topic: Science and research Data CSC: Blog Themes: Laskennallinen tiede

Chapel on moderni ohjelmointikieli rinnakkaislaskentaan. Se poikkeaa muista uusista ohjelmointikielistä Fortrania muistuttavalla syntaksillaan ja tehokkuudellaan. Kieli on käännettävä, mutta toisin kuin vaikkapa GNU-kääntäjissä, käyttäjän ei tarvitse osata kuvata laitteistoaan tarkasti käännösvaiheessa. Yksinkertainen -fast-optio riittää tuottamaan liki tuplaten nopeamman binäärin kuin GFortranin -Ofast -mavx2 -march=native.

Chapelista ei ole jaossa Windows-binäärejä, ja Linuxillekin se pitää itse lähdekoodista asentaa. Tämä voi olla syy siihen, että tämä blogikirjoitus on luultavasti ensimmäinen kerta, kun kuulet kielestä. Valmiiksi pakattuja asennuksia on vain Macille, kontille ja Crayn supertietokoneille. Vastineeksi asentaminen Linuxiin on kuitenkin erittäin yksinkertaista, ja Windows 10:ssä on WSL (Subsystem for Linux), jonne voisin kuvitella kielen sujahtavan helposti.
 

Mihin tarpeeseen?

Chapelia kannattaa käyttää, jos halutut kirjastot ovat kielen "Package Modules"-listassa. Erityisesti tarve Libcurlille eli tiedonsiirtokirjastolle – ohjelmalle, jonka avulla voi siirtää tiedostoja verkosta paikalliselle levylle tai toisin päin – voi iskeä nykyisin myös Fortran-koodareille, sillä verkossa olevaa tietoa tarvitsevat kaikki. Fortran on ajalta ennen internetiä, ja mielestäni on hiukan turhan perinteistä edelleen kirjoittaa sillä ohjelmia. 

Fortran poikkeaa syntaksiltaan merkittävästi uudemmista kielistä, mistä syystä siirtyminen uudempiin kieliin voi olla monelle vaikeaa. Chapel mahdollistaa siirtymän ja tuo samalla mukanaan ominaisuuksia, joita Fortranissa ei ole.

Chapelin suurin puute on sen rajoittuminen vain laskentaan. Lisp-ohjelmointikieltä joskus harrastaneena tiedän, että listalla voi tehdä kaiken, mutta vuonna 2018 kirjaston rajoittuminen listaan ei enää riitä. Itse en tulle Chapelia kirjoittamaan, koska käsittelen tietokannassa olevaa dataa, eikä kielessä ole tietokanta-ajureita. Tästä syystä en ole kirjoittanut Chapeliä riviäkään, ja kokemukseni rajoittuvat vain The Computer Language Benchmarks Game -pelin n-body Chapel -ohjelmaan. N-body on aurinkokuntasimulaattoriohjelma, jonka laskenta on erittäin perinteistä. Tästä syystä rinnakkaislaskennan mahdollistava Chapel oli ohjelmassa hyödyllinen.

 

Lisätietoa:

Chapel
Chapel GitHubissa

 

Kuva: Adobe Stock

Blogger: Pekka Järveläinen Blog Topic: Software Data HPC

First of all, thank you for replying to our customer survey! We received over 250 replies, with most of our customer segments well represented, giving very valuable feedback for how to improve our service and software portfolio to meet the needs of today's scientific research. We are at the moment planning how to develop our services accordingly and picking "low-hanging fruits" (like installing missing software packages) on the go. We would like to put emphasis on some of the points brought up in the survey, and give our responses and suggestions on how to mitigate and overcome the observed shortcomings.

True, not enough capacity

In many responses being short of some particular resource (e.g. large-memory nodes, GPUs, or CPU cores in general) was pointed out. We are painfully aware of this. The current generation of systems was installed in 2012-2014 and thus clearly out of its competitive lifetime. Luckily, and as you have hopefully heard before, we are currently renewing the whole computing and storage ecosystem at CSC under the funding and development program DL2021. The call for tenders is out at the moment, and we should know during the autumn timeframe the exact specs of the upcoming systems. The users will have the first major chunk of new capacity (which will be Taito-like) in their disposal in early 2019. So please try to bear with us and the current situation for a couple of months more. The new systems will be worth waiting for.

You can always ask for software installations

You can see the list of installed software at https://research.csc.fi/software which lists the softwares that are actively maintained in the CSC servers. However, especially in Taito there are many tools and utilities that are installed even though CSC is not actively supporting them.

If you can’t find the software (or version) you want to use in the software list, you can use the module spider command to check if there is a module for the tool you wish to use, e.g. module spider gatk

Still no luck? Feel free to ask for the installation from CSC Servicedesk (servicedesk@csc.fi).  Alternatively, you can try to install the missing tool yourself to Taito. CSC can support you with the installation if facing problems.

Please meet Julia

There were several requests for providing Julia programming environment. Julia is an emerging high-level but high-performance programming language and framework. We are happy to announce that Julia is now available on Taito as a high-performance version, just load the module "julia" and go. Give also a try for the Jupyter notebooks version available at notebooks.csc.fi. The Julia programming environment is supported hereafter in a similar fashion as we develop our R and Python environments.

You can invite us over

There were couple suggestions of CSC staff visiting you local campuses. We are always eager to meet our customers and happy to tell about our services. If you have a group seminar, faculty day or some training that might benefit from a presentation and/or Q&A session of our services, feel free to send us e-mail (servicedesk@csc.fi) and invite us over!

We have updated our material archives

There were lots of wishes for online learning materials, so we gathered them for your convenience. You can search for CSC course materials on other topics from our event archive (hint: the tag cloud helps! Just click “show keywords”). Some topical materials are also gathered in the Materials site.

We are also continuing our webinar series. We record the webinars for later viewing as well. You can find the list of past and upcoming webinars as well as the links to the recordings here: https://research.csc.fi/csc-webinars. Note that you can also suggest new webinar topics using the form there!

Running long jobs

On Taito, the maximum runtime is two weeks (14 days). In cases where longer jobs than this are needed, the first thing to do is to check if the task can be split into several shorter tasks. For instance, even if all the steps of the workflow could be executed as one batch job, however for (too) long jobs you need to run different steps as separate batch jobs. Not trying to do everything at once also helps you in optimizing the resource requests.

In the rare case when the job cannot be split into shorter sub-tasks, then the recommended option is to install your own version of the software to a Virtual Machine running in cPouta. We prefer helping you to set up your own virtual machine for this purpose rather than extend the execution time of your batch job.

Wanted: R and Python courses

Many of you wished for R and/or Python courses, and we are happy to deliver! We have been offering general beginner level courses, as well as some more topical courses for visualisation and data handling, but now we would like to ask you what you really want to achieve with R and/or Python to see whether we can tune our courses to meet those learning goals of yours.

Please, especially if you are planning on joining one of our future courses, take a moment and answer these  further questions: https://www.webropolsurveys.com/S/9DCF1D5A391072BD.par
       
Your voice has been heard. In case of further ideas or comments, please do contact us (directly, via CSC Servicedesk, comment below, when meeting our staff in person,...).

Photo: Thinkstock

Blogger: Pekka Manninen Maria Lehtivaara Blog Topic: Software Science and research Data HPC

Demand for following FAIR (Findable, Accessible, Interoperable, Reusable) principles has been around for some years now, and as we know it is not going to disappear. Actually building on FAIR principles is more and more demanded in research data management, also in infrastructure and service development side. From top-down perspective Open Science agenda of European Commission contains the ambition to make FAIR data sharing the default for scientific research by 2020.

So how can a researcher make sure being on board of this development? Researchers need practical solutions to ensure FAIRness of their research data and services they use in managing research data. Many viable solutions have been created within Research Data Alliance (RDA) to support research data practitioners in becoming more FAIR, yet we see more room for active Finnish participation.
 

Linking Finns to global RDA scene

RDA Europe project has from the beginning of March 2018 entered a new era of network of national nodes, and the Finnish node hosted at CSC will function as an interface for Finnish research data practitioners and RDA global community. The national node model was one of the many topics presented in the 11th RDA Plenary in Berlin on 21–23 March 2018.

The Finnish node is a networked hub of experts from the CSC knowledge pool that are here to support in the usage of FAIR data functions created in RDA, and to function as a link facilitating Finnish participation to the global RDA activities.

The initial nodes are established in Finland, Netherlands, Greece, Ireland, UK, Germany, France and Italy. The aim is to foster the existing national RDA networks to create a European network of RDA nodes to enhance member state cooperation and support of RDA in many European countries. The ultimate goal is that the nodes will enhance European participation within RDA Global.
 

Where are the Finns in RDA?

Finland has been one of the first countries participating in building RDA since 2012. At the moment there are more than 140 individual members from Finland. When looking at this number of participants, one can be happy with somewhat equal distribution of participants representing all domains and professions. Yet we expect the national node to activate Finnish participation and support Finns in finding their place in global RDA activities.

By Finnish node we want to promote the thinking and acceptance that active participation in RDA activities and the adoption of RDA outputs will also promote one’s own research work and professional growth. Science needs networks of professionals willing to share their expertise and knowledge to affect how research data matters are dealt with.

The expert work of RDA happens in Working and Interest Groups that are open for everyone: these groups consist of experts around the globe gathered around specific topic or a concrete problem to solve. At the moment there are Finns chairing five different groups, but since groups are evolving over time and new groups are established, there is all time and room for more active participation.

The next meeting of Finnish RDA Node will be organised in Espoo on June 6th 2018. The event is open for everyone and presenting many ways one can participate RDA activities. Programme and registration are available at CSC website.

Picture: ThinkStock photos

Blogger: Riina Salmivalli Blog Topic: Data

Vuotuinen Interaktiivinen tekniikka koulutuksessa -konferenssi (ITK) kokosi huhtikuussa koulutuksen toimijoita Hämeenlinnaan. Osana konferenssia järjestettiin loppuun varattu Learning Analytics -työpaja. Oppimisanalytiikan jaoston järjestämä työpaja tutustutti konferenssin osallistujat oppimisanalytiikan tärkeisiin kysymyksiin, johtaviin tekijöihin Suomessa sekä kansallisiin dataekosysteemeihin.

Työpajan järjestänyt oppimisanalytiikan jaosto on opetus- ja kulttuuriministeriön asettaman tietovirta- ja sanastotyön koordinaatioryhmän jaosto ja sen sihteerinä toimii CSC – Tieteen tietotekniikan keskus. Jaosto toimii koulutustoimijoiden yhteistyöfoorumina, edistää yhteentoimivuutta oppimisanalytiikassa sekä seuraa ja ennakoi oppimisanalytiikkaan liittyvää lainsäädäntöä.

Mutta, mitä on oppimisanalytiikka?


Analytiikkaa oppijan ja oppimisen tueksi

Maailmalla viimeisen vuosikymmenen ajan suosiota kasvattanut oppimisanalytiikka on alkanut saada jalansijaa myös Suomessa. Oppimisanalytiikalla tarkoitetaan oppimiseen liittyvää analytiikkaa, mutta on hyvin haastavaa määritellä, miten ihmisen oppimista tulisi mitata. Ongelmaan päästään pureutumaan tarkemmin, kun valitaan tarkasteluun jokin tietty oppimistapahtuma ja määritellään selkeä kysymys, johon etsitään vastausta. Kysymys voi olla esimerkiksi: ”Vaikuttaako läsnäolo kurssilla opiskelijan arvosanaan?” tai ”Näkyykö opiskelijan stressitaso sydämensykkeessä tentin aikana?”. 

Nykyisillä teknologioilla on mahdollista digitaalisesti tallentaa erilaisia ihmisten tekemiä toimintoja, mikä avaa uusia ovia sekä sovellusten kehitykseen että analytiikkaan. Dataa oppimiseen liittyvistä toiminnoista voidaan kerätä sähköisistä oppimisympäristöistä (kuten Moodle), opiskelijoiden suorittamista sähköisistä tehtävistä ja kyselyistä, sekä opiskelutilanteen yhteydessä mitatuista fysiologisista signaaleista.

Kansainvälisesti näitä toimintoja analysoimalla on rakennettu esimerkiksi ”opohälyttimiä”, jotka tunnistavat opiskelijan jättämistä digitaalisista jäljistä merkkejä siitä, että opiskelija on riskissä pudota pois kurssilta. Useat olemassa olevat oppimisanalytiikkasovellukset on kehitetty nimenomaan tunnistamaan mahdollisia ongelmia opiskelun etenemisessä. Oppimisanalytiikan perimmäinen tavoite liittyykin tarpeeseen ymmärtää ja tukea oppijan opiskelupolkua ja oppimista.

Oppimisesta syntyneestä datasta ovat oppijan lisäksi kiinnostuneita opettajat, rehtorit, koulutuksenjärjestäjät sekä kansallisen tason koulutuspolitiikan toimijat. Heille olennainen tieto koskee pitkäkestoista koulutuskokonaisuuksien suunnittelua ja tiedon käyttämistä päätöksenteon tukena. Näissä tilanteissa voidaankin puhua koulutusjärjestelmäanalytiikasta oppimisanalytiikan sijaan. Opetushallinnon tilastopalvelu Vipunen, jota myös esiteltiin Learning analytics -työpajassa, tarjoaa työstettävää materiaalia tällaisen analytiikan tuottamista varten. Vipusen kautta voi tarkastella esimerkiksi 55 opintopisteen suorittaneiden korkeakouluopiskelijoiden määrää koulutusaloittain rajattuna tai ylioppilaskokeiden tuloksia.

Työskentely oppimisanalytiikan käsitteiden ja tasojen määrittelyksi on aloitettu osana analytiikkajaoston toimintaa. Tämä sanastotyö tapahtuu läheisessä suhteessa opetus- ja koulutussanasto OKSAn kanssa.


Oppimisanalytiikan mahdollisuudet, uhat ja uusi tietosuoja-asetus

Oppimisanalytiikka aiheuttaa usein sekä suurta kiinnostusta että syvää huolta. Koulutuksen järjestäjät pohtivat, aiheuttavatko he opiskelijoilleen enemmän haittaa vai hyötyä uudella analytiikalla, ja toisaalta, kuinka pitkälle vietyjä johtopäätöksiä opettajan suoriutumisesta voidaan opiskelijoiden palauttamien tehtävien perusteella tehdä. Toisaalta uudet tekniikat voivat helpottaa opettajan työtä auttamalla oppimisvaikeuksien tunnistamisessa ja opiskelijan kehityksen reflektoinnissa. Onpa kansainvälisissä keskusteluissa käynyt ilmi, että opiskelijat voivat myös vaatia analytiikkaa omasta opiskelustaan osaksi oppimisen ohjausta.

Uusi tietosuoja-asetus vaikuttaa myös oppimisanalytiikkaan, johon henkilötietojen käsittely liittyy olennaisesti. Jokaisen oppimisanalytiikkaa tekevän täytyykin hieman rasittaa neuroverkkojaan, jotta perusasiat tietosuojasta ovat hallussa ennen varsinaisten sovellusten suunnittelua. Niin kauan kuin oppimisanalytiikan tekeminen on osa koulutuksen järjestäjän laillisen velvoitteen toteuttamista, tuo tietosuoja-asetus mukanaan vain aikaisempaa tarkempaa ja järjestelmällisempää henkilötietojen hallintaa. Koulutuksen järjestäjän on muun muassa kyettävä perustelemaan opiskelijalle, mihin hänestä kerättyjä henkilötietoja käytetään, ja opiskelijalla täytyy olla mahdollisuus saada itselleen hänestä kerätty data ymmärrettävässä muodossa.

Kiinnostavin kysymys tietosuoja-asetuksen kannalta on kenties se, milloin instituution järjestämää oppimisanalytiikkaa ei voi enää sisällyttää lakisääteiseen velvoitteeseen ja asetusta on tulkittava uudesta näkökulmasta.


Oppimisanalytiikan yhteentoimivuus ja kansallinen viitekehys 

Oppimisanalytiikkajärjestelmiä rakentaessa täytyy ymmärrettävästi ottaa huomioon paitsi hyvin monta näkökulmaa myös henkilötietojen käsittelyä koskeva lainsäädäntö. On loistava tilaisuus tehdä tarvittavaa taustatyötä yhteisiin pelisääntöihin nyt, kun Suomessa tekeminen on vielä lähtökuopissa. Analytiikkajaosto on käynnistänyt taustatyön standardeihin ja yhteentoimivuuteen perehtyvän selvityksen muodossa. CSC:n toteuttama esiselvitys on avaus kansallisesti yhteentoimivien oppimisanalytiikkapalvelujen osalta. Selvitykseen voi tutustua analytiikkajaoston sivuilla.

Osana yhteisten kansallisten pelisääntöjen muodostamisen edistämistä analytiikkajaosto aloitti alkuvuonna kansallisen viitekehyksen työstämisen. Viitekehyksen on tarkoitus tuottaa yhteinen perusta kysymyksineen, reunaehtoineen ja hyvine käytäntöineen, jota oppimisanalytiikan tekemistä suunnittelevat toimijat voivat hyödyntää rakentaessaan omia systeemejään.

Analytiikkajaoston toiminta on kaikille avointa ja mukaan toimintaan toivotaan kaikkia asiasta kiinnostuneita. Yhteenveto ITK-päivien työpajoista päivitetään analytiikkajaoston wikialueelle.

Lisätietoja antaa kehityspäällikkö Jonna Korhonen, etunimi.sukunimi(at)csc.fi, 050 3818 612.

 


KUVA: JONNA KORHONEN / CSC

Blogger: Olga Heino Blog Topic: IT Management Data

The Spring School gathered again a full house of researchers from nine different countries representing 17 different nationalities (!) and a wide range of different research interests. These included materials science, drug discovery, geology, machine learning, and mathematics while some participants’ main focus was in experimental methods. From experimentalists, it was particularly pleasing to learn that the reputation of computational chemists is no longer only “academic toil” but the results can really be useful and collaboration is sought after. The scope and approach was seen unique: “I’ve never been to an event that connects so many different approaches and relevant things”, commented one participant.
 

Networking with future colleagues

Discussions over the frequent breaks as well as during the poster session and sauna dinner indicated the added value of bringing together researchers with complementing skills and interests. It turned out that participants with prior experience on tools that were found to be useful to others exchanged contacts and prepared to work together after the School.

This year the School attracted also some machine learning experts. I believe it is interesting to see actual applications and use cases how people beyond the core of machine learning method developer community have adopted these tools. Also, based on the discussions overheard over coffee breaks, the machine learning specialists and those aspiring to use the methods did find each other.

Several European supercomputing centres, including CSC, promote international collaboration in high performance computing through the HPC-Europa3 programme. HPC-Europa3 funds research visits to nine European countries with access to computational resources. Several of the Spring School participants appeared interested in this opportunity.
 

Machine learning has secured a foothold in computational chemistry

Machine Learning has been a trending topic in many fields of science and beyond. This year Filippo Federici Canova and Yashasvi Ranawat from Aalto University updated their introduction to the method by focusing the tutorials to function as a seamless tool with the computational chemistry methods of the previous day. The tutorials were distributed as Jupyter notebooks, which offer a convenient interactive platform to explore interactively the methods and which the participants can set up also for themselves later. The tutorials interface with Open Source python libraries, like scikit-learn, but can be adapted also to make use of e.g. TensorFlow if needed.

The NOMAD Center of Excellence services were also introduced as an example of new infrastructure aimed at creating additional value of already existing computational materials science results as well as a way to share your own results and make them discoverable for other researchers – but also for yourself. How many of you have trouble finding your own simulation results completed even a year ago? The NOMAD CoE also offers state-of-the-art machine learning driven data analytics tools directly available through a web browser.
 


Advanced parallel hands-on tutorial on Excitation Energies and Excited State Densities given by Dr. Mikael Johansson. Picture: Atte Sillanpää / CSC.
 

Filling gaps

Overall, the School agenda was tight and as we strive to introduce the most important methods of computational chemistry it was not possible to cover every topic at great detail. Although, some participants criticized this in the feedback, many also saw this compromise useful. This theme was found in all topics covering simulation methods.

Individual methods, like coarse grained molecular dynamics, were seen as islands in the sea of computational chemistry and the School was seen as an attempt to connect these islands thereby creating a more holistic picture of the different approaches to chemical problems. If you like, the School can be seen to provide a high-level map of the archipelago so you can choose which islands to look closer and spend more time to make sure if the method matches your needs.

The School materials, including presentation slides and hands-on instructions and input files are available on the School homepage. The material also includes links to further in-depth treatments for self-study.
 

Choose the right method for your topic

Ambitious research problems require selecting carefully the computational tools. As in life in general, there is no silver bullet, or just one simple answer, that works for everything. One of the original ideas of the School was to quickly present the theory and approximations behind molecular dynamics and electronic structure theory and then proceed to the applications showing the strengths and weaknesses of each individual method.

Dr. Luca Monticelli introduced the importance of choosing the right method for the problem at hand in his introduction to molecular dynamics methods on the first day. On the following days, we heard the same message again in the context of electronic structure theory and machine learning suggesting a more general statement: this method is not intrinsically better or worse than the other one, but this works better for these kinds of systems or properties, and vice versa.

It is dangerous to use the methods as black boxes. Instead, it is important that the researcher actively chooses which approximations to make i.e. where to sacrifice detail and where the details are required. In practice, for real world research problems some details must always be compromised over better sampling or larger model system size, so it is very useful to be aware of several different methods and their validity.
 


A snapshot of Dr. Mikael Johansson's Introduction to Electronic Structure theory slides, where he highlights the importance of choosing the right method and paving the way to the tour through myriad methods and layers of approximations.

 

More about the topic:

 

Spring School in Computational Chemistry 2019:

 


Top picture: Prof. Ville Kaila explaining the philosophy on quantum chemical simulation approach on biochemical systems. Picture: Atte Sillanpää / CSC.

Blogger: Atte Sillanpää Blog Topic: Science and research Data HPC

Euroopan avoimen tieteen pilvipalvelu (EOSC) on Euroopan komission keihäänkärkihanke ja tärkeä tavoite. EOSC kokoaa eurooppalaiset tutkijat, heidän tutkimusdatansa sekä olemassa olevat tutkimusta tukevat infrastruktuurit yhteiseen pilveen, josta data ja palvelut ovat saatavilla. Olemassa olevien palveluiden katoksi rakennetaan hallintomalli, jonka kautta rahoittajilla on mahdollisuus hallinnoida rahoittamansa infran kehitystä. Parasta aikaa määritellään, millaiseksi Euroopan avoimen tieteen pilvipalvelu muodostuu.

Kesäkuussa 2017 pidetyn kokouksen tuloksena syntyi Euroopan komission laatima julistus EOSCin toteuttamiseksi, joka sisältää EOSCin perusominaisuuksien määritelmät. Julistuksessa esitetään monia Euroopan avoimen tieteen ekosysteemin toteuttamiseksi sopivia ja tarpeellisia toimenpiteitä.

Suomessa on jo pidemmän aikaa tuettu avoimen tieteen toimintamallin mahdollistamista. Mitä Suomessa on julistuksessa käsiteltyjen asioiden suhteen jo tehty?
 

Suomi pitää tärkeänä avoimen tieteen edistämistä

Suomi on työskennellyt avoimen tieteen, avointen tutkimusaineistojen hallinnan ja tutkimuspalvelujen kehittämiseksi jo muutaman vuoden ajan muun muassa Avoin tiede ja tutkimus ‑hankkeen (2014–2017) kautta. Avoin tiede voi merkittävästi kohentaa tutkimus- ja innovaatiojärjestelmien kilpailukykyä ja laatua Euroopassa.

Opetus- ja kulttuuriministeriö toteuttaa tutkimus- ja innovaatiotoimijoiden kanssa datanhallinnan ja laskennan tutkimusinfrastruktuurien kehittämisohjelman vuosina 2017−2021. Tällä kehitysohjelmalla päivitetään muun muassa tutkimusta tukevaa laskentaympäristöä sekä parannetaan tutkimuksen ja koulutuksen palveluita. Kehittämisohjelmassa huomioidaan erityisesti alan eurooppalainen tutkimusinfrastruktuuripolitiikkakehitys.

EOSC on kerännyt sidosryhmien ja asiantuntijoiden kommentteja julistukseen liittyen, ja myös suomalaisia asiantuntijoita on kuultu. Mielestämme sidosryhmien ja erityisesti oikeanlaisten sidosryhmien osallistaminen on EOSCin jatkoa ajatellen erityisen tärkeää. EOSC-hallinnon tulisi olla mahdollisimman yksinkertainen, joustava ja selkeä. Uusien ryhmien perustamista tulisi välttää ja ja olemassa olevia ryhmiä, kuten e-infrastruktuurit, tulisi hyödyntää mahdollisimman paljon.
 

Missä Suomi menee EOSC-julistuksen toimeenpanossa?

Seuraavassa on tarkasteltu, miten Suomessa tehty työ vastaa EOSC-julistuksessa mainittuja aihealueita.

Data, kulttuuri ja datataidot

Avoin tiede ja tutkimus ‑hankkeen (ATT) aikana suoritettiin Suomen tutkimusorganisaatioiden ja tutkimusrahoitusorganisaatioiden toimintakulttuurin avoimuuden arviointi. Hankkeen aikana myös luotiin Avoimen tieteen ja tutkimuksen tiekartta 2014–2017, Avoimen tieteen ja tutkimuksen käsikirja sekä avoimen tieteen palveluita, jotka tukevat tutkimuksen ja tutkimustulosten avoimuutta.

Avoimen tieteen tietojen ja taitojen kehittämiseksi toteutettiin laaja osaajakoulutusten sarja, joka oli tarkoitettu sekä tutkimusorganisaatioiden tutkimushallinnon ja tukipalveluiden henkilöstölle että asiantuntijoille ja tutkijoille. Lisäksi toteutettiin avoimen tieteen perusteisiin perehdyttävä verkkokurssi, joka sopii kaikille asiasta kiinnostuneille. Näiden ohella järjestettiin lukuisia eri aihepiirien webinaareja ja seminaareja.

Oletusarvoisesti avoin

Avoin tiede ja tutkimus -hanke suosittelee CCBY 4.0 -lisenssiä kaikille tutkimusaineistoille. Suositus sisältyy myös Avoimen tieteen ja tutkimuksen tiekarttaan. Julkishallinnon suosituksessa (JHS 189) ehdotetaan joko lisenssiä CCBY 4.0 tai jopa CC0 tapauksissa, joissa ei tarvitse mainita tietojen tuottajaa.

FAIR-standardit, IOW – yhteentoimivuuden kuvaukset

Kansallisten tutkimuspalveluiden kehityksessä halutaan edesauttaa FAIR-periaatteiden toteutumista.

Valtionvarainministeriölle kehitetyt yhteentoimivuuden kuvaukset (IOW) ovat tietomäärityksiä, joiden avulla turvataan ihmis- ja koneluettava semanttinen yhteentoimivuus sekä tietojärjestelmien vaatima tekninen yhteentoimivuus sähköisissä, tietointensiivisissä palveluprosesseissa.

Datanhallintasuunnitelmat

Aineistonhallintasuunnitelmatyökalu DMPTuuli (perustuu DMPonlineen) on käytössä ja sovellettu tutkimusorganisaatioiden ja tutkimusrahoittajien tarkoituksiin. Suuret tutkimusrahoitusorganisaatiot Suomessa (Suomen Akatemia ja Tekes) edellyttävät datanhallintasuunnitelmien sisällyttämistä tutkimusrahoitushakemuksiin ja suosittelevat DMPTuulin käyttöä. Syksyllä 2016 yli 70% rahoitushakemuksista käytti DMPTuulia.

Lainsäädäntöön liittyvät selvitykset

Oikeuksien hallintaan liittyvät metatiedot -työryhmä teki kevään 2016 aikana suhteellisen laajan taustoittavan kartoituksen olemassa olevista arkkitehtuureista Kansallisen ditigaalisen kirjaston sekä ATT:n piirissä. Lisäksi käytiin läpi keskeiset käyttöoikeuksien metadatastandardit ja alan kansainvälinen kehitys.

Varatuomari Marja-Leena Mansala laati selvityksen lainsäädännön muutostarpeista rinnakkaistallentamisen edistämiseksi (Opetus- ja kulttuuriministeriön julkaisuja 15/2017). Selvityksen mukaan tekijänoikeuslakiin tulisi lisätä säännös, jolla rajoitetaan tieteellisen julkaisun alkuperäisen tekijänoikeuden haltijan oikeutta luovuttaa kaikki julkaisuun liittyvät taloudelliset oikeutensa. Tekijällä olisi aina oikeus ei-kaupalliseen rinnakkaistallentamiseen.

Arkkitehtuuri

Vuonna 2016 laadittiin Avoimen tieteen ja tutkimuksen viitearkkitehtuuri hyödyntäen niin sanottua kokonaisarkkitehtuurimenetelmää. Viitearkkitehtuuri antaa yleiskuvan siitä, kuinka eri toimijoiden avoimet tiede- ja tutkimusprosessit sekä tukipalvelut muodostavat yhteentoimivan järjestelmän.

Kyseinen tavoitearkkitehtuuri ohjaa kansallisesti tieteen ja tutkimuksen avoimuuden periaatteita, tietojen vaihtoa sekä avoimuuden sähköisten palvelujen kehittämistä.

Täytäntöönpano

Suomen laajuisesti avoimia toimintatapoja viedään eteenpäin kaikkien toimijoiden ja organisaatioiden kanssa yhteistyössä. Palveluiden ja toimintatapojen kehityksessä halutaan vaihtaa kokemuksia, haastatella käyttäjiä ja muodostaa eri käyttäjäprofiileiden tarpeiden mukaisia palveluja. Avoimuus halutaan saada osaksi normaaleja käytäntöjä koko yhteiskuntaan.

Valtionvarainministeriö julkaisi lokakuussa 2017 muistion ”Suomi tarvitsee tietopolitiikkaa”. Muistiossa ehdotetaan tietopolitiikan vahvistamista muiden politiikkalohkojen rinnalla. Tietopolitiikan ydinteemoiksi ehdotetaan tiedon avointa saatavuutta ja vapaata liikkuvuutta, tietovastuiden ja ‑oikeuksien määrittelyä sekä monipuolisten tiedon lukutaitojen kehittämistä vastaamaan digitaalista tietoympäristöä.

KUVA: THINKSTOCK

Blogger: Päivi Rauste Miia Lindell Blog Topic: Science and research Data

The Research Data Alliance (RDA) has been around as now for almost five years. The 10th RDA Plenary meeting was held in Montréal in September 2017, and the number of participants has grown exponentially compared to the very first Plenary in Gothenburg in Spring 2013. In the end of 2013 there were 1 000 individual RDA members, now there are over 6 000! How did this happen?

Building the social and technical bridges to enable data sharing and reuse – the community-driven approach – is an elementary part of the RDA, which can be seen in a very concrete way in each plenary meeting. It is always amazing to see, how enthusiastic and genuinely engaged people are, when they come together from all over the world, to jointly work upon the data related issues.

And even if the plenaries sometimes seem chaotic, the results and outputs speak for themselves: there are indeed already 18 flagship outputs, of which nine have already been approved by the European Commission as ICT technical specifications for public procurement. Not to mention the various adoption cases in different countries across the globe. This means, RDA is not just a bunch of data nerds doing some random stuff, but it is real, sustainable development work, that contributes to solving global challenges by creating ways of handling the data and turning it into something useful. Data is revolutionarily changing the way research and business are being conducted, and the RDA has a huge impact on this all.

 

The 10th RDA Plenary took place in Montréal, Canada in September 2017. The 11th RDA Plenary will take place in Berlin, Germany, on 21–23 March, 2018. Registration for the Plenary is open.

 

EOSC builds on RDA data management framework

What makes RDA so special? According to community actors, RDA is a neutral platform for working with data issues. It is multi-disciplinary, and it is truly bottom-up, as it empowers its individual members to take control. With data sharing, there is really no other way than bottom-up. Engaging researchers is not an easy task, but RDA has managed to take big steps in the right direction.

In Europe, the data management framework that RDA offers, is essential for creating the European Open Science Cloud (EOSC) and implementing the FAIR principles. The EOSC is a major effort by the European Commission, but it is important to note, that building an infrastructure is not enough – we need exactly the social and technical bridges for data management, and that is where RDA plays a role.

At national level, the RDA can provide concrete tools for researchers and communities, to help in data management. At the same time, it provides opportunities for having an impact by participating in the work of RDA. Interoperability is the key issue for European research infrastructures, and this is why we should actively explore opportunities for making use of RDA outputs on national and institutional levels, linking to national policies and ways of working with data.
 

National nodes are essential

The national work will now be an even stronger focus for RDA, as the next (fourth) phase of the RDA Europe project starts, introducing national nodes which will have a major role in engaging national RDA communities and establishing a sustainable structure throughout Europe. The aim is to have 22 national nodes by 2020.

 

 
"In Europe, the data management framework that RDA offers, is essential for creating the European Open Science Cloud (EOSC) and implementing the FAIR principles."
 

 

The initial nodes are established in Finland, Netherlands, Greece, Ireland, UK, Germany, France and Italy. In addition, a number of European countries have been listed as potential nodes, and the RDA is currently reaching out to them. The idea is to build on existing networks to create a European network of nodes to enhance member state cooperation and support of RDA in many European countries by 2020, enhancing also European competitiveness and leadership within RDA Global.

National RDA events held lately in many European countries show, that there are a lot of activities going on in the member states related to data sharing and implementing open science. Joining forces and coordinating efforts is even more important, when we think about the global nature of science and research. Many challenges are universal and thus, it is more fruitful to address them in a global context.
 

RDA is maturing

As was noted in the Montréal plenary, RDA is now adolescent, maturing but in need for improvement. How to engage the disciplines that are still in minority in RDA, such as social sciences and humanities? How to deal with diversity and equality issues? What is the strategic thinking of RDA, dealing with the exponential growth and building sustainability?

These questions will surely be discussed as RDA most probably keeps on growing also in the future, but one thing is sure: The social and technical bridges are definitely needed in order to keep the key players – the communities – onboard in the efforts for making open science a reality. The next RDA plenary meeting will be held in Berlin, Germany, on 21–23 March 2018, and the theme is “From Data to Knowledge”. Hopefully even more actors from different communities will find their way to this event to give their valuable input into shaping the future of a global data-driven society.
 

The 11th RDA Plenary Meeting will take place from the 21st to the 23rd March 2018 in Berlin, Germany. Under the theme "From Data to Knowledge", the Plenary meeting welcomes the participation of all data scientists, experts and practitioners engaged in the advancement of data-driven science and economy.

View the highlights and register now: early bird rates end on 9th February 2018.
 

Additional information:

11th RDA Plenary Meeting
Blog: Datatulevaisuus on meidän käsissämme (in Finnish)

 

PICTURE: THINKSTOCK

Blogger: Irina Kupiainen Blog Topic: Data

Loppuunmyydyillä” Oliopäivillä Tampereen teknillisellä yliopistolla (TTY) joulukuussa oli perinteiseen tapaan tiiviydestä huolimatta hyvä tunnelma, ja päivät toimivat laajana katsauksena tekoälyn nykytilanteeseen. Käsittelen aiheita katsomassani tärkeysjärjestyksessä.
 


 

Pulurobotics

Toivon vihdoinkin tunnistaneeni historiallisen hetken: robotiikan läpimurron. Vaikka olen ollut varhainen Linux- ja Bitcoin-käyttäjä, kummankin merkitys suuremmassa mittakaavassa jäi minulta kiireisessä käyttöönotossa huomaamatta. Nyt avoinlähdekoodi on mullistamassa robotiikan.

Pulurobot on Rasberry Pi -alustalle rakennettu edullinen, itsenäinen alusta, joka pystyy SLAM-menetelmään perustuen navigoimaan tilassa, löytämään pistorasian ja lataamaan itsensä tai jopa seuraamaan käyttäjää. Käyttäjän seuraamisella tarkoitetaan robotin reaaliaikaista 3D-konenäköä, jonka lähdekoodi on julkaistu avoimena. 
 

Yle

Yleisradio ajaa muun muassa video- ja äänitallenteita Googlen palveluiden läpi, jotta se voi kerätä näistä tekstiksi muuntuvat metatiedot. Lisäksi tutkitaan tv- ja radio-ohjelmia välittävän verkkopalvelu Yle Areenan käyttäjiä ja yritetään ryhmitellä sisältöä siten, että vierailijoille voidaan tarjota osuvia suosituksia. 
Osalla käyttäjistä on Yle-tunnus, johon on voinut vapaaehtoisesti täydentää ikä- ja sukupuolitietonsa. Näiden käyttäjien perusteella Yle yrittää ennustaa myös muiden käyttäjien tietoja. Suuren haasteen tähän muodostaa yleinen tapaus, että yhdellä ”ruudulla” voi olla samanaikaisesti monta katsojaa. Toinen ongelma ovat suuret vaihtelut katsoja- ja kuuntelijamäärissä: esimerkiksi hallituskriisit ja urheilukisat. Tämä aiheuttaa sen, että A/B-testaus voi viedä jopa kolme kuukautta.

Yle Areenalla on muuten luokkaa viisi miljoonaa käyttäjää ja 60 000 sisältöä.
 

Arvovalintojen etiikka ja tietoturva

Koneoppiminen perustuu suuriin datamääriin. Data on yleensä valikoitunutta ja sisältää häiriöitä, eli sen käyttö vaatii eettisiä valintoja. Esityksessä painotettiin, että myös perinteinen ohjelmointi on todellisuudessa vaatinut arvovalintoja. Lopputuloksen läpinäkyvyys ja yhteiskunnallinen hyväksyttävyys edellyttääkin koneoppimisessa erilaisten valintojen avointa dokumentointia.

Tietoturvauhat ovat nykyisin niin moninaisia ja turvajärjestelmät tuottavat niin paljon vääriä hälytyksiä, että niitä pitää karsia koneoppivalla järjestelmällä.
 

Huawei

Vaikka kännyköitä on kutsuttu älykännyköiksi siitä asti, kun niillä alkoi päästä internetiin, on älypuhelimia valmistava kiinalaisyhtiö Huawei nyt oikeasti lisännyt prosessoriin neuroverkkopiitä, joka tosin suorittaa vain valmiita toimia – opettaminen vaatii edelleen enemmän laskentatehoa. Suuri mullistus on tapahtunut esimerkiksi kuvankäsittelyssä, jossa 200 TTY:n huippudiplomityötä ovat vanhentuneet, sillä niissä kehitetyt algoritmit on korvannut tehokkaampi ja laadukkaamman tuloksen tuottava neuroverkko. Myös tähtitieteessä oppinut kone voittaa parhaatkin ihmisen keksimät kuvankäsittelyalgoritmit.  

Lisäksi pohdittiin erikseen, vieläkö ihmisiä tarvitaan algoritmien kehitykseen. Vastaus oli myönteinen, mutta kuten kuvankäsittelyesimerkki osoitti, muutoksia tapahtuu. Paneelissa tekoälyn määritelmäksi tulikin: Koneoppiminen on tekoälyä silloin, kun lopputulos on myös laadullisesti parempi kuin mitä se olisi ihmisen tekemänä. 

 

 

KUVAT: THINKSTOCK, PEKKA JÄRVELÄINEN

Blogger: Pekka Järveläinen Blog Topic: Data

Modern IT infrastructure allows many possibilities for enhancing research and education. However, exploiting IT infrastructures' full potential is not always trivial, and high-quality training is an essential part for taking most out of it.

CSC has versatile offering in scientific computing, data networks and data management as we provide each year close to 100 training events in the form of various courses, workshops, seminars etc. As lecturers and trainers in these events, we use leading experts both from CSC and external organizations. Participants are generally very satisfied, in 2016 the average overall score in course feedback was 8.9 (in scale of 1–10).

CSC supports higher education also by sharing training material, whose content can be incorporated into larger courses. CSC's training material is normally made available via Creative Commons license. Information about future and past training events together with their material can be found in the CSC Training portal. Training portal contains also some highlights of our material as well as compilation into larger packages in the materials section of the portal. Some material (especially hands-on exercises) is provided also in GitHub.

CSC provides training in well-established approaches, but we look also for bleeding-edge technologies, as an example one of the first practical programming courses for quantum computing in Europe was arranged at CSC in 2016. We monitor regularly the needs of our customers, and try to address missing competencies.
 

Affordable pricing

Due to the agreement made with the Ministry of Education and Culture, CSC training events are heavily subsidized for higher education institutions. Typically, a single training day costs 60 € per participant. Printed material, lunch, and morning and afternoon coffees are normally included in the price. Some special trainings can have higher pricing, while some trainings receiving additional funding are provided free of charge.
 

PRACE Advanced Training Centre at CSC

The Partnership for Advanced Computing in Europe (PRACE) is a pan-European high-performance computing infrastructure operated in a collaboration between European supercomputing centers. The main focus of PRACE training is in high-performance computing, but also other aspects of scientific computing are covered. CSC is one of the six PRACE Advanced Training Centers (PATCs), and each year CSC provides 9–12 training events within the PATC program. The PATC events are free of charge for all participants.
 

Webinars

CSC provides regularly webinars on various topics related to CSC services. CSC Webinar is a short, on-line technical talk followed by a free-form discussion of the topic at hand or of other issues raised during the discussion. Webinars are also recorded and made available for later viewing in CSC's Youtube channel. Upcoming webinars can be found in the CSC Training portal; we are also happy to receive suggestions for webinar topics.
 

Customized training

Courses in our portfolio can also be customized to more specific needs, and trainings can be organized in customers’ own facilities. Customized training is offered at a case-by-case price.
 

International trainings

CSC participates actively in several European projects which provide training outside Finland. These trainings are provided also for Finnish participants with very affordable prices.

Finnish researchers can participate in the PRACE training events also outside Finland free of charge. Information about PRACE face-to-face training events can be found in the PRACE Training Portal. PRACE provides also open on-line courses.

EUDAT is a collaborative data infrastructure, a common model and service infrastructure for managing data spanning all European research data centers and community data repositories. EUDAT training is focused on research data management. More information can be found in the EUDAT training portal.

ELIXIR is an intergovernmental organization that brings together life science resources from across Europe. Provided training materials and training courses can be found in the Elixir training portal.

Nordic e-Infrastructure Collaboration (NeIC) is an organization that facilitates the development and operation of high-quality e-Infrastructure solutions in areas of joint Nordic interest. The NeIC training portal collects information about various trainings available in Nordic countries. NeIC provides also travel grants for participating Nordic training events.

Interested to find out more? Subscribe to our training newsletter!
 

Highlights of 2018 trainings


KUVA: THINKSTOCK

Blogger: Jussi Enkovaara Blog Topic: Software Science and research Data HPC
— 20 Items per Page
Showing 1 - 20 of 40 results.