CSC Blog has moved

Find our blogs at www.csc.fi/blog.

This site is an archive version and is no longer updated.
 

Go to CSC Blog
RSS

Entries with Blog Topic Science and research .

Marraskuun 2019 lopussa uusi koronavirus alkoi tarttua ihmisiin Kiinassa. Virukselle annettiin nimeksi SARS-CoV-2 (Acute Respiratory Syndrome-related coronavirus 2) ja WHO alkoi kutsua viruksen aiheuttamaa sairautta nimellä COVID-19.

Iso-Britannian Imperial Collegen ja kotimaisen THL:n mallitusten mukaan koronaviruksen suurin aalto on tulossa Eurooppaan huhti-toukokuussa. Aalto alkaa vyöryä jo. Italia raportoi noin 500 ihmisen kuolleen yhden vuorokauden aikana koronaviruksen aiheuttamiin komplikaatioihin. 

Tutkimus on tunnistanut yli tuhat ihmiseen vaikuttavaa virusta. Moni näistä aiheuttaa infektion – elimistön normaalin biokemiallisen puolustusreaktion. Koronaviruksen kaltaisen vakavan infektion syyn ja taudinaiheuttajan ilmaantuminen oli siten vain ajan kysymys. Ihmiset elävät silmälle näkymättömien mikrobiologisten elämänmuotojen viidakossa. Eihän ole kuin pari sukupolvea, kun tuhkarokon ja isorokon kaltaiset virukset sairastuttivat kymmeniä tuhansia ihmisiä saman tapaan joka vuosi.

Tällä hetkellä terveydenhuollolla ei ole lääketieteellisiä työkaluja kuten rokotteita ja lääkeaineita koronavirusta vastaan. Keinoina käytetäänkin nyt samoja konsteja kuin sata vuotta sitten espanjantaudin tapauksessa: koulut ja huvittelupaikat suljetaan ja ihmisten liikkumista rajoitetaan. 

Isorokon aiheuttaja on variolavirus. Säännölliset rokotukset isorokkoa vastaan alkoivat 50-luvulla, ja tauti on onnistuttu käytännössä hävittämään ihmiskunnasta. Virusten toiminnan tutkimus ja hoitokeinojen kehitys ovat pitkäjänteistä toimintaa. Kun etsimme rokotetta ihmishenkiä uhkaavia ja yhteiskuntia lamauttava uusia viruksia vastaan, voimme vain nojautua olemassa olevaan, jo kerrytettyyn tutkimustietoon.   

Perustutkimus, jonka avulla kriiseihin pystytään varautumaan, vaatii rahoitusta. Terveyskriiseihin ei pysty reagoimaan ketterällä on-demand bisneslogiikalla. Infrastruktuurin rakentamista ei voi aloittaa siinä vaiheessa, kun kriisi on käynnissä.

Tutkimusinfrastruktuurit ovat virustiedon säilytys- ja jakelupaikkoja. Nämä ekosysteemit koostuvat laitteistoista, tietoverkoista, tietokannoista, aineistoista ja palveluista. Ne muodostavat globaalin tiedon vaihtamisen verkoston ja mahdollistavat eri vaiheissa tapahtuvan, kansalliset rajat ylittävän tutkimusyhteistyön.

Tiedon vaihto täytyy olla luotettavaa. Kokemuksesta hyvä toimija on tutkimusinfrastruktuuri, joka kerää, ylläpitää, säilyttää ja yhdistää biologisen ja lääketieteellisen tutkimuksen tuottamaa aineistoa ja sen tarvitsemaa dataa. Dataa ovat esimerkiksi molekyylibiologinen tieto sekä lääkeaineiden rakenteet, toiminta ja turvallisuus. 

Luotettuja  kansainvälisiä tutkimuksen tietokantoja ovat esimerkiksi European Nucleotide Archive (ENA), josta koronaviruksenkin genomi on saatavana, sekä Universal Protein Resource (Uniprot), johon kerätään proteiinien, solun osien ja eliöiden toimintojen dataa.

Kun tutkijat suunnittelevat rokotetta koronavirukseen, he käyttävät avoimia biologisen tietojen tietokantoja ja dataintensiivistä laskentaa. CSC osallistuu näihin talkoisiin. Se on avannut koronaviruksen tutkimusta helpottavan ohituskaistan tutkijoille, mikä mahdollistaa pääsyn superlaskentaan ja kansalliset rajat ylittävän datan hallintaan (European Data Space, Digital Europe).

Nopean, tietoon pohjautuvan päätöksenteon ja reagoinnin edellytys on, että tiedosta vastaavat tahot (kuten rekisterinpitäjät) tekevät tiedosta yhteentoimivaa ja koneluettavaa. Tietoja kerätään mm. tilastoinnin, terveydenhuollon, tutkimuksen ja päätöksenteon tarkoituksiin, mutta tätä dataa tulisi voida kriisitilanteessa hyödyntää myös alkuperäisestä tarkoituksesta poikkeavaan toisiokäyttöön, kuten  tieteelliseen tutkimukseen. Tätä säätelee niin sanottu toisiolaki, joka tuli voimaan keväällä 2019.

Miten varautuisimme jatkossa koronaviruksen kaltaisiin tsunameihin?  Jatkuva tiedonkeruu, tutkimus ja datainfrastruktuurin ylläpito virusten ja bakteerien ekosysteemeistä olisi parasta riskienhallintaa. Löydettyihin viruksiin voitaisiin ennaltaehkäisevästi kehittää rokoteaihioita ja lääkeaineita, jolloin kriisin puhjetessa terveydenhuollon hoitovarustelun kehitys olisi rivakampaa. Loppujen lopuksi, satojenkin miljoonien investoinnit tähän infrastruktuuriin ja osaamiseen tuntuvat nopeasti nousevan kuolleisuuden ja syvän, pitkäkestoisen globaalin talouskriisin valossa lähes taskurahoilta.


Lisätietoja:

CSC tarjoaa resursseja COVID-19-pandemian vastaiseen tutkimukseen

CSC:n varautuminen koronaviruksen aiheuttamaan poikkeustilanteeseen

Koronavirusskenaariot seuraavalle 18 kuukaudelle

Uusia COVID-19 SARS-CoV-2 tutkimuksia

Ihmiseen tarttuvat virukset

UK Imperial college COVID-19 leviämisennuste

Rokotteilla hävitetyt taudit  

Lääkkeitä laskemalla

COVID-19 proteiinin uusia lääkeaihioita laskennallisilla menetelmillä

Euroopan bioinformatiikan infrastruktuuri ELIXIR

Kuva: Adobe Stock
Taulukko: Picture modified from publicly shared Imperial College COVID-19 Response Team article from https://www.imperial.ac.uk/

 
“Tommi Nyrönen

Tommi Nyrönen

Dr. Tommi Nyrönen leads a team of experts in the European Life Science Infrastructure for Biological information ELIXIR at CSC.

tommi.nyronen(at)csc.fi

 

Twitter: @nyronen
Linkedin: https://www.linkedin.com/in/nyronen
puh. +358503819511

 

Blogger: Tommi Nyrönen Blog Topic: Data HPC Science and research

At the end of November 2019, a new type of virus began to infect humans in China. The virus was named SARS-CoV-2 (acute respiratory syndrome-related coronavirus 2), and WHO started calling the viral illness COVID-19.

According to the models produced by Imperial College London and the Finnish Institute for Health and Welfare, the biggest wave of coronavirus will hit Europe in April and May. The impacts of the wave are already being felt. It has been reported that in Italy, about 500 people have died of the complications from coronavirus within a period of 24 hours.

Scientists have identified more than one thousand different viruses affecting humans. Many of them cause infections, which are normal biochemical reactions of the human body to the infectious agents. Thus, it was only a matter of time before a pathogen causing a serious infection such as coronavirus would appear. We are surrounded by a vast variety of microbiological life forms that are invisible to human eye. In fact, only two generations ago, tens of thousands of people were infected with viral diseases, such as measles and smallpox, every year.

There is still no treatment or vaccine for coronavirus and the measures now used are the same as during the Spanish influenza pandemic 100 years ago: schools and places of entertainment are closed and there are restrictions on people’s movements.

Smallpox is caused by the variola virus. Regular vaccinations against smallpox began in the 1950s and the disease has been practically eradicated from the world. Studying the behavior of viruses and developing treatments are long-term activities. When we are developing vaccines against new viruses threatening human lives and paralyzing societies, we rely on existing information produced by research.

Basic research helping us to prepare for crises requires sustained funding. Reactions to health crises cannot be based on agile on-demand business logic and we cannot start building the infrastructure when the crisis is already on.

Research infrastructures are places where virus data is stored and where it is available. These ecosystems consist of hardware, information networks, databases, documents and services. They form a global information exchange network and provide a basis for research cooperation at different stages across national borders.

The exchange of information must be carried out in a reliable manner. Experience has shown that a specialized organization, research infrastructure that collects, maintains, stores and combines findings produced by biological and medical research and data is a key actor in the overall process.. This data includes molecular biological information and the structures and functioning of medical substances as well as their safety.

Reliable international research databases include the European Nucleotide Archive (ENA), where the coronavirus genome is also available, and Universal Protein Resource (UniProt), which collects data on the functions of proteins, cell parts and organisms.

When researchers are developing a vaccine against coronavirus, they use open biological databases and data-intensive computing. CSC is a partner in this effort. It has opened a priority lane facilitating coronavirus research and provides access to supercomputing and management of data across national borders (European Data Space, Digital Europe).

A prerequisite for fast, knowledge-based decision-making and reactions is that the parties responsible for information (such as data controllers) make the information interoperable and machine-readable. Data is collected for such purposes as statistics, healthcare and decision making, but in a crisis, such data should also be made available for secondary purposes that differ from the original purpose (such as scientific research). Provisions on such applications are contained in the Finnish act on secondary uses of social and health data, which entered into force in spring 2019.

How should we prepare for future tsunamis that have similar impacts as coronavirus? Systematic collection of data, research, and maintenance of a data infrastructure containing information on viral and bacterial ecosystems would be the best way to manage risks. Investigational vaccines and medical substances could be developed more consistently to modulate discovered pathogens to be able to respond more quickly to a crisis. In the final analysis, even if we spent hundreds of millions of euros on this infrastructure and expertise, these sums would only be a fraction when compared with rapidly rising mortality rates and a prolonged and severe global economic crisis.

Further information:

Coronavirus scenarios for the next 18 months 

CSC offers resources for efforts against COVID-19 pandemic

CSC's preparations for the exceptional situation caused by coronavirus

Recent research on COVID-19 SARS-CoV-2

Viruses contagious to humans

Forecast of COVID-19 spread produced by Imperial College London

Diseases eradicated with vaccines (in Finnish)

Developing pharmaceuticals through computing (in Finnish)

Developing new prodrugs for COVID-19 protein with computational methods

European bioinformatics infrastructure ELIXIR

Image: Adobe Stock
Table: Picture modified from publicly shared Imperial College COVID-19 Response Team article from https://www.imperial.ac.uk/

 
“Tommi

Tommi Nyrönen

Dr. Tommi Nyrönen leads a team of experts in the European Life Science Infrastructure for Biological information ELIXIR at CSC.

tommi.nyronen(at)csc.fi

 
Twitter: @nyronen
Linkedin: https://www.linkedin.com/in/nyronen
puh. +358503819511
Blogger: Tommi Nyrönen Blog Topic: Data HPC Science and research

The EU’s digital policy has been a hot topic lately. Last week the European Commission published three significant strategies concerning digitalization, artificial intelligence and data. At the same time, the member states, the European Parliament the Commission are fighting over the size and priorities of the EU’s budget for the next seven years. The importance of the topic is emphasized by the fact that digital solutions are crucial for the realization of the Green Deal, the Commission’s other top priority.
 
The guiding document for the EU’s digital policy is the communication named “Shaping Europe’s digital future”. The communication draws together all the major policies concerning digitalization that the Commission intends to introduce during its five-year term. As in Finland’s government program, many topics are promised to be specified in strategies and reports that will be published later.

There are many favorable objectives in the communication. For example, climate neutrality of data centers by 2030 is easy to support. What comes to CSC, there is no need to wait for ten years; our data center in Kajaani is already carbon neutral. Next year it will even become carbon negative as the excess heat generated by our world-class supercomputer LUMI will be fed into the district heating network.

In order to achieve the carbon neutrality goal, it is necessary to place big, EU-funded computing facilities to environments where computation can be done ecologically. This opens up a possibility for Finland to act as a forerunner. Other warmly welcomed openings are, for example, investing in Europe’s strategic digital capacities and better access to health data, which will advance its use in research.

European perspectives on AI and data will sharpen with time

The Commission opened a discussion about the EU’s perspective on artificial intelligence (AI) in the form of a white paper. AI has great potential to act for the common good areas such as the health sector and transportation as well as by optimizing energy consumption. However, the use of AI includes also risks, which is why adequate legislation needs to be in place. The first half of the white paper lists actions that the EU plans to take in order to develop Europe’s AI capacities. It is especially important to develop high-performance computing, to deploy the FAIR principles (findability, accessibility, interoperability and re-usability) for data and to develop skills.

What comes to legislation, the white paper proposes new rules only for high-risk applications of AI. This is a sensible approach as many of the existing laws already concern AI. In addition, AI applications are very different in nature, and thus it does not make sense to regulate them all in the same manner. For no-high-risk applications, the Commission proposes a creation of a voluntary labelling system. Whatever actions will be taken with the regulation of AI, it is of utmost importance that there is one common set of rules for AI in the EU. It is the only way we can realize a true single market for data and AI.

In the third new document, data strategy, the EU aims to advance the usage and movement of data between member states and organizations. This will be realized by developing data sharing infrastructures and principles, such as interoperability and machine readability. A good starting point for interoperability is the European Interoperability Framework: data must be interoperable in technical, organizational, legal and semantic level. A completely new proposal is to create data spaces for certain strategic sectors; together these data spaces will form a single European data space. In the research world, this kind of data space has already been developed in the form of the European Open Science Cloud, which should be a good benchmark for others to start from. In order to succeed, it is vital that data really is interoperable, and that it moves between the sectors (research, public administration, business).

These three strategies lay out the digital policy of the EU for the next five years. However, in addition to policies and strategies, digitalization needs funding. Currently, the EU institutions and member states are negotiating a multiannual financial framework (MFF), i.e. the 7-year budget of the EU. MFF will determine how much EU money will be spent on research, digitalisation and competence building during the next seven years. Science and research get much attention in the politicians’ speeches, but in the EU’s budget, they seem once again to be superseded by old priorities. However, the negotiations are still far from done, so there remains hope that the Commission’s new policies will get some financial support to back them up.

 

Blogger: Ville Virtanen Blog Topic: Science and research Data HPC CSC: Blog Year: 2020

EU:ssa eletään digipolitiikan kannalta mielenkiintoisia aikoja. Viime viikolla komissio julkaisi kolme merkittävää strategia-asiakirjaa liittyen digitalisaatioon, tekoälyyn ja dataan. Samaan aikaan jäsenmaat, parlamentti ja komissio taistelevat seuraavien seitsemän vuoden budjetin koosta ja painotuksista. Aiheen tärkeyttä korostaa se, että digitaaliset ratkaisut ovat elintärkeässä asemassa EU:n toisen kärkihankkeen, Green Dealin eli vihreän kehityksen ohjelman, onnistumisessa.

EU:n digipolitiikkaa ohjaa tiedonanto liittyen Euroopan digitaaliseen tulevaisuuteen, joka on myös yksi komission kuudesta painopistealueesta. Tiedonannossa linjataan komission keskeisiä digipolitiikan tavoitteita ja hieman keinojakin näiden saavuttamiseen. Kotimaisen hallitusohjelmamme tapaan monista aiheista luvataan lisää selvityksiä ja linjauksia myöhemmin.

Tiedonannon konkreettisissa tavoitteissa oli paljon hyvää. Esimerkiksi tavoite datakeskusten hiilineutraaliudesta vuoteen 2030 mennessä on helppo allekirjoittaa. CSC:n puolesta ei tarvittaisi edes tätä kymmentä vuotta; Kajaanin datakeskuksemme on jo nyt hiilineutraali, ja ensi vuonna siitä tulee hiilinegatiivinen, kun uuden LUMI-supertietokoneen ylijäämälämpö syötetään kaukolämpöverkkoon.

Hiilineutraalisuustavoitteen saavuttamiseksi on tärkeää sijoittaa suuret EU-varoilla rakennettavat laskentaympäristöt sellaisiin paikkoihin, joissa laskentaa voidaan tehdä ympäristöystävällisesti. Tämä avaa Suomelle mahdollisuuden toimia edelläkävijänä. Muita tervetulleita linjauksia ovat muun muassa terveysdatan parempi saatavuus tutkimuskäyttöön sekä Euroopan digitaalisten kapasiteettien kehittäminen.

Euroopan näkökulmat tekoälyyn ja dataan tarkentuvat ajan kanssa

Komissio avasi myös keskustelun Euroopan näkökulmasta tekoälyyn valkoisen kirjan muodossa. Tekoälyllä on suuri potentiaali tuottaa yhteistä hyvää esimerkiksi terveydenhuollossa, liikenteessä ja energiankäytön optimoimisessa, mutta samalla sen käyttäminen sisältää myös riskejä. Valkoisen kirjan alkupuoli koostuu toimenpiteistä, joita EU aikoo toteuttaa Euroopan tekoälyvalmiuden kehittämiseksi. Erityisesti esille täytyy nostaa suurteholaskennan, datan FAIR-periaatteiden (löydettävyys, saatavuus, yhteentoimivuus ja uudelleenkäytettävyys) ja osaamisen kehittämisen tärkeys.

Lainsäädännön osalta asiakirjassa ehdotetaan uutta sääntelyä vain korkean riskin tekoälyn sovelluksiin. Tämä kuulostaa järkevältä, sillä monet jo olemassa olevat säädökset koskevat myös tekoälyä. Lisäksi on otettava huomioon, että tekoälyn sovelluksia on hyvin erilaisia, eikä olisi tarkoituksenmukaista säännellä niitä kaikkia samalla tavalla. Muille kuin korkean riskin sovelluksille ehdotetaan vapaaehtoista sertifikointijärjestelmää, mikä on myös tervetullut ajatus. Sisämarkkinoiden toimivuuden kannalta on pääasia, että tekoälyn sovelluksille on yhdet yhteiset säännöt ja sertifikaatit.

Datastrategiassaan EU pyrkii edistämään datan liikkuvuutta maiden ja organisaatioiden välillä kehittämällä datan jakamisen infrastruktuureja ja periaatteita, kuten yhteentoimivuutta ja koneluettavuutta. Yhteentoimivuuden osalta hyvänä lähtökohtana toimivat eurooppalaiset yhteentoimivuusperiaatteet: datan pitää olla yhteentoimivaa niin teknisellä, organisatorisella, semanttisella kuin lainsäädännölliselläkin tasolla. Uutena konkreettisena ehdotuksena on perustaa strategisille sektoreille omat data-avaruutensa, joista yhdessä muodostuu yksi suuri eurooppalainen data-avaruus. Tutkimuspuolella tällaista datapalvelua on jo edistetty Euroopan avoimen tieteen pilvipalvelun muodossa, joten aivan alusta ei tätä harjoitusta tarvitse aloittaa. Onnistumisen kannalta olennaista on jo mainittu yhteentoimivuus, sekä se, että data todella saadaan liikkumaan eri sektoreiden (tutkimus, julkishallinto, elinkeinoelämä) välillä.

Nämä kolme strategiaa linjaavat hyvin pitkälti sen, mitä EU seuraavan viiden vuoden aikana digipolitiikan saralla tulee tekemään. Oman lisämausteensa soppaan tuovat parhaillaan käytävät neuvottelut EU:n monivuotisesta rahoituskehyksestä. Rahoituskehys määrittää, kuinka paljon EU:n varoja tullaan seuraavien seitsemän vuoden aikana käyttämään tutkimukseen, digitalisaation edistämiseen ja osaamisen kehittämiseen. Digitalisaatio, tiede ja tutkimus saavat paljon huomiota juhlapuheissa, mutta budjetissa ne näyttävät valitettavasti tälläkin kertaa jäävän vanhojen painopisteiden jalkoihin. Neuvottelut ovat kuitenkin pahasti kesken, joten vielä on toivoa, että komission uudet linjaukset saavat taakseen myös rahallista tukea.

 

Blogger: Ville Virtanen Blog Topic: Science and research Data HPC CSC: Blog Themes: Kestävä tulevaisuus Viewpoints: Supertietokoneet Datan arvon maksimointi Vipuvoimaa tekoälystä

Starting January 1st, 2020, Schrödinger’s Maestro GUI, Small Molecule Drug Discovery, and Materials Science software applications are available for free for all academic users in Finland. At the same time, we have scaled down licenses for Biovia's Discovery Studio and Materials Studio. Please, check out also the rest of the application portfolio at docs.csc.fi/apps

Maestro is available on Puhti, and also for local installation

The Maestro GUI can be downloaded and installed on your local computer and heavier calculations or complete modeling workflows can be run on CSC’s Puhti supercomputer.

Schrödinger’s software platform integrates first-in-class solutions for predictive modeling, data analytics, and collaboration to enable rapid exploration of chemical space. An integrated graphical user interface allows users to design and run multi-stage workflows to be run on supercomputers. Schrödinger software has already been used in Finland in several research groups and companies for years, but especially new users will benefit from a wide selection of training materials.

Hands-on workshops to facilitate newcomers and power users

In November 2019 and January 2020 CSC organized training events with Schrödinger specialists Dr. Stefan Ehrlich, Dr. Simon Elliott and Dr. Laura Scarbath-Evers to bring new users up to speed on the best ways to apply the software.

The November workshop targeted the Drug Discovery and Small Molecule researchers and it started with a beginner’s day followed by another with advanced topics. The January workshop covered basic usage for Materials Science and featured case examples related to atomic layer deposition (ALD), which is a particular speciality of Finnish materials R&D. Both workshops were streamed online for remote participants.

Simon Elliott presenting how high throughput computational screening can help in the search for better ALD precursor molecules.

According to Simon Elliott, "Schrödinger’s Materials Science platform has specialized structure builders for everything from soft polymers to hard surfaces, smoothly interfacing with efficient molecular mechanics or quantum mechanics computations."

The workshop included a quick introduction to quantum mechanics and reciprocal space, before exploring the workflows in the Quantum Espresso graphical interface.

Dr. Laura Scarbath-Evers actually has prior experience on CSC resources. She was visiting Prof. Patrick Rinke from Aalto University in 2018 via the HPC-Europa3 research mobility programme.

“The research mobility stay with HPC-Europa3 was an amazing experience and I would recommend it to any other researcher who is already doing modelling or plans to get involved with it. It enhances the exchange within the scientific community and helps to build international collaborations. Additionally, researchers who come to the CSC - IT Center for Science for their HPC-Europa3 stay can now use the Schrödinger Materials suite which is another huge benefit.”

How to get access to the Schrödinger software?

The complete CSC software selection can be browsed online on our new user guide: docs.csc.fi/apps Select Maestro from the list and follow the instructions. You will need to create an account at Schrödinger to download the installation file (for Windows, Linux or Mac). Please select the non-academic, full functionality version. Note, that there are four updates every year and that installation requires admin privileges on your computer. Also, note the instructions on how to configure your installation to use the national license.

Master Maestro quickly

Schrödinger has lots of good material online either for self-study or to be used in training; please consult our Maestro page for recommendations.

Schrödinger also arranges intro online sessions. In February, they will have online Q&A sessions (2/week) so that you can log in at any time and ask anything you're interested in.

If you would like to have training in some particular topic, let us or Schrödinger know and we’ll organize an event given enough interest. In any case, hands-on training events are planned at CSC in autumn 2020, which will also be streamed online for remote participants.

Limited access for Discovery Studio and Material Studio in 2020

For year 2020 CSC has obtained a limited license for Biovia's Discovery Studio and Material Studio. The same functionality will be available as before, but the maximum number of simultaneous users will be limited. Thus, it may occur that at some occasions Discovery Studio or Material Studio can’t be used because all the licenses are in use. Therefore, if you're not actively using it, please close the GUI. In the longer run, please consider migrating to use Maestro, or some other software available through CSC.
 

 

Blogger: Atte Sillanpää Blog Topic: Software Science and research CSC: Blog Themes: Laskennallinen tiede Viewpoints: Supertietokoneet

If you follow CSC on social media you might have noticed a recent announcement about a new service based on OKD/Kubernetes called Rahti. This new service allows you to run your own software packaged in Docker containers on a shared computing platform. The most typical use case is web applications of all sorts. In this blog post I will provide additional context for the announcement and more detail and examples about what Rahti is and why it’s useful.

CSC has been running cloud computing services for a while. The first pilot systems were built in 2010 so the tenth anniversary of cloud computing at CSC is coming up next year. All of CSC’s previous offerings in this area – cPouta, ePouta and their predecessors – have been Infrastructure as a Service (IaaS) clouds. In this model, users can create their own virtual servers, virtual networks to connect those servers and virtual disks to store persistent data on the servers. This gives you a lot of flexibility as you get to choose your own operating system and what software to run on that operating system and how. The flip side is that after you get your virtual servers, you are on your own in terms of managing their configuration.

Rahti takes a different approach. Instead of a virtual machine, the central concept is an application. The platform itself provides many of the things that you would need to manage yourself in more flexible IaaS environments. For example:

  • Scaling up applications by adding replicas
  • Autorecovery in case of hardware failures
  • Rolling updates for a set of application replicas
  • Load balancing of traffic to multiple application replicas

Not having to manage these yourself means you can get your applications up and running faster and  don’t have to spend as much time maintaining them. What enables this is standardization of the application container and the application lifecycle. In IaaS clouds you have a lot of choice in terms of how you want to make your application fault tolerant and scalable. There are many software products available that you can install and configure yourself to achieve this. With Rahti and other Kubernetes platforms, there is one standard way. This simplifies things greatly while still providing enough flexibility for most use cases.

Based on the description above you might think that Rahti fits into the Platform as a Service (PaaS) service model. While there are many similarities, traditional PaaS platforms have typically been limited in terms of what programming languages, library versions and tools are supported. It says so right in the NIST Definition of Cloud Computing: “The capability provided to the consumer is to deploy onto the cloud infrastructure consumer-created or acquired applications created using programming languages, libraries, services, and tools supported by the provider.” These limitations are largely not there in Rahti or other Kubernetes platforms: if it runs in a Docker container, it most likely also runs (or can be made to run) in Rahti. You are free to choose your own programming language and related libraries and tooling yourself.

Setting up Spark in Rahti

One of the big benefits of Rahti is that complex distributed applications that would be difficult to install and configure on your own on virtual machines can be packaged into templates and made available for a large number of users. This means figuring out how to run the application has to be done only once – end users can simply take the template, make a few small customizations and quickly get their own instance running. You are of course also free to create your own templates and run your own software.

One example of a distributed application that can be difficult to install and manage is Apache Spark.   It is a cluster software meant for processing large datasets. While it is relatively simple to install it on a single machine, using it that way would defeat the point of running Spark in the first place: it is meant for tasks that are too big for a single machine to handle. Clustered installations on the other hand mean a lot of additional complications: you need to get the servers to communicate with each other, you need to make sure the configuration of the cluster workers is (and stays) somewhat identical and you need to have some way to scale the cluster up and down depending on the size of your problem – and the list goes on.

Let’s see how one can run Spark in Rahti. The template that we use in Rahti is available on GitHub and the credit for it goes to my colleagues Apurva Nandan and Juha Hulkkonen. And yes, I know that is actually the Hadoop logo.

First select “Apache Spark” from a catalog of applications:

You can also find other useful tools in the catalog such as databases and web servers. After selecting Apache Spark, you’ll get this dialog:

Click next and enter a few basic configuration options. There are many more that you can customize if you scroll down, but most can be left with their default values:

After filling in a name for the cluster, a username and a password, click “Create” and go to the overview page to see the cluster spinning up. After a short wait you’ll see a view like this:


The overview page shows different components of the Spark cluster: one master, four workers and a Jupyter Notebook for a frontend to the cluster. These run in so called “pods” that are a collection of one or more containers that share the same IP address. Each worker in the Spark cluster is its own pod and the pods are distributed by Rahti on separate servers.

From the overview page you can get information about the status of the cluster, monitor resource usage and add more workers if needed. You can also find a URL to the Jupyter Notebook web interface at the top and if you expand the master pod view you can find a URL to the Spark master web UI. These both use the username and password you specified when creating the cluster.

If you need a more powerful cluster you can scale it up by adding more workers. Expand the worker pod view and click the up arrow next to the number of pods a few times:

You can then follow the link from the overview page to Jupyter Notebook which acts as a frontend for the Spark cluster.

And that’s all there is to it! The process for launching other applications from templates is very similar to the Spark example above. The plan for the future is to add more of these templates to Rahti for various types of software in addition to the ones that are already there.

If you’re interested in learning more about Rahti, you can find info at the Rahti website or you can contact servicedesk@csc.fi.

Photo: Adobe Stock

 

 

Blogger: Risto Laurikainen Blog Topic: Science and research Data HPC CSC: Blog News Categories: Research Themes: Laskennallinen tiede

Recently, the CSC policy for free and open source software was posted without any celebration. It is under our Github organization and you can check it out at:

https://github.com/CSCfi/open-source-policy

Our tuned down approach stemmed from the fact that not much changed with the adoption of the policy. It pretty much stated the already established approach to endorsing open source software in our daily work.  The paths of CSC and open source have crossed from the very beginning, when we were in the happy position to offer the platform for distributing the very first version of the Linux operating system – and were of course early adopters of Linux in our operations.

CSC is a non-profit state enterprise embracing free and open source software throughout the operations and development. For us, open source software together with open data and open interfaces are the essential building blocks of sustainable digital ecosystems. CSC employees haven’t been shy of using and producing open source, but we still wanted to codify the current de facto practices and to encourage employees to go on supporting open source.

The major decision when formulating the policy was to put special emphasis on collaboration. We’ve been involved in dozens of open source projects and seen the realities of community building efforts. Community building is hard work.

The policy aims to encourage practices that in the best possible way encourage collaboration and contributing within the open source community. We find that the best way to do it is to embrace the licensing practices of the surrounding community. For some types of applications it might mean GPL licensing, where as increasingly the norm has been to use permissive licenses and to not enforce contributor agreements.

We have been happy contributors to projects such as OpenStack and felt extremely delighted to be also in the receiving side when working as main developers of software such as Elmer and Chipster. Every contribution counts and even the smallest ones usually carry some expertise or insight that broadens the scope of the project.

Finally, the policy aims to be concise and practical. It should offer guidance to everyday working life of CSC people who are part of the large open source community. So we did not want to make it a monolithic document written in legal language that would have been foreign to almost all of the developers in the community.

Happy coding!

P.S. If you would like to use the policy or parts of it for your organization or project, please do so! It is licensed under CC-BY 4.0, so there are no restrictions on reuse. Obviously, this is the licensing recommendation for documentation we give in the policy!

Photo: Adobe Stock

Blogger: Aleksi Kallio Blog Topic: Software Science and research HPC CSC: Blog News Categories: Research Themes: Laskennallinen tiede Viewpoints: Tutkimusverkot

Our trusted workhorse Sisu is ending its duty during this month after respectable almost seven years of operation.

Sisu started its service in the autumn of 2012 as a modest 245 Tflop/s system featuring 8-core Intel Sandy Bridge CPUs, reaching its full size in July 2014 with a processor upgrade to 12-core Intel Haswell CPUs and increasing the number of cabinets from 4 to 9. The final configuration totalled 1688 nodes and 1700 Tflop/s theoretical performance. At best, it was ranked the 37th fastest supercomputer in the world (Top500 November 2014 edition). It remained in among the 100 fastest systems in the world for three years, dropping to position #107 in the November 2017 list.

Throughout its service, Sisu proved itself as a very stable and performant system. The only major downtime took place when there was a major disaster that took down the shared Lustre filesystem.

During the course of years, Sisu provided over 1.7 billion core hours for Finnish researchers, playing a major role in several success stories in scientific computing in Finland. Just a couple of examples:

In addition to being a highly utilized and useful Tier-1 resource, it acted as a stepping stone for several projects that obtained the heavily competed PRACE Tier-0 access on the Piz Daint system in Switzerland and other largest European supercomputers. Without a credible national Tier-1 resource, establishing the skills and capacities for using Tier-0 resources would be hard if not impossible.

Sisu also spearheaded several technical solutions. It was among the first Cray XC supercomputers in the world with the new Aries interconnect. In the second phase it was equipped with Intel’s Haswell processors weeks before they had been officially released. It also heralded a change in hosting for CSC. Instead of the machine being placed in Espoo in conjunction with the CSC offices, it was located in an old papermill in Kajaani. This change has brought major environmental and cost benefits, and has been the foundation for hosting much larger machines.

Sisu was the fastest computer in Finland throughout its career, until last month when CSC’s new cluster system Puhti took over the title. Puhti will be complemented by the end of this year by Sisu’s direct successor Mahti, which will again hold the crown for some time. Puhti is currently under piloting use and becomes generally available during August, Mahti at the beginning of next year. Sisu has done its duty now and we wish it a happy retirement. Hats off!

 

Blogger: Jussi Heikonen Pekka Manninen Sebastian von Alfthan Blog Topic: Science and research HPC CSC: Blog News Categories: Research Themes: Laskennallinen tiede

March has been the month for the Spring School in Computational Chemistry for last 8 years. This time the school was overbooked already in November so if you want to join next year, register early.

Correspondingly, we decided to accept more participants than before resulting in tight seating and parallel sessions also for the last day hands-ons of the School. 31 researchers from Europe and beyond spent four science-packed days in occasionally sunny Finland.

Three paradigms in three days

The foundations of the school - the introductory lectures and hands-on exercises of (classical) molecular dynamics and electronic structure theory - have been consistently liked and found useful and have formed the core with small improvements.

For the last four years we've integrated the latest research paradigm, i.e. data driven science, also known as, machine learning (ML) to the mix. This approach has been welcomed by the participants, in particular as the lectures and hands-on exercises given by Dr. Filippo Federici Canova from Aalto University have been tailored for computational chemistry and cover multiple approaches to model data. ML is becoming increasingly relevant, as one of the participants, Mikael Jumppanen, noted in his flash talk quoting another presentation from last year: "Machine learning will not replace chemists, but chemists who don't understand machine learning will be replaced."

The ML day culminated in the sauna lecture given by prof. Patrick Rinke from Aalto University. He pitted humans against different artificial intelligence "personalities". The competition was fierce, but us humans prevailed with a small margin - partly because we were better at haggling for scoring.

Food for the machines

This year we complemented the ML session with means to help create data to feed the algorithms. Accurate models require a lot of data, and managing hundreds or thousands of calculations quickly becomes tedious.

Marc Jäger from Aalto University introduced the relevant concepts, pros and cons of using workflows, spiced with the familiar hello world example. It was executed with FireWorks, a workflow manager popular in materials science. Once everyone had succeeded in helloing the world, Marc summarized that "this was probably the most difficult way of getting those words printed", but the actual point was, that if there is a workflow, or a complete workflow manager, which suits your needs, someone else has done a large part of the scripting work for you and you can focus on the benefits.

Workflow managers of course aren't a silver bullet beneficial in all research, but in case you need to run lots of jobs or linked procedures, automating and managing them with the right tool can increase productivity, document your work and reduce errors.

What to do with the raw data?

How do you make sense of the gigabytes of data produced by HPC simulations? It of course depends on what data you have. The School covered multiple tools to make sense of you data.

Visual inspection is a powerful tool in addition to averages, fluctuations and other numerical comparisons. MD trajectories or optimized conformations were viewed with VMD, electron density and structure were used to compute bonding descriptors using Multiwfn and NCIPLOT and a number of python scripts employing matplotlib for result visualization were given as real life examples on current tools.

To brute force of not to brute force?

Although computers keep getting faster, brute forcing research problems is not always the right way. In one of the parallel tracks on the last day, Dr. Luca Monticelli built on top of the MD lectures of the first day by presenting 6+1 enhanced sampling techniques to enable proper study of rare events.

The last one, coarse graining, strictly speaking is not an enhanced sampling method, but as it is orders of magnitude faster than atomistic simulations it can be used to equilibrate a system quickly enabling switching to atomistic detail from truly independent configurations.

Posters replaced with flash talks

The previous Spring Schools have included the possibility to present posters to facilitate the discussion among participants of one's own research with other participants and lecturers. Posters have helped to discover potential collaborations and new ideas to apply in one’s own research.

There is a lot of potential for collaboration as the School participants come from a highly diverse background as shown in the wordcloud below. The wordcloud is created from the descriptions filled in by the participants at the registration step.

Word Cloud: Scientific background of the participants.

One participant suggested in last year's feedback to replace the poster session with flash talks, which we now did. Each participant was asked to provide one slide to introduce the background, skills and scientific interests, and the slides were used in three minute flash talks to everyone else. The feedback was very positive, so we will likely continue with flash talks also in 2020.

Networking with researchers is yet another motivation to participate in the school. Philipp Müller from Tampere University of Technology took the initiative and proposed a LinkedIN group for the participants to keep in contact also after the school. This was realized on the spot and now the group has already most of the participants signed up.

As potential collaborations are discovered, the HPC-Europa3 programme, also presented in the School, can be used to fund 3-13 week long research visits. Or, if you choose your research visit to take place in Finland in March 2020, you could also participate to the School at the same time.

Whom do the participants recommend the School?

For the first time we asked the participants for their recommendation on who would benefit in participating in the school. The answers range from any under or post-grad student in the field to everyone who needs any computational skills. One participant also confessed that spending some time to learn elementary Python (as suggested) before the School would have been useful. The computational tools known to the participants at registration are collected to the picture below.

Word Cloud: Computational tools used by the participants.

The feedback also emphasized the quality of hands-ons, social events, and overall organization, while the pace of teaching sparked also criticism. This is understandable as the School covers a wide range of topics and therefore it is not possible to go very deep into details. Also, as the background of the participants is heterogeneous some topics are easier for some, but new to others. Partially this has been mitigated by organizing the hands-on sessions of the first two days in three parallel tracks with different difficulty.

The great majority of the participants was satisfied with all aspects of the school. Actually, our original aim has been to introduce the most important fundamental methods and some selected tools so that the participants are aware of them, and in case an opportunity to apply them comes, a deeper study will anyway be necessary.

Materials available online

Most of the lectures and hands-on materials are available on the School home page. The hands-on exercises in particular also also suitable for self study - take a look!

More about the topic:

 

Blogger: Atte Sillanpää Blog Topic: Science and research HPC CSC: Blog News Categories: Research Themes: Laskennallinen tiede

Ymmärrystä oppimisanalytiikasta edistettiin 11.–12.10. EUNISin kansainvälisessä työpajassa, joka järjestettiin Aalto-yliopiston tiloissa Töölössä, Helsingissä. CSC oli mukana tukemassa tilaisuuden järjestämistä. Syksyiseen Helsinkiin paikalle saapui yli 70 osallistujaa kymmenestä maasta. Tapahtuma oli jatkoa viime vuonna Manchesterissa pidetylle tapahtumalle.

Oppimisanalytiikka on yksi tämän hetken keskeisimmistä teemoista koulutuksen kehittämisessä. Sen avulla edistetään opiskelijan oppimista, tarjotaan työkaluja opetuksen tueksi ja hyödynnetään arvioinnissa sekä osana tiedolla johtamista. Tärkeimpiä kysymyksiä tällä hetkellä ovatkin, mitä analytiikalla halutaan saavuttaa tai millaista parannusta sen hyödyntämisellä tavoitellaan. Muun muassa nämä kysymykset olivat työpajassa vahvasti esillä.

Tilaisuudessa osallistujat saivat oppimisanalytiikan asiantuntijoiden johdolla tutustua monipuolisesti analytiikan tarjoamiin mahdollisuuksiin. Keskeinen teema oli, miten analytiikka tukee koulutusta kokonaisuutena. Opetuksen ja oppimisen lisäksi analytiikkaa halutaan hyödyntää muun muassa johtamisen sekä organisaatiokehityksen tueksi. Esimerkiksi Aalto-yliopiston tavoitteena on olla vielä aiempaa enemmän tiedolla johdettu yliopisto. Analytiikka toimii tämän mahdollistajana.

Kiinnostusta ja intoa on laajalti, joten analytiikka tulee oppimiseenkin nyt vauhdilla ja sen hyödyntämisellä pystytään tulevaisuudessa tekemään uusia avauksia. Selkeänä viestinä oli kuitenkin, että tärkeää olisi pysähtyä ja tunnistaa tarpeet analytiikan käyttämiselle. Kysyä, mitä hyötyä analytiikasta on omalle organisaatiolle, opiskelijoille, opettajille, opetuksen kehittäjille ja johdolle; mihin analytiikan avulla halutaan päästä; ja mitkä analytiikan tuomat muutokset ovat organisaatioille tärkeitä.

Yksi mielenkiintoisista puheenvuoroista esitteli SHEILA-projektin, jonka tavoitteena on rakentaa eurooppalainen oppimisanalytiikan käytäntö. Analytiikka-asiat ovat osittain organisaatioiden sisäinen asia, mutta viitekehystyötä tehdään myös kansallisella tai jopa kansainvälisellä tasolla. Yi-Shan Tsai Edinburghin yliopistosta kertoi, että projektissa kehitetyt toimintatavat on koettu hyödyllisiksi. Pitäisikö meidän Suomessakin organisoitua paremmin analytiikan hyödyntämisen tueksi? Löytää yhdessä suunta, miten yhdistää algoritmit ja pedagogiikka toimivaksi kokonaisuudeksi? Työpajassa kävi jälleen ilmi, että heti alkuun tarvitaan määritelmä sille, mitä kaikkea oppimisanalytiikalla tarkoitetaan Suomessa tai mitä sillä ymmärretään.

Kansallinen oppimisanalytiikan viitekehystyö on alulla, ja sitä tehdään muun muassa opetus- ja kulttuuriministeriön alaisen analytiikkajaoston toimesta. Samalla kun organisaationne miettii omia tarpeitaan, olette tervetulleita osallistumaan työhön, jonka tavoitteena on luoda kansallisia suuntaviivoja oppimisanalytiikan hyödyntämiseen ja helpottaa sitä kautta analytiikan käyttöönottoa.

Keskustelu oppimisanalytiikasta jatkuu IT-päivien yhteydessä, Oulun ammattikorkeakoulun ja Oulun yliopiston yhdessä CSC:n kanssa järjestämässä esipäivässä 5.11.2018. Jatkuvan oppimisen digiloikka -foorumissa on tavoitteena kehittää ja yhdistää opiskelijoiden, opettajien ja tutkijoiden käyttöön parhaita digitaalisia palveluja ja oppimista tukevia ratkaisuja. Tällä kertaa teemoina ovat analytiikka ja liike- ja työelämän sekä koulutus- ja tutkimustoimijoiden yhteistyö.


Eurooppalaisten korkeakoulujen tietohallinnon yhteistyöorganisaatio EUNIS (European University Information Systems organisation) tuo yhteen korkeakoulutuksen tietotekniikan osaajat kehittämään ja jakamaan parhaita käytäntöjä tietojärjestelmiin liittyen. Yhteistyötä tehdään erityisesti EUNISin työryhmien kautta. www.eunis.org
 

Lisätietoja: 


Kuva: Kalle Kataila

Blogger: Kaisa Kotomäki Blog Topic: Science and research CSC: Blog Viewpoints: Data ja analytiikka koulutuksen kehittämisessä

Tutkimusrahoitus on kuluvana syksynä näkynyt tiedotusvälineissä. On kirjoitettu vähenevästä julkisesta rahoituksesta, kerrottu yksityisten säätiöiden tuesta tieteelle ja nostettu esiin kilpaillun tutkimusrahoituksen merkitystä. Kuinka tutkimusta sitten rahoitetaan? Tutustutaanpa tarkemmin.

Suomen Akatemia rahoitti 970:ää hanketta vuonna 2017.
Sata suurinta säätiötä vastaa noin neljästä viidesosasta yksityisestä rahoituksesta.
Entäpä Business Finlandin rahoittama tutkimus? Tai Euroopan Unionista virtaava rahoitus?

Tietojen hakeminen nostaa epätoivon aaltoja. Tieto on sirpaleina rahoittajien ja yliopistojen omilla sivuilla eri muodoissa. Kokonaiskuvan hahmottaminen syö aikaa ja hermoja.

Tutkimustietovaranto ratkaisee ongelman. Vuoden 2018 loppuun mennessä rahoituspäätökset kokoava osa, hanketietovaranto, on valmiina kerryttämään tietoa kotimaisesta kilpaillusta tutkimusrahoituksesta. Rahoitustiedon yhdistyessä muuhun tutkimustietoon syntyy suomalaisesta tutkimuksesta tyhjentävä kuva. Varannosta tieto rahoituksesta virtaa yhdenmukaisena korkeakouluihin ja tutkimuslaitoksiin. Ensimmäisenä sinne saadaan tiedot julkisesta rahoituksesta ja vähitellen mukaan tulee myös yksityinen säätiörahoitus.

Lopulta tietovarannon research.fi-portaali palvelee jokaista tiedonjanoista. Kilpailtu rahoitus ilmestyy näytölle parilla hiirenklikkauksella ja tieteen rahoittajat pääsevät ansaitusti näkyville.

Rahoittajien kanssa kokonaisuutta hiotaan marraskuun lopun seminaarissa.

 

Blogger: Walter Rydman Blog Topic: Science and research IT Management CSC: Blog

Research funding has got media visibility during the autumn. There's been discussion about diminishing public funding and articles about funding by private foundations. How is research funded in Finland? Let's try few easy searches.

Academy of Finland funded 970 projects in 2017.
Hundred largest funders are responsible for roughly 80 % of private funding.
How about the relevance of funding by Business Finland? Or the share of EU grants?

Searching for complete, easily digestable picture of research funding is desperate work. Nuggets of information are on the homepages of universities and research funders in different forms. Trying to percieve the general view calls for nerves and wastes time.

Research Information Hub solves this problem. The funding database of the Hub accumulates data about Finnish competitive research funding and is planned to contain the bulk of it in the future. The funding database is ready to receive information at the end of 2018.  From the Hub this uniform information flows to the universities and other research organisations. At the start funding database contains mainly public funding but gradually includes private grants too.

Later when the Hub's portal - research.fi - comes online the comprehensive picture of research funding can be summoned on the screen with few mouse clicks. The portal services all curious minds and gives visibility to all research funders in Finland.

 

 

Blogger: Walter Rydman Blog Topic: Science and research IT Management CSC: Blog

CSC:n tavoitteet ja tehtävät tulevalle hallitukselle pohjautuvat strategisiin linjauksiimme siitä, miten suomalaisen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon kilpailukykyä edistetään. Näiden sektoreiden toiminnan kehittäminen kestävällä tavalla on merkittävä tekijä koko Suomen kilpailukyvyn kannalta.

Suomi on edelläkävijä muun muassa avoimessa tieteessä sekä digitaalisessa oppimisessa ja opetuksessa. Myös datakeskusten osalta Suomella on loistavia kilpailuetuja. Näiden hyödyntäminen ja vahvistaminen tulee olla seuraavan hallituksen agendalla.

CSC haluaa, että Suomi panostaa jatkossakin tutkijoiden työkaluihin ja tutkimusinfrastruktuureihin. Esimerkkinä mainittakoon suuritehoinen laskenta, joka on välttämätön keino vaikkapa ilmastonmuutoksen aiheuttamiin haasteisiin vastaamisessa sekä uusien lääkeaineiden ja hoitojen kehittämisessä.

 
"Suomi on edelläkävijä muun muassa avoimessa tieteessä sekä digitaalisessa oppimisessa ja opetuksessa."
 

Tällä hallituskaudella osoitettu rahoitus datanhallinnan ja laskennan kehittämiselle on keskeinen panostus suomalaisen tutkimuksen kansainvälisen kilpailukyvyn ylläpitoon. On tärkeää, että rahoitus on tulevaisuudessa kestävällä pohjalla, ja siksi infrastruktuurit on päivitettävä säännöllisesti. Ilman tehokasta laskentaa ei ole myöskään tekoälyä tai data-analytiikkaa.

Data puolestaan on kullanarvoinen raaka-aine, jonka liikkuvuuteen, avoimeen saatavuuteen, uudelleenkäyttöön ja hyödyntämiseen tulee panostaa kaikilla sektoreilla. Kuitenkin niin, että se tapahtuu hallitusti, yhteisten pelisääntöjen puitteissa.

Dataa koskevan lainsäädännön tarkastelu on ulotettava läpi sektorirajojen ja esteet datan liikkuvuudelle tulee purkaa. Myös eksponentiaalisesti kasvavat osaamistarpeet datan osalta tulee huomioida kaikilla aloilla, myös opettajankoulutuksessa.

Osaaminen ylipäänsä on teema, jossa tarvitaan uudistumista: uudistuvan työelämän tarpeisiin on vastattava, ja siksi jatkuvan oppimisen reformia ja digitaalisten infrastruktuurien rakentamista oppimisen tueksi tulee jatkaa seuraavallakin hallituskaudella.

 
"Arktisen datakaapelin myötä Suomen on mahdollista profiloitua arktisena dataliikenteen ja -osaamisen solmukohtana."
 

Datakeskukset ovat Suomelle mahdollisuus, mutta eivät pelkästään infrastruktuurin muodossa vaan datakeskusekosysteemeinä, jotka rakentuvat useiden erilaisten toimijoiden yhteistyössä ja luovat synergioita sekä uusia työpaikkoja.

Suomen tuleekin jatkaa datakeskusinvestointien houkuttelemista ja ekosysteemien rakentamista – myös arktisen datakaapelin myötä Suomen on mahdollista profiloitua arktisena dataliikenteen ja -osaamisen solmukohtana. Hyödynnetään kilpailuetumme tässäkin asiassa!

Digitalisaation osalta tapahtuu paljon myös EU:ssa. Unioni valmistelee parhaillaan mittavia rahoitusohjelmia tutkimukselle, innovaatioille ja digitaalisille palveluille.

Suomalaisten toimijoiden menestymistä EU-rahalla tehtävässä kehitystyössä tulee tukea, jotta pääsisimme vähintään verrokkimaiden tasolle ja miksei ohikin, koska osaamista meiltä löytyy. Suomen tulee myös olla aktiivinen vaikuttaja EU:n rahoitusohjelmien strategisessa suunnittelussa.

CSC:n hallitusohjelmatavoitteet on tarkoitettu herättämään ajatuksia ja keskustelua. Kerromme mielellämme lisää ja annamme asiantuntemuksemme käyttöön Suomen kilpailukyvyn edistämiseksi. Ota yhteyttä!

#digisuomensuunta

Kuva: Adobe Stock

Blogger: Irina Kupiainen Blog Topic: Science and research Data CSC: Blog Themes: Laskennallinen tiede

Avoin tiede ja tutkimus -hanke päättyi vuonna 2017 ja olemme itse kukin totuttautuneet hankkeen jälkeiseen elämään. Omalla kohdallani tämä tarkoittaa palaamista CSC:n viestintään ja avoimen tieteen jäämistä enemmänkin oman harrastuneisuuden varaan.

Tieteellisten seurain valtuuskunta (TSV) otti vastuun avoimen tieteen disseminaatiosta ja koordinoinnista ja se rakentaa tästä pysyvää toimintaa. TSV aloitti koordinaatiotyönsä neljällä suunnittelutilaisuudella, joista osallistuin itse Avoin julkaiseminen -tilaisuuteen 1.10.2018. Muiden tapaamisten teemoina olivat avoin data, avoin oppiminen ja avoin tiedeyhteisö.

Koordinaation toiminta ja rakenne hakevat muotoaan syksyn 2018 aikana. Lähtökohtaisesti itsenäinen tutkimusyhteisö koordinoi: tutkijat ovat keskiössä. Tavoitteena on luoda yhteisiä linjauksia, yhteistyötä, synergiaa ja kokonaiskuvaa sekä uusia avoimen tieteen tiekartta.

Tilaisuudessa esitetty luonnos organisaatiokaaviosta muistuttaa lumihiutaletta: keskellä on päätöksiä tekevä ydin, joka vaikuttaa vastavuoroisesti ja vahvasti neljän asiantuntijaryhmän kanssa (avoin julkaiseminen, avoin data, avoin oppiminen, avoin tutkimusyhteisö). Tämän hetken kaavailujen mukaan ytimeen kuuluu yliopistojen, ammattikorkeakoulujen, korkeakoulukirjastojen ja tutkimuslaitosten edustajia sekä tutkijajäseniä (Suomen yliopistojen rehtorineuvosto UNIFI, Ammattikorkeakoulujen rehtorineuvosto ARENE ja  Tutkimuslaitosten yhteenliittymä Tulanet).

Miksi avointa julkaisemista halutaan edistää?

Tilaisuuden 60 osallistujasta ja 60 etäosallistujasta kaikilla on pitkä kokemus avoimesta julkaisemisesta. Syyt, miksi avointa julkaisemista halutaan edistää, ovat hyvin selvillä.

Työskentelymuotona tilaisuudessa oli pienryhmäkeskustelut, joiden tulokset kirjattiin Google Sheetiin ja esitettyä ideoita pystyi kannattamaan. Äänestyksessä kannatetuimmiksi syiksi nousivat:

  • Tiedon demokratisointi
  • Tutkimustulokset tulevat nopeammin ja tehokkaammin yhteiskunnan eri toimijoiden käyttöön
  • Kustannusten alentaminen
  • Tutkijan/tutkimuksen parempi näkyvyys, ja meritoituminen

Koordinaatiotarpeet juuri nyt

Nyt päästiin asiaan, minkä huomasin välittömästä desibelitason noususta. Omassa keskusteluryhmässäni oli edustajia TSV:stä, tutkimuslaitoksista ja korkeakoulukirjastoista.  

Erotimme avoimessa julkaisemisessa pitkän ja lyhyen tähtäimen tavoitteet. Nyt tarvitaan ensisijaisesti avoimen julkaisujen määrän nostamista 100 prosenttiin (syyskuussa julkaistun PlanS-julkilausuman mukaan). Pidemmällä tähtäimellä kehitämme muita julkaisumuotoja artikkelien rinnalle ja pyrimme eroon suurista kaupallisista kustantajista.
 
Google Sheets-äänestyksessä kannatusta saivat seuraavat ideat:

  • Avointa julkaisemista tukevan lainsäädännön kehittäminen
  • Avoimen julkaisemisen kehittäminen huomioiden meritoitumisen monipuolistaminen, eri julkaisumuodot ja rahoituksen rakenne.
  • Kansallinen avoimen julkaisemisen politiikka ja periaatteet
  • Selkeät prosessit ja käytännöt avoimeen julkaisemiseen sekä koulutus

Itse jäin taas kerran miettimään kokonaisuutta, vaikka asia ei ole mitenkään uusi. Avoin julkaiseminen (sekä vihreän että kultaisen tien avoin julkaiseminen) sinänsä on aika helposti toteutettavissa, mutta se ei yksinään riitä. Meritoituminen ja rahoitusjärjestelmä perustuvat pitkälti artikkelimuotoiseen julkaisemiseen, lehtien impaktikertoimiin, viittausten määriin ja kustantajien järjestämään vertaisarviointiin. Muutettavaa on paljon. Tarvitaan uusia tapoja julkaista ja uusia tapoja mitata. Suuret kaupalliset tiedekustantajat puolustavat bisnestään ja haraavat kovasti muutosta vastaan, mutta muuttamalla järjestelmää ja tarjoamalla muita vaihtoehtoja tieteelliseen kommunikointiin voimme tehdä heistä tarpeettomia tai ainakin kohtuullisen hintaisia.

Käytännön menettelytavat

Avoimen tieteen uutiskirje lähetetään kerran kuussa. Tapaamisia pidetään välttämättöminä, joten koordinaatiotyössä kopioidaan RDA:n (Research Data Alliance) toimintamallia järjestämällä “plenaari” kahdesti vuodessa. Avoimen tieteen päivät järjestetään marraskuussa ja ilmoittautuminen avataan kohta.

Varsin yksimieleisesti omassa ryhmässämme kannatimme vahvaa yhteistä alustaa (avointiede.fi) ja sen kehittämistä sekä erilaisten yhteistyöalustojen käyttöä (eDuuni, Wikit, Google Docs) Kullekin parhaiten sopivimman yhteistyöalustan jättäisimme ryhmien päätettäväksi. Lopulliset tuotokset tulisivat jakoon aina avointiede.fi:n kautta. Viestinnässä some, varsinkin Twitter, on nyt tehokas väline. Kannattaa mennä sinne, missä ihmiset ovat jo.
 
Google Sheets -änestyksessä säännöllistä tapaamisia ja yhteistä alustaa pidettiin tärkeinä. Muita nousevia teemoja olivat kansallisten avoimuutta edistävien hankkeiden koordinointi EU-hankkeiden kanssa, halu saada kansallinen avoimen tieteen politiikka ja linjauksia/selkänojaa hintaneuvotteluille suurten kansainvälisten tiedekustantajien kanssa. Kielikysymyskin nousi esille. Tilaisuudessa kannatettiin suomen, ruotsin ja englannin huomioimista.

Lue lisää

Kamppailu avoimen julkaisemisen puolesta jatkuu

Blogger: Tommi Kutilainen Blog Topic: Science and research CSC: Blog Themes: Laskennallinen tiede

Modern medical science has been able to improve human health tremendously during the last decades. Many diseases are much better understood than before leading to better treatments and more effective drugs. And the advances are rapidly continuing as we speak, for example towards precision medicine tailored for the patient's individual genomic characteristics.

Biomedicine is just one of the fields in which research including the analysis of personal data allows researchers to make new discoveries. Other such areas are for example language research or social sciences, or any other field that studies humans or the society.

It is clear that the use of personal data in research must always be based on high legal and ethical standards, as well as high security of the data and analysis environments.

 
"Biomedicine is just one of the fields in which research including the analysis of personal data allows researchers to make new discoveries."
 

Collecting and managing personal data has received lot of attention in recent years not least because of the new EU legislation, the General data protection regulation GDPR, and its influence in member states’ national legislation. The GDPR makes several clarifications in how personal data can be processed, for instance data subject’s right to know about processing and right to be forgotten. These conditions translate into requirements that sensitive data service providers need to match.

The term personal data is used for data that relates to an identifiable individual, either directly or indirectly. Thus name, address, personal ID number and passport photo are clearly personal data, but so are also location information, health records, genetic information, economic status and so on.

When personal data is used in research the directly identifying information is typically first removed and replaced with a random identifier, so that the mapping between these new identifiers and real persons is not visible to researchers.

This procedure decreases risks of accidental identification of people in further processing, although the data is still considered as personal data. Such data sets are said to be pseudonymized.
 
At CSC we are developing and providing services for our research customers to manage sensitive data securely and reliably, in a way that it is accessible only for authorized persons. The purpose is to offer effective and reliable services for research on sensitive data in the same way as CSC has done for other research for decades.

We also want to support the process of bringing valuable data collections available for research.

 
"Such research needs a secure processing environment that has connections to various data sources."
 

Using legal terminology, CSC acts as a data processor whereas the data owner acts as a data controller. In practice this means that the owner defines who can access the data and under what conditions, and CSC provides tools and environment that are specially designed for secure data processing. CSC’s sensitive data services currently combine secure processing in ePouta cloud, secure data archiving and strict access control.

This platform has been used, for instance, to pilot combining health cohort data with health records as a pre-study for national genome center in Finland. However, CSC specializes in the secondary use of health data, meaning that aim is in supporting research, not the clinical care directly. More information on the management of sensitive data in CSC environment will be discussed in the webinar by CSC experts on 25 September 2018.
 
Taking biomedical research again as an example, novel research combining genomic data with health information, data from longitudinal studies, register data and so on can be used to study diseases on unprecedented accuracy leading to quicker diagnoses and personalized medicine.

Such research needs a secure processing environment that has connections to various data sources and that combines usability with high security and tight access control. This is what CSC is currently working on.

The development work is done in close collaboration with key European players in the field, for example within the European ELIXIR research infrastructure and the Nordic NeIC Tryggve collaboration.
 
Regardless of the international collaboration, CSC as national actor stores sensitive data only inside Finland and will not move it outside of country borders – unless specifically instructed and authorized by the data controller. CSC has no commercial interests in the data stored in CSC’s services, since CSC as a public institution is not aiming for financial profit. Instead CSC's mission is to benefit research and the Finnish society.

 

Picture: Adope Stock

 

Blogger: Antti Pursula Blog Topic: Science and research Data CSC: Blog Themes: Laskennallinen tiede

Kävin ensimmäiset keskusteluni avoimesta julkaisemisesta nuorena tutkijana 90-luvun lopussa Tampereen yliopiston alakuppilassa. Keskustelua on käyty jo kauan ja kamppailu avoimen julkaisemisen puolesta jatkuu yhä.

Avointa julkaisemista on edistetty vuosien mittaan useilla aloitteilla, viimeisimpänä 4.9.2018 julkaistu 11 eurooppalaisen tutkimusrahoittajan muodostaman cOAlition S:n julistus Plan S, jossa vaaditaan kaikkia julkisrahoitteisen tutkimuksen tuottamia julkaisuja avoimesti saataville 1.1.2020 alkaen. Kuten tutkimusetiikan tutkija ja avoimen tieteen asiantuntija Heidi Laine blogissaan toteaa: “Plan S eroaa monista edeltäjistään siinä, että sen hihojen läpi siintävät lihasten ääriviivat. Rahoittajilla jos keillä on vipuvoimaa.”
 
Tietoisuutta tieteellisen kustantajien järjettömistä hinnoista on nostettu moneen otteeseen: esimerkkeinä Open Knowledge Finlandin No deal, no review -boikotti, Ruotsin ja Saksan Elsevier-sopimusten irtisanomiset, EU:n linjaukset ja OKM:n Avoin tiede ja tutkimus -hankkeen julkaisemat tieteellisten kustantajien hintatiedot 2010-2017.

Tieteellisestä kustantamisesta on tullut erittäin tuottoisaa liiketoimintaa. Suurimpien tieteellisten kustantajien liikevoitto on noin 30 – 40 prosenttia. Musiikkibisneksessä levy-yhtiöt pääsivät aluksi rahastamaan CD:llä, uudella digitaalisella tuotteella, mutta myöhemmin digitalisaation myötä ne menettivät sekä valtaansa että tulojansa. Sama digitalisaation megatrendi yhdistettynä kasvaviin avoimuuden vaatimuksiin tulee muuttamaan myös tieteellistä julkaisemista. Mikael Laakso esitti PHOS16-seminaarissa, että tieteellisten julkaisujen hinnat kääntyivät nousuun, kun ala keskittyi digitalisaation alkaessa 90-luvun puolivälissä. Vain suurilla kustantajilla oli varaa siirtyä digitaaliseen julkaisemiseen ja ala keskittyi viiteen suureen kustantajaan, jotka julkaisevat noin puolet maailman tutkimuksesta.

Tieteellinen julkaiseminen tulee väistämättä muuttumaan, koska digitalisaatio tarjoaa keinot ja kustantajien bisneslogiikka on kestämättömällä pohjalla: tutkimus on suurelta osin julkisrahoitteista, tutkijat kirjoittavat artikkelit ja hoitavat vertaisarvioinnin, joskus editoinninkin ja silti kustantajat myyvät tuotteen takaisin yliopistoille kovaan hintaan. Avoin julkaiseminen on koko ajan yleistymässä. Vuonna 2017 suomalaisten yliopistojen vertaisarvioiduista artikkeleista avoimesti julkaistujen osuus on noussut lähes 42 prosenttiin ja ammattikorkeakoulujen puolella vastaava luku on 56,2. (Lähde: Jyrki Ilva) Sopiva tavoite on luonnollisesti tasan 100 % ja epäilemättä  tulemme saamaan kultaisen tien avoimen julkaisemisen kohtuullisiksi neuvotelluin kirjoittajamaksuin ja rinnakkaisjulkaisemisen ilman embargoa tai vähintään lyhyellä embargoajalla.

Kehitys tuskin pysähtyy tähän, koska vihreän ja kultaisen tien julkaisemisessa on yksi yhteinen huono piirre: kumpikaan näistä ei poista kaupallisia kustantajia. Omana toiveenani on, että tiedeyhteisö ottaisi tieteellisen kommunikaation vahvasti omiin käsiinsä ja poistaisi turhan kaupallisen välistävetäjän. Fysiikan avoimella julkaisuarkisto arXivilla on jo yli 20 vuoden historia, yhteiskuntatieteiden vuonna 2016 perustettuun avoimeen julkaisuarkisto SocArXiv:iin on tallennettu noin 2700 preprinttiä ja yliopistoilla on omia julkaisuarkistojaan. Esillä on ollut ajatus, että artikkelien jakelu voitaisiin hoitaa julkaisuarkistojen kautta ja vertaisarviointi olisi hoidettavissa lisäämällä vertaisarvioituihin artikkeleihin laatuleimat. Tämä olisi varmasti hoidettavissa selvästi keskimääräistä 2000 euron kirjoittajamaksua halvemmalla.

Suomalaisten tieteellisten seurojen kustannustoiminta on hyvä esimerkki yhteisövetoisesta toiminnasta. Tieteellisten seurain valtuuskunnan ylläpitämällä Journal.fi-alustalla julkaistaan noin 60 avointa tieteellistä julkaisua. Aina on hyvä muistuttaa erikseen, että kovasti kritisoidut kansainväliset kustantajajätit ja kotimaiset kustantajina toimivat tieteelliset seurat ovat kaksi eri asiaa. Toinen näistä vetää välistä paljon rahaa ja toinen tekee pienellä budjetilla merkittävää työtä.

Olettaisin myös, että digitalisaatio tuo mukanaan myös perinteistä tieteellistä artikkelia parempia julkaisumuotoja. Artikkeli oli printtiaikana luonnollinen vaihtoehto ja nykyinen meritoitumisjärjestemä tukee artikkelimuotoista julkaisemista, mutta sen heikkoudet ovat ilmeiset. Esillä on ollut useita vaihtoehtoja. Tarjoaisiko tietokide paremman vaihtoehdon, tai wikipedia-tyyppinen Kaiken käsikirja? Olisiko Samuli Ollilan esittämä ajatus tutkimustulosten julkaisemisesta vertaisarvioituina GitHub-projekteina toteuttamiskelpoinen? Samassa paketissa olisi mukana käsikirjoitus, versionhallinta, kuvat, data ja käytetyt ohjelmistot?


Lisätietoja

Blogger: Tommi Kutilainen Blog Topic: Science and research CSC: Blog Themes: Laskennallinen tiede

”Digitaalisen maailman uutena raaka-aineena on ensisijaisesti data, jota keräämällä, yhdistelemällä, analysoimalla ja tulkitsemalla voidaan luoda uusia palvelukokonaisuuksia ihmisten ja yritysten tarpeiden täyttämiseen”. Näin kirjoitetaan työ- ja elinkeinoministeriön tuoreessa raportissa Digitaalisen alustatalouden tiekartasto. Raportissa myötäillään viime aikoina usein toistettua metaforaa ”data on uusi öljy” ja patistetaan Suomen valtiota sekä yrityksiä panostamaan digitaalisiin alustoihin. Kieltämättä 2000-luvun internet-yritysten perustajat näyttävät päässeen käsiksi samanlaisiin rikkauksiin kuin öljykenttien omistajat 1800-luvun lopulla. Facebookin kassaan kilisee 200 000 dollaria minuutissa, ja sen voittoprosentti on 50. Millä edellytyksillä Suomeen voisi syntyä tällaisia rahasampoja? Missä ovat Sirkut, Sakarit ja Danit, jotka näitä sampoja kehittävät Suomessa?

Neljän suurimman teknologiayrityksen, Googlen, Applen, Facebookin ja Amazonin, menestys – ja amerikkalaisuus – on kiinnittänyt huomiota myös muualla Euroopassa. Ranskassa niille on keksitty jopa paheksuva yhteisnimitys les Gafa, joka muodostuu yritysten alkukirjaimista. Aikamme dataparonit olivat vielä jokin aika sitten ihailtuja visionäärejä, mutta nyt Facebookin perustaja on nähty nöyränä Yhdysvaltain senaatissa ja EU-parlamentissa esittämässä anteeksipyyntöä henkilötietojen luvattomasta käytöstä. Gafan niskaan satelee syytöksiä kilpailun estämisestä, määräävän markkina-aseman väärinkäytöstä, veronkierrosta, valeuutisten levittämisestä, rehellisen amerikkalaisen pienyrittäjän kurjistamisesta, liberaalin demokratian tuhoamisesta sekä älylaitteiden käytön aiheuttamista niska- ja hartiakivuista.

Yhdysvalloissa keskustellaan internet-jättien pilkkomisesta kartellien vastaisen lainsäädännön keinoin ja Euroopassa tungetaan kapuloita heidän rattaisiinsa miljardisakkojen ja tietosuoja-asetuksen muodossa. Hylkäävätkö myös kuluttajat heidän alustansa skandaalien seurauksena? Ainakin nuoriso on hylkäämässä Facebookin, joskin syynä on ilmeisesti enemmän omien vanhempien ja isovanhempien kuin Facebookin harjoittama ei-toivottujen tietojen vakoilu. Onko Suomen oma Mark Zuckerberg, otaniemeläinen Sirkku Sokeritoppa jo kehittänyt Startup Saunassa uuden digitaalisen alustan, joka tulee 2020-luvulla tahkoamaan Suomelle verotuloja niin, että kestävyysvaje saadaan kurottua umpeen? 

Uudet, aluksi vaillinaisetkin keksinnöt ovat useamman kerran historian saatossa syrjäyttäneet vanhemman, sinällään toimivan tekniikan. Runomuodossa kerrottu suullinen perinne alkoi siirtyä tiedonsiirtomekanismina marginaaliin kirjoitustaidon kehityksen myötä. Valtavirtainen tiedonsiirtotapa muuttui, ja sen myötä luova tuho niitti viljaa runonlaulajien ammattikunnassa. He jäivät peräkylien laitamille polkemaan harmissaan runojalkaansa ja mutisemaan partaansa daktyyliheksametria samalla kun luku- ja kirjoitustaitoiset kirjurit astuivat vallanpitäjien saleihin kirjaamaan verotuloja ja muuta runonlaulajien mielestä jonninjoutavaa. Uusi tekniikka toi leipää myös kirjoitusalustojen ja -välineiden valmistajille, kirjeenkantajille sekä arkistonpitäjille.

Kirjoitustaidon leviäminen ei ainoastaan heikentänyt runonlaulajien suhteellista työmarkkina-asemaa, vaan vaikutti myös siihen, mitä tietoa ylipäänsä siirrettiin. Tarinat, joita ei kirjoitettu muistiin, unohtuivat vähitellen ja katosivat ikuisiksi ajoiksi. Kirjoitustaito ja käsikirjoitukset olivat pitkään harvojen etuoikeus. Paperille, puulle ja pergamentille kirjoitetut tekstit olivat myös herkkiä tuhoutumaan ja katoamaan. Kymmenistä maailmankirjallisuuden merkkiteoksista, kuten Aristoteleen runousopin komediaa käsittelevästä kirjasta ja kungfutselaisuuden viidennestä klassikosta, Musiikin kirjasta 樂經 (yuè jīng), tunnetaan vain nimi.

Kirjapainotekniikan kehittyminen mahdollisti suuret kappalemäärät ja toi kirjat laajempien kansanjoukkojen ulottuville, ainakin siellä missä oli kylliksi vaurautta ja sivistystahtoa. Köyhässä Suomessa peruuttamaton katastrofi oli lähellä, kun Turun Akatemian kirjastoon koottu varhainen painettu suomenkielinen kirjallisuus, muun muassa Agricolan Abckiria, katosi tuhkana tuuleen Turun palossa vuonna 1827. Turun Akatemian kirjastonhoitaja Fredrik Wilhelm Pippingin ja kiertelevän kirjansitoja Matti Pohdon sivistystahto pelastivat Suomen katastrofilta. Pohto kiersi jalan kaikki Suomen pitäjät ja onnistui löytämään pappiloiden vinteille ja komeroiden pohjille unohtuneet, puolittain tuhoutuneet kappaleet. Ne uudelleen sitomalla hän onnistui pelastamaan jälkipolville kaikki Turun palossa tuhoutuneet nelisen tuhatta nidettä vanhinta suomalaista kirjallisuutta.

 
"Tiedon tuottamisesta on tullut niin helppoa ja halpaa, että ei tarvitse olla Shakespeare ylittääkseen julkaisukynnyksen."
 

Tänä päivänä tubettajat, tviittaajat ja heidän tykkääjänsä ovat kääntäneet selkänsä paperille eivätkä jaksa lukea tekstejä, joiden lukemiseen kuluu yli kaksi minuuttia. Antikvariaattien pitäjät tekevät piakkoin seuraa runonlaulajille. Digisisältöjen kuluttajien näkökentän ulkopuolelle jää suuri määrä tietoa, jota ei löydy Googlella. Toisaalta näkökentän täyttää kiihtyvällä tahdilla uusi tieto: tiedon tuottamisesta on tullut niin helppoa ja halpaa, että ei tarvitse olla Shakespeare ylittääkseen julkaisukynnyksen. Tiedonsiirtotekniikan mullistus on tälläkin kertaa muovannut tietämyksen piirejä: sitä, mistä tiedetään ja sitä, mitä pidetään tärkeänä. Provosoivasti voisi väittää, että vain internetistä helposti löytyvä tieto on olemassa, ja taho, joka pystyy säätelemään internetistä olevan tiedon löytämistä, hallitsee ihmisten mieliä. Autoritäärisissä maissa, kuten Kiinassa, Venäjällä ja Saudi-Arabiassa, valtio ei ole aikaillut tarttua digitalisaation tarjoamiin mahdollisuuksiin kansalaisten ajatusten kontrolloimiseksi.

Vapaissa markkinatalouksissa valtio ei rajoita pääsyä tietoon, joten kilpailu kuluttajien huomiosta on kiivasta. Vahvoilla kilpailussa ovat ennakkoluulottomat tarmonpesät, joilla on runsaasti itseluottamusta, uusia liiketoimintaideoita ja ymmärrystä uusista keksinnöistä, joita valtion rahoittama perustutkimus on tuottanut. Mikrotietokoneiden ja internetin kehityksen johtohahmot, kuten Vint Cerf, Steve Jobs, Larry Ellison, Bill Gates sekä IBM:n ja Intelin taustahahmot olivat parhaassa luomisvimmassa, kun mikroprosessoriin perustuvat tietokoneet alkoivat yleistyä 1970-luvulla. Vastaavasti Gafan perustajahahmot olivat parikymppisiä nörttejä, jotka näkivät mahdollisuutensa koittaneen internetin käytön kasvaessa räjähdysmäisesti 2000-luvun alussa. 

Mielipideilmaston muuttuminen kriittisemmäksi teknologiajättejä kohtaan on raottanut mahdollisuuksien ikkunaa Sirkulle ja hänen kollegoilleen. Tehtävä on todella vaikea, sillä haastetut ovat kuin saalista väijyviä hämähäkkejä maailmanlaajuisen saalistusverkon keskellä. Ne tietävät ensimmäisenä, mistä miljardit internetin käyttäjät ovat kiinnostuneita. Lisäksi ne ovat upporikkaita ja voivat ostaa lupaavimmat uudet yritykset pois markkinoilta tai sijoittaa vuodessa 10–20 miljardia dollaria tuotekehitykseen. Summat vastaavat yli kolmasosaa Suomen valtion budjetista. Uudesta EU:n tietosuoja-asetuksesta huolimatta kuluttajien enemmistöä ei tällä hetkellä näytä suuresti haittaavan, että teknologiayritykset keräävät tietoa heidän tekemisistään, kunhan lomakuvat voi ladata ja jakaa ilmaiseksi pilvessä.

Gafan mahdollisuudet sopeutua tiukempiin tietosuojaa koskeviin vaatimuksiin näyttävät tällä hetkellä paremmilta kuin uusien toimijoiden mahdollisuudet kehittää uusia tietosuojan säilyttäviä palveluita uusilla ansaintamalleilla. Sivumennen sanoen datakaan ei ole uusi öljy. Kuka tahansa voi yrittää myydä lomakuviaan, gps-jälkiään tai ravintola-arvosteluitaan eniten tarjoavalle. Satojen miljoonien käyttäjien tietokaan ei ole sellaisenaan arvokasta raaka-ainetta, jota voisi myydä suurella voitolla. Google ja Facebook eivät tee satumaisia voittojaan myymällä dataa, vaan analysoimalla sitä, jotta ne voivat myydä yrityksille massoittain mainoksiin kohdennettuja silmäpareja.

Mikäli Sirkku kavereineen ei vielä lannistunut, tarjoan heille kahden eurosentin panokseni maailmanvalloitussuunnitelmaan. Puolen prosentin osuus vuoden 2025 jälkeisistä voitoista riittää korvaukseksi.

Ensinnäkin Sirkun ja kumppanien on hyvä muistaa, että digitaalisten palveluiden maailmassa tunnuskappale on The Winner Takes It All. Koska paikallisuus ei rajoita kuluttajan valintaa, hän voi yhtä helposti valita korealaisen maailmanmestarin kuin Satakunnan piirimestarin. Tämä tarkoittaa, että jos Sirkun ja kumppanien kehittämä digitaalinen alusta ei nouse globaaliksi markkinajohtajaksi, haaveet huikeasta kannattavuudesta voi unohtaa.

Toisekseen tarvitaan mielikuvitusta ja kykyä analysoida hiljaisia signaaleja. Mahdollisuudet kehittää Googlea parempi hakukone tai Amazonia parempi nettikauppa ovat lähellä nollaa. On parempi ennakoida tai rahkeiden riittäessä luoda itse jokin yleisinhimillinen tarve tai trendi, jota tyydyttävää palvelua ei vielä ole olemassa. Kuvien, musiikin, elokuvien ja viestien jakamisen ja niihin liittyvän tiedonhaun markkinat ovat jo täysin Gafan hallinnassa, joten Sirkun ja kavereiden pitäisi keksiä jotain uutta. Lupaavia suuntia voisivat olla eettisyyden toteuttamista ja merkityksellisyyden kokemusta tuottavat palvelut, jotka vaikuttavat olevan tärkeitä nuorille sukupolville. Kun palveluidea on keksitty ja digitaalinen alusta kehitetty, täytyy enää houkutella palvelulle sadasta miljoonasta miljardiin käyttäjää. Kansainvälisen viihdemaailman, esimerkiksi elokuva- tai pelialan tuntemus ja kontaktit ovat eduksi. Onnea matkaan, Sirkku ja kumppanit!

 
"Uudelle digitaalisen teollisuuden alalle on kannustettu ja koulutettu uusi sukupolvi; esimerkkeinä suomalainen tietoturvaosaaminen, tietoliikenne ja peliteollisuus."
 

Maapallolla on miljardeja ihmisiä, joilla on periaatteessa mahdollisuus onnistua tuottamaan maailmanlaajuisia digitaalisia innovaatiota, mutta silti toisilla on paremmat edellytykset kuin toisilla. Koulutus, kulttuuritausta, lainsäädäntö, yhteiskuntajärjestelmä, uskonto, maantieteellinen sijainti ja rahoitusmahdollisuudet ovat avainasemassa. Näiden edellytysten suhteen me suomalaiset olemme monessa mielessä hyvin etuoikeutetussa asemassa. Voisimme olla ylpeitä, että yhteiskuntamme on avoin muutoksille ja että se on tukenut pitkäjänteisesti arvoja, jotka ovat edesauttaneet nykytilanteen syntymistä. Veroeuroilla ei kannata tavoitella pikavoittoja. Julkinen valta voi kasvattaa lahjakkaiden henkilöiden todennäköisyyttä toteuttaa potentiaaliaan, jotta onnistumisia tapahtuisi Suomessa. Toisinaan julkisen vallan panostukset ovat ajoittuneet juuri oikeaan aikaan. Uudelle digitaalisen teollisuuden alalle on kannustettu ja koulutettu uusi sukupolvi; esimerkkeinä suomalainen tietoturvaosaaminen, tietoliikenne ja peliteollisuus.

Onnistumisen ennustaminen on vaikeaa. Tärkeintä on pohtia, kuinka voisimme parhaiten käyttää maailman mittakaavassa vähäiset resurssimme auttaaksemme nuoria Sirkkuja onnistumaan. Missä mielessä julkisen vallan pitää olla uusien trendien eturintamassa? Kun innostutaan muoti-ilmiöistä, ollaan usein käytännössä jo jälkijunassa. Julkisen vallan on hyvä tunnistaa megatrendit, kuten startup-pöhinä, tekoäly, lohkoketjut ja niin edelleen, mutta jos niihin lähdetään markkinointiammattilaisten puheista lumoutuneena ja omasta visionäärin sädekehästä haaveillen, se voi johtaa kalliisiin virhearviointeihin. Pikavoittojen perässä juoksemista tärkeämpää olisi huolehtia nuorten oppimismyönteisyydestä, jotta Suomen koulutusjärjestelmä pystyy tulevaisuudessakin tuottamaan korkeatasoisia tuloksia.

Jotta oppimisen edellytykset kehittyvät, pitää korkeakouluissa, tutkimuslaitoksissa ja yrityksissä tehdä merkittävää tutkimusta, eikä lainsäädäntö saisi olla esteenä toteuttaa tai tuotteistaa uusia innovaatioita. Julkishallinnon on järkevä toimia pitkällä tähtäimellä, sillä nopeatempoiset digitaalisten alustojen markkinat sekä tekniset muoti-ilmiöt ovat sen kaltaisille toimijoille liian lyhytjänteisiä ja ketteriä. Hallituskausien mittaiset kannustimet tai kärkihankkeet kuuluvat meikäläiseen demokratiaan ja niillä on oma roolinsa, kun nostetaan esille uusia pitkän aikavälin kehityskulkuja. Pikavoittojen tavoittelun voi jättää kunkin aikakauden nuoren sukupolven harteille. Se on usein paras haistelemaan uudet tuulet ja sillä on halu ottaa valta ja ohjat vanhoilta jääriltä – oli kyseessä sitten digitaalinen tieto tai tekniikka. Valtiovalta suitsii, jos tulee tehtyä ylilyöntejä.

 

KUVA: THINKSTOCK

Blogger: Manne Miettinen Klaus Lindberg Blog Topic: Science and research

Naively, one might think that reputation in science is about scientific excellence and brilliant minds – and partly that is true, of course. However, this is far from the entire truth: On the Academic Ranking of World Universities 2017, University of Copenhagen is in place 30, Karolinska Institutet is 44th, University of Helsinki is 56th, and University of Oslo is 62. This is fairly good, but still quite far from the real top places.

Among the top 30, there is an almost ridiculous dominance by native English-speaking nations. The highest ranked non-English nation university is the Swiss Federal Institute of Technology in Zurich at place 19, University of Tokyo in place 24, and as third, University of Copenhagen.

Without a doubt, American, British, Canadian, and Australian universities are very good, but are they really that dominant in scientific excellence? The answer to that question is simple – No. The reason the English-speaking nations can dominate the rankings to such a high degree is the obvious one: the language of science is English. Before the Second World War, the language of science was, by and large, German, and then German universities were dominating the world scene of science.

The reason for this language-driven dominance is that science is indeed about scientific excellence and brilliant minds, but it is also about prestige, visibility, and building a strong brand. This is incredibly much easier if you master the language of science far better than your competitors. And when the entire staff of a university has this advantage, that university easily becomes famous and reach the top of the rankings.

If you are Scandinavian and your name has strange letters with dots and lines and your affiliation is a university nobody-ever-heard-of, then it is very hard to become a famous scientist just on your own. It demands that you are very socially talented, and write like a world class novelist. The best chance to reach a prestigious position is to seek collaboration with already strong names and institutions.

Lately I have come across criticism about Nordic research collaboration in the form: what is really the benefit of all these collaboration attempts? Indeed, the science itself rarely needs any officially lead collaborative projects. The researcher themselves can handle that just fine – often in a highly casual fashion.

The benefit, however, is of a different kind: Let’s imagine we count the Shanghai list of university ranking of 2017 so that we count the Nordic country as one nation. Looking for how far we have to go down the list to find the three strongest universities of a country. America is then number one, followed by UK, and the Nordics in the third place! Then follows Germany, Switzerland, Canada, and France.

Does anybody think that scientific research in the Nordic countries has a general reputation that is this high? Sure, Sweden is famous for the Nobel prize, and Denmark for the ‘Copenhagen interpretation’ of quantum mechanics, but in general the Nordic countries are famous for stable, democratic, and socially just societies, not for their science.

This is what the Nordic scientific collaboration should be all about – to build larger, stronger academic entities with much more international visibility. That’s the point!

 

Read more:

CSC's Nordic and other collaboration projects at www.csc.fi/collaboration

Blogger: Jan Åström Blog Topic: Science and research


The Computational Chemistry Days 2018 were organised by the University of Helsinki on 28th–29th May. The Days have a long, successful history of bringing scientists together to initiate collaboration and share inspiring ideas. I'd like to express my warmest thanks to the organizers for creating a relaxed, open and friendly atmosphere while practical arrangements worked smoothly. Next year, the Days will take place in Kuopio.

The days were attended by over 100 people, the majority from Finnish universities, with ca 20% from elsewhere in Europe. The event was a great way to discover what's going on in other universities and make connections for future collaborations, especially so for the student participants, who made up half of the audience.

Emphasis on method development including machine learning

This year the emphasis was on computational method development, including machine-learning techniques. Since computational methods have been used in chemistry for decades the variety is large and therefore it was both useful and interesting to see the advances on multiple fronts. I also believe exposure to latest methods outside one's own bubble (or de facto standard tools) will be useful to make big steps forward. In fact, if a new bleeding-edge-method is found, likely being developed in a group somewhere in Europe, the researcher might want to make use of HPC-Europa3 (see below) to visit the group to facilitate adopting the method in one's own research. The city of Helsinki had arranged a welcome reception in the Bock house hosted by Deputy Mayor for Education Pia Pakarinen, and Senior Adviser to the Mayor Victor Andersson.

Welcome reception arranged by the City of Helsinki in the Bock house.

Some highlights of talks

In his plenary talk, Prof. Roland Lindh from Uppsala outlined how quantum chemistry has evolved from its roots at the beginning of the last century, and the changes that artificial intelligence and machine learning will bring in the current century. Predictive power of computational methods will grow significantly enabling completely new approaches. One is the inverse design problem, where instead of simulating the properties of a given molecule, one simulates what kind of molecule would possess a given property. Prof. Lindh also cited a number of other challenges, one of which is the Chemical Turing Test; if and when the results of a simulation become indistinguishable from the results of an actual physical experiment, choosing whether to do theory or experiment boils down to factors like cost and environmental sustainability.

Prof. Patrick Rinke from Aalto University presented the benefits of sharing your computational results in the NOMAD CoE (Novel Materials Discovery Laboratory) in his talk. The NOMAD services automatically parse and add metadata to the raw output of your calculations and make them discoverable by others - or by you: how much of the data you or your post docs generated two years ago can you still find? The NOMAD tools allow easy browsing and filtering of the data, as well as more advanced machine learning analysis. Prof. Rinke also presented a new genealogy or tree of life of materials that will be used to categorize uploaded content in NOMAD.

Prof. Patrick Rinke presenting the Tree of Life (or genealogy) of materials
developed in his group which will be used to categorize the computational results
uploaded in the NOMAD Repository.

One of my personal favourites was Prof. Esa Räsänen's overview of signal processing using the DFA (Detrended Fluctuation Analysis) and its applications in heart monitoring but also on explaining why Jeff Porcaro's groove is so famous. The connection to chemistry is a bit elliptic, but I'm sure there are always signals to be analysed and DFA seems like a robust and informative alternative.

It's important to meet researchers in person

Personally I find the face to face discussion with researchers always very useful but also interesting. During the event, the discussions resulted immediately in a few improvements in CSC's services and software portfolio. Thank you for the useful discussions! In retrospect, this is not a big surprise, since the participants came from an extremely relevant customer segment for CSC. Most (all except one?) talks given by the researchers affiliated at Finnish universities had used CSC's resources (and appropriately acknowledged it, thanks!). Correspondingly, CSC seems to be an important infrastructure for the computational chemistry community in Finland. CSC recently conducted a customer survey, whose results have been analysed and actions are being implemented. Take a look at a blog entry summarising the feedback (link below).

In addition to conversing with the participants, we also strived to improve the researchers' awareness of the HPC-Europa3 programme which funds international research visits involving computational research. Based on the statistics of accepted visits, chemists and materials scientists have been the most active fields of science grabbing this opportunity. Despite this, HPCE3 could support many more visits, both to Finland but also from Finland to Europe. If you want to start new or strengthen existing collaboration, why not let the European Union cover the costs? If you have any questions, don't hesitate to contact us at hpc-europa@csc.fi.

Poster session gate crashed by virtual reality

The poster session gathered almost 30 posters competing for two prizes: one voted by all participants and another selected by an expert jury. As one of the organizers Dr. Mikael Johansson aptly noted in the prize ceremony, the field is evidently progressing as one of the poster prizes was awarded not to a traditional 2D printed sheet at all, but to an interactive hands-on virtual reality experience "VRChem: A molecular modeling software for Virtual Reality" by Otso Pietikäinen from Aalto University. With VRChem the researcher can build and manipulate chemical structures using a HTC Vive set. The other poster award was given to Dr. Piotr Batys et al. from Aalto University for their work on where the unique properties of spider silk come from (more details on these can be found in the Abstract book available on the event website, see below).


Otso Pietikäinen from Aalto University instructing Aapo Malkamäki
(with headset) on building and manipulating molecules with his
virtual reality VRChem software employing HTC Vive hardware. Photo: Toomas Tamm.


More information:

Computational Chemistry Days 2018
HPC-Europa3
NOMAD CoE
Summary of customersurvey feeback in 2018


Top image: Prof. Roland Lindh outlining the development of computational chemistry and anticipating great advances during the next years. Photo: Nino Runeberg, CSC.



 

Blogger: Atte Sillanpää Blog Topic: Science and research HPC

First of all, thank you for replying to our customer survey! We received over 250 replies, with most of our customer segments well represented, giving very valuable feedback for how to improve our service and software portfolio to meet the needs of today's scientific research. We are at the moment planning how to develop our services accordingly and picking "low-hanging fruits" (like installing missing software packages) on the go. We would like to put emphasis on some of the points brought up in the survey, and give our responses and suggestions on how to mitigate and overcome the observed shortcomings.

True, not enough capacity

In many responses being short of some particular resource (e.g. large-memory nodes, GPUs, or CPU cores in general) was pointed out. We are painfully aware of this. The current generation of systems was installed in 2012-2014 and thus clearly out of its competitive lifetime. Luckily, and as you have hopefully heard before, we are currently renewing the whole computing and storage ecosystem at CSC under the funding and development program DL2021. The call for tenders is out at the moment, and we should know during the autumn timeframe the exact specs of the upcoming systems. The users will have the first major chunk of new capacity (which will be Taito-like) in their disposal in early 2019. So please try to bear with us and the current situation for a couple of months more. The new systems will be worth waiting for.

You can always ask for software installations

You can see the list of installed software at https://research.csc.fi/software which lists the softwares that are actively maintained in the CSC servers. However, especially in Taito there are many tools and utilities that are installed even though CSC is not actively supporting them.

If you can’t find the software (or version) you want to use in the software list, you can use the module spider command to check if there is a module for the tool you wish to use, e.g. module spider gatk

Still no luck? Feel free to ask for the installation from CSC Servicedesk (servicedesk@csc.fi).  Alternatively, you can try to install the missing tool yourself to Taito. CSC can support you with the installation if facing problems.

Please meet Julia

There were several requests for providing Julia programming environment. Julia is an emerging high-level but high-performance programming language and framework. We are happy to announce that Julia is now available on Taito as a high-performance version, just load the module "julia" and go. Give also a try for the Jupyter notebooks version available at notebooks.csc.fi. The Julia programming environment is supported hereafter in a similar fashion as we develop our R and Python environments.

You can invite us over

There were couple suggestions of CSC staff visiting you local campuses. We are always eager to meet our customers and happy to tell about our services. If you have a group seminar, faculty day or some training that might benefit from a presentation and/or Q&A session of our services, feel free to send us e-mail (servicedesk@csc.fi) and invite us over!

We have updated our material archives

There were lots of wishes for online learning materials, so we gathered them for your convenience. You can search for CSC course materials on other topics from our event archive (hint: the tag cloud helps! Just click “show keywords”). Some topical materials are also gathered in the Materials site.

We are also continuing our webinar series. We record the webinars for later viewing as well. You can find the list of past and upcoming webinars as well as the links to the recordings here: https://research.csc.fi/csc-webinars. Note that you can also suggest new webinar topics using the form there!

Running long jobs

On Taito, the maximum runtime is two weeks (14 days). In cases where longer jobs than this are needed, the first thing to do is to check if the task can be split into several shorter tasks. For instance, even if all the steps of the workflow could be executed as one batch job, however for (too) long jobs you need to run different steps as separate batch jobs. Not trying to do everything at once also helps you in optimizing the resource requests.

In the rare case when the job cannot be split into shorter sub-tasks, then the recommended option is to install your own version of the software to a Virtual Machine running in cPouta. We prefer helping you to set up your own virtual machine for this purpose rather than extend the execution time of your batch job.

Wanted: R and Python courses

Many of you wished for R and/or Python courses, and we are happy to deliver! We have been offering general beginner level courses, as well as some more topical courses for visualisation and data handling, but now we would like to ask you what you really want to achieve with R and/or Python to see whether we can tune our courses to meet those learning goals of yours.

Please, especially if you are planning on joining one of our future courses, take a moment and answer these  further questions: https://www.webropolsurveys.com/S/9DCF1D5A391072BD.par
       
Your voice has been heard. In case of further ideas or comments, please do contact us (directly, via CSC Servicedesk, comment below, when meeting our staff in person,...).

Photo: Thinkstock

Blogger: Pekka Manninen Maria Lehtivaara Blog Topic: Software Science and research Data HPC
— 20 Items per Page
Showing 1 - 20 of 49 results.