Vědec si sám určí, komu zpřístupní svá data, říká hlavní manažer EOSC CZ Matej Antol

Podle Mateje Antola má teď česká věda obrovskou příležitost na rapidní posun vpřed za pomoci zlepšení přístupu ke správě výzkumných dat. V rozhovoru mluví i o tom, jak se v oblasti ukládání, sdílení, a hlavně zvýšení dostupnosti dat můžeme etablovat mezi evropskou, ne-li světovou špičkou. Zdůrazňuje také, jakou cestu ještě musí věda urazit, jak jí v tom pomůže vznik národní repozitářové platformy a co konkrétně to bude znamenat pro samotné vědce.

18. 12. 2024 Martina Čelišová

Jaké nejvýznamnější změny vědu v budoucnu potkají?

Předpokládám, že věda bude za sto let vypadat úplně jinak. Dnes neumíme vědu systematicky hodnotit jinak, než „sběrem čárek“ za články. Vědec je chtě nechtě nucen publikovat někdy až nesmyslné množství článků, protože tak může nasbírat co nejvíc citací, a tak postoupit výš ve standardním kariérním žebříčku. Navíc aktuálně do renomé vědce vstupuje ještě aspekt jeho popularity, tedy nakolik je ono renomé postavené na tom, že je vědec někde vidět a slyšet, a nakolik jsou jeho výstupy skutečně hodnotné. Jedním z dalších zásadních nedostatků, které současná věda má, je také to, že se k výsledkům výzkumu často prostě nemůžeme dostat. Myslím si a doufám, že to, jak se realizuje věda, bude v těchto a dalších ohledech v blízké budoucnosti racionálnější.

Velkou rolu v tom, jak se věda vyvine, podle mě sehrají výzkumná data. Už dnes víme, že data jsou přinejmenším stejně tak hodnotná jako jejich interpretace. Často lze data interpretovat mnoha způsoby a publikováním jen jediného výsledku výzkumu formou článku ztrácíme ohromné množství informací, a tak i potenciálu pro další výzkum. Navíc se právě na datech dá mimo jiné ověřit kvalita výzkumu.

FAIR přístup k vědeckému bádaní i celý koncept Open Science nabízí směr, kterým by se problematika nastavení kvality vědy mohla dál posouvat. Open Science říká, že by výsledky vědy měly být všeobecně dostupnější pro lidi. Data splňující FAIR principy jsou de-facto data řádně spravovaná, a iniciativa EOSC CZ pak skrz správu FAIR dat napomáhá tomu, abychom výzkumná data mohli lépe a jednoduše využívat.

Znamená to tedy jít cestou větší kvality než kvantity?

To je určitě součástí. Hlavní charakteristiky standardního vědeckého výstupu, tedy zejména publikování článků, jsou v této době tyto: Za prvé dnes existují stimuly publikovat tzv. MPU (Minimum Publishable Unit) - to znamená, že existují tlaky v nastavení systému, kvůli kterým výzkumník raději než jeden kvalitní článek, napíše čtyři menší a nasbírá víc, řekněme, akademického kapitálu. Za druhé, a to už se dá i celkem dobře měřit a kvantifikovat, je tady problém s reprodukovatelností. Pokud někdo napíše článek a někdo jiný by chtěl zopakovat výsledky, které v tom článku jsou, tak se to daří jen v menších procentech. Jsou pro to dvě vysvětlení: První a podle mě nejčastější je, že metoda není v článku precizně popsaná a nedá se tedy výzkum zopakovat. A druhé, že autor prostě udělal chybu nebo si v krajních případech vymýšlel. Takových anomálií existuje hned několik, a to je to, co v širším slova smyslu nazýváme krizí současné vědy. Open Science a výzkumná data přibalená k publikacím se tento problém snaží alespoň částečně řešit.

„Jedním z dalších zásadních nedostatků, které současná věda má, je také to, že se k výsledkům výzkumu často prostě nemůžeme dostat.“

Takže ve chvíli, kdy jsou data přístupná, vědec si už nedovolí výzkum podcenit? Bude možnost ho více kontrolovat?

Spíš bych tu rétoriku otočil. Když udělá vědec nějaký výzkum, založí na něm článek a někdo ho bude chtít napadnout, že to nemá pořádně podložené, tak řekne: “Ne ne, tady jsou všechna má data, klidně můžete moje závěry sami zreprodukovat.” Dnes dáváme ven publikace se slovy: “Hele, na co jsem přišel! Ale vlastně ti neřeknu, na základě čeho jsem na to přišel.” Čím kompletnější datové sady vědec publikuje, tím snáze je možné jeho výzkum zopakovat a výsledky ověřit. To bychom rádi podpořili i za tu cenu, jakou ukládání dat stojí, ačkoliv se tato investice může zdát zpočátku velká.

Publikování článků znamená je zveřejnit a zajistit, aby tam zůstaly dlouho, třeba sto let. To stojí peníze, i když samotný PDF soubor má minimální objem dat. Ale když chceme zpřístupnit i data, na jejichž základě jsme dospěli k výsledkům, jejich dlouhodobé uložení už stojí mnohem víc. Současný stav je tedy racionální, protože nemáme kapacity pro dlouhodobé ukládání dat. Samozřejmě existují výjimky, ale obecně musíme začít ukládat více zdrojů. Open Science říká: věda je financována z veřejných peněz, ale výsledky vědy nejsou vždy snadno přístupné. Zkusme tedy vědu více otevřít, jak už dalším vědcům nebo občanům, kteří za to přímo nebo nepřímo platí.

Mohli bychom si říct, co to vlastně data jsou? V rozhovoru s data stewardy jsme zjistili, že se často stává, že má pod pojmem data každý jinou představu.

Rozlišujeme surová a zpracovaná data. Když si představíme nějaký přístroj – teleskop, elektronový mikroskop nebo meteostanici, tak takový přístroj ta data chrlí. To jsou surová a většinou relativně objemná data, ale zároveň ta jediná data, která nejsou zkompromitována lidským pohledem. Ať už záměrně anebo nevědomě do nich ještě nevstoupil člověk, nejsou tedy nijak upravená.

Na druhou stranu s nimi ale většinou potřebujeme udělat hodně změn, abychom z nich mohli získat reálnou hodnotu, přičemž se typicky i významně zmenší jejich objem. V rámci EOSC CZ hledáme konsenzus ve vědeckých komunitách, co to vlastně jsou hodnotná data v konkrétní doméně, a v jakém formátu a objemu je má smysl ukládat.

„Čím kompletnější datové sady vědec publikuje, tím snáze je možné jeho výzkum zopakovat a výsledky ověřit.“

Hledáte tedy shodu na tom, jaká data má smysl uložit. Je to ve všech oborech na podobné úrovni?

Není. Různé domény se nachází v různém stadiu vyspělosti, co se správy dat týká. Jeden příklad z oblasti blízké mně osobně: Za poslední roky jsme za pomoci umělé inteligence došli k velkému množství proteinových dat, která nalézají využití v různých oblastech, od výroby léků až po řešení znečištění plasty. Tato revoluce se podařila i díky tomu, že je již padesát let stanoven jasný formát a repozitáře, ve kterých se proteinová data systematicky ukládají.

Jsou ale domény, ve kterých je ta situace výrazně složitější. Příkladem mohou být snímky povrchu Země. Pokud dělám turistické mapy, zajímá mě vždy poslední aktuální fotka krajiny. Pokud řeším environmentální změnu nebo změnu urbanismu, zajímá mě obraz krajiny měnící se v čase. Ta stejná data ale můžou mít spoustu různých využití, vyžadující různé přístupy k jejich popisu a uchovávání. Příklady jako tento dokazují, že je důležité naučit se s daty správně zacházet.

Dá se odhadnout, jak dlouho bude trvat, než se správa a ukládání dat ve všech oborech ustálí? A ustálí se vůbec nebo je předpoklad, že se i ukládání dat bude stále vyvíjet?

Doufám, že se to bude vyvíjet kontinuálně, podobně jako se dodnes vyvíjí třeba publikace. Vědci publikují stovky let a dnes už máme ustálené formáty, fóra a vydavatele. Přitom jsme ale teprve nedávno zjistili, že máme problém s tzv. persistentními identifikátory. Autor se donedávna podepisoval jen svým jménem, ale dnes můžeme mít několik vědců se stejným jménem. Pokud chci opravdu vědět, kdo je autor, musím použít nějaký identifikátor, nějakou analogii k rodnému číslu, ID výzkumníka. A to je něco, co jsme do publikací zanesli poměrně nedávno. Takže i tak zdánlivě triviální věc jako přepsat vědecký výsledek na kus papíru a dát to mezi vědce, se dodnes vyvíjí. S daty to bude ještě složitější, ještě živelnější. Určitě to není něco, co vyřešíme do pěti nebo deseti let, a pak se to zakonzervuje.

„Takže i tak zdánlivě triviální věc jako přepsat vědecký výsledek na kus papíru a dát to mezi vědce, se dodnes vyvíjí. S daty to bude ještě složitější, ještě živelnější.“

Jak teď vypadá správa vědeckých dat, v jakém je stadiu a jak by ideálně vypadat měla?

Nikdo neví, jak by měla správa vědeckých dat ideálně vypadat. Vědecké komunity už ale tuto otázku prozatím poměrně nesměle diskutují. Zároveň je ten stav v různých státech a v různých doménách skutečně velice odlišný. Na individuální úrovni jsou tu již dnes někteří výzkumníci, kteří se o svá data starají, jak nejlépe umí – buď s nimi potřebují systematicky pracovat oni sami nebo vidí potenciál k jejich opětovnému využití a ochotně je sdílejí se svými kolegy. A pak jsou tací, kteří svá data nedají ven za žádnou cenu. To, co má národní iniciativa vyřešit, je posunout to plošně někam dál.

Na evropské i české úrovni už začínáme vidět posun v plánovaní práce s daty. Existují takzvané Data Management plány, a pokud si dnes podám výzkumný projekt a žádám o finance na výzkum, grantové agentury se mě skrze ně zeptají, co plánuji s daty dělat. Tedy i samotní poskytovatelé financí vidí hodnotu ve výzkumných datech. Někteří vydavatelé už dnes chtějí, abych data k publikaci přiložil, takže malinké změny už se dějí i v této oblasti. To ještě před pár lety nebylo. A ta naše iniciativa chce svým způsobem ještě přilít olej do ohně – vytvořit kapacitu na to, aby bylo kde ukládat data, vytvořit služby, se kterými se jim bude dobře pracovat, a poskytnout podporu pro vzdělávání.

Jak tedy vypadá digitální zázemí české vědy? Jak moc je roztříštěné nebo naopak koordinované?

Všechno je to propojené, zejména pomoci takzvaných výzkumných infrastruktur. Kupříkladu e-INFRA CZ je národní výzkumná e-infrastruktura v oblasti IT, která poskytuje sítě, úložiště, výpočetní kapacity a další služby pro to, aby mohli výzkumníci pracovat s daty. e-INFRA CZ se skládá ze tří partnerů: CESNET, IT4Innovations, což je superpočítačové centrum v Ostravě, a CERIT-SC při Masarykově univerzitě, kde působím i já. A proč o tom mluvím? e-INFRA CZ je vlastně v jádru iniciativy EOSC v Česku. Takže i na tomto zázemí, spolu s dalšími výzkumnými infrastrukturami a institucemi, teď společně vytváříme národní repozitářovou platformu, která bude výzkumníkům sloužit na práci se strukturovanými daty.

Nějaké úložné kapacity pro výzkumná data při těchto infrastrukturách již samozřejmě máme, ale typicky slouží jinému účelu. Například ty na e-INFRA CZ byly primárně navrženy pro ukládání dat během výpočtů, tedy na dobu, kdy je analyzujeme. Tato data mohou být ve formátu, který není přístupný nebo pochopitelný pro ostatní. A tento stav se snažíme změnit. Vytváříme prostředí, které umožní ukládat FAIR data – data roztříděná a opatřena vhodnými metadaty (popisy), a ke kterým se mohou dostat i jiní výzkumníci. Budou mít srozumitelný formát a budou znovu použitelná pro mě, mé kolegy z výzkumného týmu, kolegy partnerské instituce nebo i pro kohokoliv dalšího podle toho, jak to stanovím.

„Na individuální úrovni jsou tu již dnes někteří výzkumníci, kteří se o svá data starají, jak nejlépe umí – buď s nimi potřebují systematicky pracovat oni sami nebo vidí potenciál k jejich opětovnému využití a ochotně je sdílejí se svými kolegy.“

Jak tuto evoluci ve vědě vysvětlit vědci, který tomu není úplně nakloněný a má strach, že data nebudou v NRP v bezpečí? Že je někdo zneužije, případně že databázi napadnou hackeři?

Za nejdůležitější považuji, že systém musí být intuitivní a jednoduchý na použití. Vědec chce dělat vědu a nemůže u toho bojovat s nějakým IT systémem. Musí to jít víceméně „samo“. Zároveň pokud chci data uložit do nějaké infrastruktury, tak jí prostě musím věřit. A jsou výzkumníci, kteří jí prostě nevěří. Raději si data nechají v počítači pod stolem. Tím však reálně riskují mnohem více. Co se týče zabezpečení dat, tak bych chtěl ještě jednou zdůraznit, že se nebavíme o otevřených datech, ale o datech řádně spravovaných, o tzv. FAIR datech. Máme k dispozici autentizační a autorizační systém, který umožňuje vědci nebo výzkumné skupině stanovit, komu budou data zpřístupněna. Někdy má ale pouhé lokální uložení dat poměrně logický základ, třeba v případě specificky citlivých dat. Zatím tedy přirozeně nedokážeme nabídnout řešení úplně každému.

Druhá věc je pak mentální nastavení vědců, to už jsem zmiňoval na začátku v souvislosti s publikacemi vědeckých článků a sbíráním čárek. Neplatí to tak úplně, protože dnes už víme, že když dá vědec k dispozici i svá data, a ta data pak někdo využije, tak má pak větší šanci, že narazí i na tu publikaci a zvýší mu množství citací. Zároveň je možné své datové sady přímo provázat se svými publikacemi prostřednictvím persistentních identifikátorů.

Jak je to v rámci EU, ale třeba i mimo ni? Bude skrz data propojený svět?

Jsme součástí evropské iniciativy, která se snaží odbourávat bariéry bránící výzkumníkům v přístupu k datům, softwaru a dalším digitálním zdrojům. To je podstata EOSC – European Open Science Cloud. Každá země má své zázemí, zvyklosti a legislativu, jak zacházet s výzkumnými výsledky. My na české infrastruktuře stavíme, ale neuzavíráme ji – naopak se snažíme o propojení se zbytkem Evropy a světa, protože izolovaný přístup by postrádal smysl.

V rámci iniciativy jsou vytvořeny pracovní skupiny zaměřené na různé obory, do kterých se zapojují i přední čeští vědci, kteří mají dlouholeté zkušenosti. Tito vědci jsou přirozeně v kontaktu s kolegy z celé Evropy a světa, a již nyní mají společná mezinárodní řešení, která se nacházejí v různých fázích vývoje. Díky tomu bude většina repozitářů, které u nás vzniknou, propojena s evropskými infrastrukturami a budou sloužit napříč vědeckými komunitami.

„Za nejdůležitější považuji, že systém musí být intuitivní a jednoduchý na použití. Vědec chce dělat vědu a nemůže u toho bojovat s nějakým IT systémem. Musí to jít víceméně „samo“.“

Dá se říct, na jaké úrovni jsme v České republice ve srovnání se zbytkem světa?

Na evropské poměry jsme na tom poměrně dobře. Před námi jsou podle všeho Němci a jejich NFDI (Nationale Forschungsdateninfrastruktur), s nimiž jsme v úzkém kontaktu. Německo je ale větší a funguje jako federace, a tak mají z logiky věci infrastrukturu více distribuovanou. My máme naopak tu výhodu, že k budování společného základu můžeme přistupovat poměrně centralisticky.

Česká republika má v různých oborech navázané mezinárodní spolupráce, díky čemuž máme povědomí o tom, co se ve světě děje, a jsme schopni zajistit vzájemnou kompatibilitu. Pokud s tím, co vzniká na evropské úrovni nesouhlasíme, tak musíme mít pádné důvody, proč to u nás chceme mít jinak. V tom případě jdeme s Evropou do dialogu a snažíme se ostatní přesvědčit o tom, že (a proč) je naše cesta lepší. A to se nám v některých případech i úspěšně daří.

Jak se tahle evoluce ve vědě může dotknout běžného občana? Budou mít pak vědci možnost díky tomu třeba korigovat dezinformace?

Už se to částečně děje. Dobrý příklad, i když již velmi omílaný, je covid, který měl přímý dopad na všechny občany. Část řešení toho problému ležela i na tom, nakolik racionálně umíme pracovat s daty a nakolik je umíme sdílet. Politici potřebovali data k rozhodování, museli se opřít o názory odborníků, které zase stály na tom, jaká data a interpretace se k nim dokázaly dostat. A čím vyspělejší bychom měli infrastrukturu, tím lepší rozhodnutí bychom dělali.

Celá komunikace mezi vědeckou komunitou a zbytkem světa stojí také na důvěře. A tu můžeme díky dostupným datům prohloubit a zároveň dát lidem prostor k vyvracení dezinformací. Výsledky vědeckého bádání můžeme komunikovat, ale jen samotná tvrzení někdy nejsou společností plošně akceptovány. Když však k těmto tvrzením přidáme data, lidé si mohou sami ověřit, že to tak opravdu je. Nechceme jen říkat: „Vědci zjistili, že planeta se otepluje.“ Mnohem lepší je ukázat data a říct: „Podívejte se na miliony dat získaných z teploměrů rozmístěných po celé planetě.“ Nemusíme tedy věřit pouze interpretaci jednoho člověka. Data tak dodávají tvrzením mnohem větší důvěryhodnost.

RNDr. Matej Antol, Ph.D.

je hlavním projektovým manažerem projektu EOSC-CZ, integrační manažer české e-infrastruktury e-INFRA CZ a výkonný ředitel jednoho z jejích tří partnerů, infrastruktury CERIT-SC zřízeného při Ústavu výpočetní techniky Masrykovy univerzity. Má dlouholetou zkušenost s vedením IT a výzkumných projektů. V rámci svých aktivit vedl budování platformy pro koordinaci řízení IT služeb na MUNI, prostředí pro správu citlivých dat SensitiveCloud a další. Jeho výzkumné aktivity se zaměřují na správu a analýzu komplexních a vysoce dimenzionálních dat (obrazová data, data z oblasti strukturní biologie apod.) za pomocí technik umělé inteligence.

Více článků

Přehled všech článků