Vědkyně Terézia Slanináková: Open Science prospívá komunitě

Open Science a její principy. To je téma, které zajímá mladou vědkyni Terézii Slaninákovou působící na Fakultě informatiky a Ústavu výpočetní techniky brněnské Masarykovy univerzity. Její původní zájem o informační technologie vzešel z čisté zvědavosti o Machine Learning. A nově publikovaný článek v mezinárodním časopise Information Systems je důkazem toho, jak se Terézii a jejímu týmu podařilo otevřenost v práci s daty zapojit do každodenní vědecké práce v oblasti IT.

1. 11. 2023 Marie Hošťálková

Bez popisku

Mezinárodně recenzovaný časopis Information Systems publikoval článek Vás a Vašeho výzkumného týmu. Proč zrovna článek s názvem Reproducible experiments with Learned Metric Index Framework. Co Vás vedlo k tomuto tématu?

Dostali jsme podnět od editora žurnálu Information Systems, abychom navázali na jeden z našich už publikovaných článků s názvem Learned Metric Index — Proposition of learned indexing for unstructured data. Tento článek se týkal vyhledávání v komplexních datech, tedy vyhledávání pomocí organizace dat s využitím umělé inteligence v databázích obrázků a videí. Editor časopisu Information Systems nás vyzval, jestli bychom nechtěli vzít výsledky publikované v tomto článku a rozebrat krok po kroku. Vznikl by návod, vlastně sdílený nástroj, který by mohli použít i další výzkumníci v IT a využít ho ve své práci.


Na co jste se při vyhledávání pomocí umělé inteligence soustředili?

V obou našich článcích šlo především o obrázky. A to ne na úrovni pixelů, ale deskriptorů. Takový deskriptor je specifická informace, která by se dala v nadsázce přirovnat k DNA nebo rodnému číslu člověka. Uchovává klíčovou informaci o objektu, a proto je potřeba být ve vyhledávání ještě pečlivější, než kdyby šlo o čísla. Když máme datovou sadu dat nestrukturovaných – tedy dat, které není možné smysluplně seřadit – tak je vyhledávání v nich daleko větší výzvou než vyhledávání v datech, u kterých seřazení možné je. Samozřejmě vyhledávání v datech strukturovaných je jednodušší. A v článku Reproducible experiments with Learned Metric Index Framework vše „rozpitvali“ v souladu s principy Open Science neboli otevřené vědy.


Co byla pro Vás při zpracování textu výzva?

Na začátku všeho bylo potřeba si uvědomit, co je vlastně cíl. Naším cílem předchozího vědeckého článku bylo vytvořit tzv. proof of concept, tedy počáteční řešení. Tady byl náš úkol jiný. Šlo o to celý proces perfektně zdokumentovat, aby ho mohli jednoduše využít i další vědci. Překopali jsme tedy celý kód, o kterém byl náš první článek, aby byl čistší a bylo možné ho dobře používat. Taky jsme se chtěli inspirovat v textech, které se zabývaly podobnou výzvou, a to něco dokonale zdokumentovat. Kupodivu jich nebylo mnoho. A když jsme už nějaký našli, tak nebyl pro naše užití ideální. U objevených textů jsme museli hledat cestu ke kódu, který tam autoři popisovali. Navíc našim tématem bylo pořád vyhledávání v nestrukturovaných databázích obrázků.




„Takový deskriptor je specifická informace, která by se dala v nadsázce přirovnat k DNA nebo rodnému číslu člověka. Uchovává klíčovou informaci o objektu, a proto je potřeba být ve vyhledávání ještě pečlivější, než kdyby šlo o čísla.“

V čem je hodnota právě vydaného textu?

V tom, že má potenciál sloužit okamžitě dalším výzkumníkům – je konkrétnější než jiné texty, které byly na podobné téma doposud publikovány. A těch ani není mnoho. Výzkumníci mohou znalosti z textu hned použít ve své práci.

Jak já ráda říkám, jsou tu dvě linky. První případ je, že následováním tzv. reprodukčního protokolu (reproducibility protocol) si mohou snadno stáhnout data, která jsme používali. Doslova mohou „rozběhnout“ prostředí, v němž jsme experimenty dělali a za použití dalších konfiguračních souborů a kódu rozpohybovat naši sadu experimentů. Taky mohou použít náš kód pro analýzu či vizualizaci a ověřit si správnost výsledků, které máme v článku. A druhá linka je, že celou sadu těchto artefaktů mohou vzít a inspirovat se jimi při vytváření vlastního protokolu, designu experimentů, konfiguračních souborů nebo prostředí.


A co to přineslo Vám osobně?

Udělat si pořádek. Smích. Udělali jsme si s celým týmem pořádek ve vlastním výzkumném procesu, a to od formulování hypotéz skrz průběh experimentů až po finální článek. Chtěla jsem být schopná se vrátit po pár letech k vlastnímu článku a mít hned k dispozici data, kód, experimenty, analýzy, grafy a vědět okamžitě co a jak. To, aby naše práce byla otevřená, tedy transparentní, je velká motivace. Osobně mě baví, že se posouváme nejen v našem týmu kupředu, ale zároveň můžeme pomoci i někomu jinému s jeho prací.


Jak se díváte na vědce, kteří nechtějí svá výzkumná data sdílet?

Přece jen, to že někdo využívá naše data nebo informace – je jedno, jak to nazveme – to není jen tak. Musí nás citovat. A pravdou je, že ne každý má ale stejný postoj jako já nebo mí blízcí kolegové. Ve vědecké komunitě je pořád nějaký strach z toho otevírat svoji práci. Já osobně si ale myslím, že principy otevřené vědy jsou přínosem pro všechny výzkumníky. Velkou výhodu vidím i v tom, že se k nám vědcům tímto způsobem dostane zpětná vazba, kterou můžeme využít dál. A my jako vědci se chceme posouvat dál!


„Chtěla jsem být schopná se vrátit po pár letech k vlastnímu článku a mít hned k dispozici data, kód, experimenty, analýzy, grafy a vědět okamžitě co a jak.“

To je pravda. Vaše nadšení pro vědu je příjemně nakažlivé. Aktuálně dokončujete doktorské studium. Na co se zaměřujete ve své disertaci?

Zabývám se efektivním vyhledáváním v komplexních datech na základě podobnosti. Jde o datové sady různých objektů, což jsou třeba texty, obrázky, videa nebo biologická data, jako jsou proteinové struktury. Moje datové sady dosahují objemů stovek milionů až miliard objektů. V zásadě pak jde o to, že namísto miliardy přímých porovnání umíme v datech odhalit takové vzory, které nám pomohou najít jim podobné výrazně efektivněji. Vyhledávat dokážeme velmi přesně a rychle, a to i díky strojovému učení.


Umělá inteligence, tedy AI, je aktuálně často skloňovaným pojmem. Vy jste se ale o AI začala zajímat už na střední škole. Kde se Váš zájem vzal?

Není za tím žádný srdcervoucí příběh. Smích. Bavily mě počítače a spoustu času jsem trávila na internetu, kde IT nadšenci diskutovali aktuálně „cool“ IT témata. A tu jsem taky zaregistrovala strojové učení. Chvilku jsem to registrovala jen tak periferně, ale pak jsem natrefila na první online knihu o neuronových sítích. Bylo to v roce 2015 a šlo o online knihu Natural Networks and Deep Learning autora Michaela Nielsena. A mě to prostě nadchlo a řekla jsem si, že tohle je něco, co mě v IT opravdu zajímá.


Během studia jste čerpala i zkušenosti v zahraničí. Byla jste na stáži v dánském Aalborgu a německém Kielu. Čím jste se konkrétně zabývala? A jak jsou vnímání v zahraničí čeští vědci?

Na Aalborg University a Kiel University jsem řešila především podobnosti ve vyhledávání. Měla jsem štěstí, že se obě univerzity tímto tématem intenzivně zabývají a já se tak mohla učit od těch nejlepších. Výrazněji mě kupředu posunula stáž v Německu, kde se mi intenzivně věnoval profesor Kröger, který je odborníkem na tuto problematiku. Probírali jsme konkrétní výzkumný nápad a rozvíjeli ho dál. Každé dva týdny si spolu diskutujeme pokroky v projektu prostřednictvím online hovorů.

A já osobně jsem se na zahraničních univerzitách necítila nikdy špatně. Ten pocit, že Češi a Slováci jsou ti z východu a mají se ještě hodně co učit, je podle mě pouze v našich hlavách. Setkávala jsem se s pravým opakem. A protože jsem se pohybovala ve studentských komunitách, učitelé nás vnímali jako ty, kteří se chtějí něco naučit.


 


 

„Bylo to v roce 2015 a šlo o online knihu Natural Networks and Deep Learning autora Michaela Nielsena. A mě to prostě nadchlo a řekla jsem si, že tohle je něco, co mě v IT opravdu zajímá.“

A když se vrátíme v závěru opět k tématu otevřené vědy. Jak motivovat mladé výzkumníky, že Open Science má své místo v současné vědě?

Myšlenky open science dávají smysl pro celou vědeckou komunitu, a to bez ohledu na obor. Jsou prostředkem ke zlepšení celého výzkumného procesu. Osobně se snažím vždy pracovat pečlivě, ale chyby se prostě stávají. Pokud jsou procesy Open Science dobře nastavené, mohou chyby výzkumníkovi rychle a efektivně najít, takže nám pomáhají.


A poslední věta na závěr?

Obklopte se lidmi, kteří mají stejné hodnoty. Pak je vše jednodušší.

Terézie, děkujeme Vám za rozhovor pro web iniciativu EOSC v ČR. Přejeme Vám mnoho úspěchů do budoucna a nekonečnou vědeckou inspiraci. A samozřejmě mnoho nadšených kolegů pro Open Science.


RNDr. Terézia Slanináková


Vědkyně Terézia Slanináková působí ve výzkumné skupině Intelligent Systems for Complex Data na Fakultě informatiky Masarykovy univerzity, kde pod vedením Vlastislava Dohnala a Mateje Antola píše svoji disertační práci. Aktuálně se také zabývá vývojem platformy EnviLab analyzující geoprostorová data v ČR ve výzkumné skupině pro Data Science pod vedením Toma Reboka z Ústavu výpočetní techniky Masarykovy univerzity. Terézia aktivně aplikuje zásady Open Science ve svém výzkumu a motivuje další mladé výzkumníky, aby principy otevřené vědy přenášeli do svých výzkumných projektech.


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.