Emil Svoboda: Věda byla můj dětský sen

Emil Svoboda: Věda byla můj dětský sen

Informatika / rozhovor

Nadační fond Bernarda Bolzana (NFBB) už po více jak dvě desetiletí oceňuje mladé vědkyně a vědce, kteří dosahují mimořádných výsledků. Jedním z laureátů výročních cen za rok 2024 se stal dr. Emil Svoboda, který působí v Ústavu formální a aplikované lingvistiky MFF UK.

Mgr. Emil Svoboda, Ph.D. (foto: Tomáš Rubín)
Mgr. Emil Svoboda, Ph.D. (foto: Tomáš Rubín)

Už od tří let ví, že jeho život tak či onak musí souviset s vědou. Začal studiem klasických jazyků a přes fonetiku se dostal až na Matfyz. NFBB ocenil jím vyvinutý nástroj PaReNT, který využívá metody hlubokého učení k modelování slovotvorby v sedmi jazycích. Stejné metody však uplatňuje i v medicínských aplikacích a neuronovým sítím asi zůstane věrný ještě po dlouhou dobu...

Vaše práce zasahuje do oblastí komputační lingvistiky i počítačového zpracování přirozeného jazyka. Musí mít vědec v tomto oboru jazykový cit?

Krátká odpověď zní „ano“. V případě komputační lingvistiky, studia jazyka obohaceného o výpočetní metody, je to podle mě nevyhnutelně nutná podmínka. V případě počítačového zpracování přirozeného jazyka, tedy informatického oboru orientovaného na úlohy týkající se přirozeného jazyka, jde „jen“ o obrovskou výhodu. Mezi těmito disciplínami je samozřejmě velký překryv, do kterého ostatně spadá i můj projekt.

Pokud byste měl vyvažovat mezi humanitním a exaktním pohledem na studované otázky, který přístup bude převažovat?

Exaktní přístup převládá. Zabývám se komputačními metodami a algoritmickým modelováním struktury slovní zásoby. Humanitním přístupem počítači nevysvětlíte, jak má modelovat skládání a odvozování slov, musíte programovat, a to je exaktní činnost par excellence.

Tím nechci říct, že humanitní otázky nemají v mojí práci místo, protože v problematice slovotvorby existuje spousta nejednoznačností a kompromisů. Více než 80 % času určitě věnuji řešení exaktních problémů. Na druhou stranu, těch zbývajících 20 % je klíčových, takže ve výsledku se ani bez jednoho člověk neobejde.

Jaká byla vaše cesta do této oblasti informatiky?

Mojí vášní je výzkum. Co konkrétně zkoumám, je z hlediska mého osobního naplnění už docela vedlejší. Tím pádem mám tendenci se připojovat k projektům, u kterých mám pocit, že zrovna pro ně mají moje schopnosti a znalosti potenciál posunout celou věc dopředu.

Tento konkrétní projekt mě zaujal, protože mám velmi široké jazykové zázemí. Absolvoval jsem bakalářské dvouoborové studium klasická řečtina – angličtina, navíc jsem bilingvní a kromě češtiny je mým druhým jazykem bulharština.

Náplň mého bakalářského studia zní zdánlivě irelevantně, jenže velkou část slov, kterými se zabývám, tvoří tzv. neoklasická kompozita. Jsou to slova typu psychologie, grafomanie, andragogika. Často se skládají z více konstituentů (biotechnologie, mikrofotografie) nebo výrazů hybridizovaných s domácí slovní zásobou (biomléko, kočkolit). Modelovat tuto slovní zásobu, která je mimochodem minimálně v evropském jazykovém prostoru do značné míry sdílená, bez znalosti latiny a klasické řečtiny by bylo velmi obtížné.

Magisterský titul mám z fonetiky. Tady jsem se naučil programování a základům strojového učení, protože moje diplomová práce se týkala automatické detekce roztroušené sklerózy z mluvené řeči. To doplnilo moje dovednosti pro současnou oblast výzkumu. Spoustu věcí jsem se samozřejmě také naučil během doktorského studia, například techniky pokročilého hlubokého učení.

Věnujme se teď stručně oceněnému nástroji PaReNT, který modeluje slovotvorbu napříč sedmi jazyky. S jakým záměrem jste jej vytvořil?

Během doktorského studia jsem byl součástí výzkumné skupiny kolem DeriNetu, což je databáze mapující slovotvorné vztahy v češtině. Například slovo kachňátko v ní odkazuje na svého předka, slovo kachně, a kachně zase odkazuje na slovo kachna.

Já jsem měl primárně za úkol modelovat složeniny, což jsou slova, která mají více předků. Například „černobílý“ odkazuje na slovo černý i na slovo bílý. V rámci obohacování DeriNetu o tato slova jsem se rozhodl hledání předků složenin automatizovat pomocí neuronové sítě. Jenže pak se ukázalo, že když se neuronová síť naučí modelovat i slova s jedním předkem (tzv. deriváty), třeba zrovna to kachně, tak jí to pomůže i se složeninami. A tak se nástroj přeorientoval na slovotvorbu v obecnějším rozsahu.

Původním záměrem bylo a stále je pomoci vyhledávat nové vztahy pro složeniny v DeriNetu, ale nakonec vše dopadlo tak, že PaReNT umí zpracovávat i deriváty, a to nejen v češtině, ale i v angličtině, němčině, nizozemštině, francouzštině, španělštině a ruštině.

Jak se v nástroji PaReNT konkrétně uplatňují metody hlubokého učení?

Jádrem celého nástroje je neuronová síť se specifickou architekturou přizpůsobenou dané úloze. Jde o hybrid rekurentní sítě a sítě typu Transformer, což je architektura známá z naprosté většiny jazykových modelů. To je alfa a omega celého projektu.

Přístupy bez použití hlubokého učení jsme zkoušeli úplně na začátku, ale hluboké učení bylo skoro v každém ohledu, kromě výpočetní náročnosti, prostě lepší. Logicky jsme proto šli tímto směrem. Model je trénovaný na všech sedmi jazycích zároveň, protože tyto jazyky mezi sebou sdílí část slovní zásoby, například už zmíněná neoklasická kompozita. Připomenu jednu zajímavost, kterou model ukazuje.

Je trénovaný tím způsobem, že se databáze rozdělí na dvojičky, kde na levé straně je vstupní slovo a napravo pak slovotvorný předek nebo předci. Například tedy:

černobílý černý, bílý
kachně kachna
kachňátko kachně
kachna 0

Modelu se pak zadávají slova na levé straně a učí se vracet slova na pravé straně. Pomocí algoritmu „beam search“ však dokáže poskytnout více odpovědí, třeba seznam pěti nejpravděpodobnějších kandidátů na předky. Odpovědi jsou tedy širší, než by napovídala zdrojová databáze slovních dvojic.

Zajímavé je, že pokud zadáme třeba dotaz kachňátko, většinou vrátí jako prvního kandidáta kachně. Druhý nejpravděpodobnější kandidát však bývá kachna. To je v podstatě také správná odpověď, navzdory tomu, že v trénovacích datech vztah kachňátko – kachna explicitně nikde není. Najdeme tu jen vztahy kachňátko – kachně a jinde kachně – kachna. Neuronová síť si tedy z naučených lokálních vztahů dokáže do nějaké míry modelovat globální strukturu slovní zásoby.

Zatím modeluje jen indoevropské jazyky, počítáte s rozšířením i na další jazykové rodiny?

Přidat jazyky z jiných jazykových rodin by z hlediska výpočetního výkonu nebyl problém. Větší potíž by spočívala v opatření trénovacích dat. Jazyky, které PaReNT momentálně podporuje, totiž mají databáze strukturou podobné DeriNetu, což většina jazyků, pokud je mi známo, jednoduše nemá. Kdyby za mnou někdo přišel, že má u sebe na flashdisku databázi podobnou DeriNetu, třeba v grónštině nebo sumerštině, pak není v zásadě žádný problém model přetrénovat právě na tyto či jiné jazyky. Architektura modelu je v principu dostatečně obecná, aby se s takovýmito jazyky dokázala vyrovnat. Databáze by samozřejmě musela být dostatečně velká, mluvíme o desítkách až stovkách tisících hesel, a to je v zásadě onen hlavní problém.

Budete tento nástroj i nadále rozvíjet?

Další rozvoj a podpora jsou určitě v plánu. Momentálně jsem však součástí grantového projektu, který souvisí spíše s mojí magisterskou prací. Věnuji se zpracování videomateriálů z gastroendoskopie a automatické detekci onemocnění, jako je rakovina tlustého střeva nebo Crohnova choroba, opět za pomoci hlubokého učení. Součástí tohoto projektu je také automatické zpracování lékařských zpráv…

Proč jste se rozhodl pro studium na Matfyzu?

Během studia fonetiky jsem zjistil, že dokážu používat metody strojového učení a programování ve velké míře a našel jsem v nich velkou perspektivu. Přešel jsem proto na Matfyz, který má pro takové metody excelentní zázemí a know-how.

Chcete na fakultě zůstat a dále se věnovat výzkumu, nebo vás láká komerční sféra?

Zatím bych chtěl na fakultě ještě minimálně rok zůstat a věnovat se výzkumu. Pak uvidím, jak se bude situace vyvíjet. Jsem si však jistý, že výzkum v nějaké smyslu toho slova budu dělat vždycky.

Jak vnímáte ocenění NFBB?

Vždycky jsem chtěl být vědec a nezastírám, že je za tím i určitá touha po ocenění inovativní práce. Cena NFBB mě tedy mimořádně těší. Když se topíte v různých termínech, detailech řešení dílčích problémů nebo v jejich programování, není čas si uvědomit, že to, co si člověk pro sebe vymyslel ve třech letech, se vlastně naplňuje a děje přesně tak, jak chtěl. Je to zvláštní pocit.

Nadační fond Bernarda Bolzana funguje od roku 1999 při Matematicko-fyzikální fakultě UK. K jeho úkolům patří mimo jiné nevýdělečná podpora vědecké a pedagogické činnosti na Univerzitě Karlově v oborech fyziky, matematiky a informatiky, rozšiřování úrovně experimentálních možností a teoretických postupů nebo zprostředkování širšího mezinárodního uplatnění vědeckých výsledků dosažených v daných oborech na UK.

Další články k tématu