Holky z informatiky – nová generace vědkyň: Patrícia Schmidtová

Holky z informatiky – nová generace vědkyň: Patrícia Schmidtová

Informatika / rozhovor / anketa

Hledají nové principy, objevují nečekané souvislosti, propojují teoretické poznatky s praxí a posouvají hranice lidského poznání. Řeč je o mladých vědkyních z Informatické sekce Matfyzu, které svými příběhy boří mýty o tom, že informatika není pro holky. Seznamte se s několika z nich prostřednictvím našeho nového seriálu. Jako první nás do svého badatelského světa, do oblasti počítačové lingvistiky, zavede doktorandka Patrícia Schmidtová.

Prezentace článku na konferenci v Tokiu (foto: archiv P. Schmidtové)
Prezentace článku na konferenci v Tokiu (foto: archiv P. Schmidtové)
Výzkumný svět: NLP (natural language processing)
Největší úspěch: 2 best paper awards na konferenciách v roku 2024
Profesní vzor: Môj kamarát Tom Kocmi
Vědecký zlozvyk: Multitasking – vždy robím na príliš veľa projektoch naraz, lebo nechcem odmietať zaujímavé spolupráce
Oblíbený citát: Don’t let perfect be the enemy of good
Co dělám, když nedělám vědu: Gymnastiku a Aerial Hoop
Kdybych nebyla vědkyní, byla bych: NLP engineer/data scientist

Co vás přivedlo k informatice a co vás na ní nejvíc baví?

Prvýkrát som prejavila záujem o programovanie, keď som mala 14 rokov. Mala som to šťastie, že môj otec je vyštudovaný informatik a vedel ma naviesť správnym smerom. Ukázal mi jazyk Comenius Logo (známy aj ako korytnačka Žofka), v ktorom som si postupnosťou jednoduchých príkazov kreslila obrázky. Neskôr som sa začala učiť Python a C. Moje rozhodnutie ísť študovať informatiku teda nikoho neprekvapilo.

Na informatike ma stále baví, aká krátka je cesta od nápadu k realizácii: keď si niečo vymyslím, tak si to viem sama rýchlo naprogramovať. Môžem to robiť kdekoľvek, stačí mi k tomu len môj laptop.

Proč jste se rozhodla pro vědeckou dráhu v tomto oboru?

Počas magisterského štúdia som pracovala na projekte THEaiTRE, v ktorom sme spolu s expertmi z DAMU a Švandovho divadla ako prví na svete vytvorili scenár divadelnej hry pomocou umelej inteligencie. Táto spolupráca sa mi veľmi páčila a umožnila mi prezentovať môj výskum na konferencií v Seattli, kde som sa cítila ako ryba vo vode. Ísť na doktorát nebolo jednoduché rozhodnutie, pretože to obnášalo odchod z firmy, kde som bola štyri roky. Vedela som však, že ak by som to neskúsila, vyčítala by som si to. Po dvoch rokoch doktorátu som si istá, že som sa rozhodla správne.

Na jakém výzkumu nebo projektu aktuálně pracujete? Jaké jsou hlavní výzvy ve vašem oboru?

Skúmam jazykové modely (Large Language Models, LLMs), čo je technológia, s ktorou má už väčšina ľudí osobnú skúsenosť. LLMs nám dokážu pomáhať pri mnohých úlohách, ale robia chyby. Tie sú síce často nenápadné, ale môžu zásadne meniť význam, napr. naozaj “rozdrvil” hokejový tím svojho súpera, ak vyhrali 2:1? Keď niekto chatuje s LLM, vie takéto chyby odhaliť pozorným čítaním s porozumením.

Jeden z hlavných problémov, ktoré sa snažím riešiť, je však to, že momentálne nemáme spoľahlivé metódy, ako takéto chyby odhaľovať automaticky. Mnohé firmy používajú LLMs na spracovanie alebo generovanie veľkého množstva textov, nezriedka v ráde miliónov slov. Pre tieto firmy je potom veľmi ťažké určiť, ako často sa chyby vyskytujú, ako závažné sú, a hlavne v ktorých textoch sa nachádzajú.

Je to hľadanie ihly v kope sena, a preto pracujem na vývoji efektívnejších metód.

Jaké metody, nástroje a data ve svém výzkumu nejčastěji využíváte?

Používam programovací jazyk Python, väčšina mojich experimentov beží na našom Linuxovom výskumnom clusteri. Keď to ide, snažím sa používať najnovšie otvorené jazykové modely (t.j. ich váhy si viem stiahnuť a spustiť lokálne), no na porovnanie často používam aj modely, ktoré sú prístupné iba cez API (GPT-4o alebo Gemini).

Čo sa týka dát, s kolegami sme začali uprednostňovať získavanie nových dát tzv. crawlovaním internetu. Týmto sa snažíme dosiahnuť, že používame dáta, na ktorých LLMs ešte neboli trénované, aby sme ich vedeli spoľahlivo testovať. Najzaujímavejšie však pre mňa bolo pracovať s popismi a recenziami hotelov počas mojej nedávnej stáže v trivagu. Nad rámec týchto textových dát z rôznych zdrojov vo viacerých formátoch som mala k dispozícii aj metadáta, ktoré okrem iného obsahovali informáciu, ako často sa tieto dáta budú zobrazovať užívateľom. Vďaka tomu som mohla zvažovať nielen aké chyby sa v textoch nachádzajú, ale aj ako pravdepodobné je, že nejakú chybu trivago ukáže vo výsledku vyhľadávania uživateľovi.

Jak se díváte na využívání umělé inteligence ve vědeckém výzkumu?

Myslím si, že umelá inteligencia vie byť skvelá pomôcka. Mne osobne pomáha napríklad urýchliť programovanie, brainstormovať, keď sa zaseknem pri písaní alebo jasnejšie vysvetliť moje myšlienky v článku. Každopádne je kľúčové si všetky výstupy z jazykových modelov kriticky prečítať a zvážiť.

Avšak sú úlohy, na ktoré sa umelá inteligencia naozaj nehodí. Napríklad v súčasnej dobe máme problém s tým, že niektorí vedci pri recenzovaní článku nechajú celú recenziu vygenerovať jazykovému modelu namiesto toho, aby si článok prečítali a poskytli k nemu kvalitnú spätnú väzbu. Ešte som nevidela prípad, kedy by to dopadlo dobre, a neverím, že ho v najbližšej dobe uvidím.

Spolupracujete na výzkumu s vědci z jiných institucí nebo s průmyslem?

Áno, oboje, a je to presne to, čo ma na výskume baví najviac. Aspoň v NLP si ako vedci navzájom nekonkurujeme, preto dáva zmysel spojiť sily a pracovať na väčších problémoch spoločne. Nie je vždy jednoduché takéto spolupráce koordinovať, obzvlášť ak prebiehajú cez niekoľko časových pásiem, no stojí to za to. Vďaka tomu máme na rovnaký problém viac uhlov pohľadu, pričom sa každý špecializuje na niečo trochu iné, a preto spolu dosiahneme lepší výsledok.

Napríklad na konci februára som u nás organizovala dvojdňový hackathon, kam prišli kolegovia zo štyroch ďalších univerzít v Európe a jedna kolegyňa sa pripojila online z Ameriky. Spolu sme skúmali, ako reagujú jazykové modely na chyby užívateľov, pre ktorých je angličtina cudzí jazyk. Dobrá správa je, že gramatické chyby v inštrukciách pre LLM veľmi neovplyvnia jeho odpovede. Naopak, konkrétne znenie inštrukcií má veľký vplyv.

Vědecká profese je náročná a nezřídka vědkyním a vědcům zasahuje i do osobního života. Pociťujete, že by vás věda v běžném životě nějak limitovala?

Myslím, že vedecká práca môjmu osobnému životu viac dala ako vzala. Síce vo vede pracujem viac hodín ako vo firme, ale som šťastná a nič neľutujem. Vďaka konferenciám a stážam som spoznala mnoho skvelých ľudí, s ktorými si rozumiem nielen vedecky, ale aj po osobnej stránke. Mám kamarátov všade po svete a s nimi kopu skvelých spomienok: závody v Le Mans, road tripy po Francúzsku, 20-členná výprava do akvária v Toronte, kajaky na Ženevskom jazere, roztláčanie pokazeného auta na trajekt na Malte, karaoke v Kjóte, kŕmenie jeleňov v Nare, stojky na Miami Beach…

Co byste poradila těm, kteří zvažují vědeckou kariéru v informatice?

Vedu treba robiť s hlbokým nadšením, pretože nám občas veci nevyjdú podľa plánu: experimenty môžu dopadnúť inak, ako sme predpokladali a zďaleka nie všetky články nám prijmú k publikácii. Občas je ťažké si to nebrať osobne. Avšak vie to byť veľmi naplňujúca a vzrušujúca kariéra. V NLP máme šťastie, že väčšinou články publikujeme na konferenciách, vďaka čomu sa vieme aktívne stretávať s celosvetovou vedeckou komunitou a zároveň cestovať na zaujímavé miesta. Tiež máme veľa možností chodiť na stáže do firiem a získať tak nový pohľad na náš výskum a jeho aplikovateľnosť do skutočného sveta.

Ďalšia rada je nájsť si školiteľa, ktorý vás vedie tým správnym smerom, no zároveň vám nechá priestor na skúmanie bláznivých nápadov, ak dávajú zmysel. Ja som mala spoluprácu s tým mojim odskúšanú už z práce na bakalárke a diplomovke, vďaka čomu som vedela, čo ma čaká a že budem spokojná.