Robote ćemo učiti da pišu i misle na hrvatskom jeziku

Slavko Midžor/PIXSELL
Embeddia projekt vrijedan je tri milijuna eura, a glavni cilj je napredne lingvističke alate učiniti dostupnima za male europske jezike, među kojima su hrvatski i engleski, na čemu radi i Styrijin tim
Vidi originalni članak

O utakmicama Dinama ili drugih popularnih klubova lako nam je pronaći vijesti gdje god se okrenemo na internetu, međutim želimo li pročitati nešto o nižim ligama ili manje popularnim sportovima to postaje puno teže i takvi rezultati budu zabilježeni možda samo u službenom zapisniku.

No o njima bi mogli puno više čitati jer će takve vijesti pomoći pisati digitalni asistent koji će naučiti hrvatski jezik zahvaljujući projektu Embeddia - Cross-Lingual Embeddings for Less-Represented Languages in European News Media.

Radi se o velikom europskom istraživačkom projektu u sklopu programa Obzor 2020, koji će trajati tri godine, i vrijedi tri milijuna eura. Velika nam je čast da kao industrijski i istraživački partner unutar ovog međunarodnog konzorcija sudjeluje i Styria.

Glavni cilj projekta je pomaknuti mogućnosti naprednih lingvističkih alata i učiniti ih dostupnima i za male europske jezike korištenjem međujezičnih tehnologija.

- Kroz ovaj projekt naše redakcije i naši mediji imat će na raspolaganju visokotehnološka rješenja u koja se ulaže tri milijuna eura. Iz perspektive male Hrvatske to je zaista velika stvar, a za nas kao kuću je veliko priznanje što smo prepoznati kao centar izvrsnosti i kao medijska kuća i kao tehnološka kompanija fokusirana na područje umjetne inteligencije. Projekt će olakšati posao urednicima i novinarima, a publici će omogućiti veću dostupnost specifičnih sadržaja - rekao je Boris Trupčević, direktor Styrije za Hrvatsku.

U konačnici Styrijin tim će rezultate projekta, ali i nova znanja upotrijebiti kako bi olakšali rad Styrijinih redakcija te poboljšali iskustvo čitatelja online portala. Moguć je cijeli niz novih tehnologija koje će se razviti iz projekta. Uz algoritme koji iz strukturiranih podataka mogu napisati vijest o nekom sportskom dvoboju, izborima za općinsko vijeće, razvit će se i novi sustavi koji će poboljšati automatsko povezivanje sličnih članaka, sustav koji će bolje razumjeti hrvatski jezik i razne metafore moći će i bolje prepoznati kakav je sentiment neke vijesti. Uz to moći ćemo i bolje prepoznati govor mržnje među komentarima, a sustav će sam moći filtrirati dio neprimjerenih komentara. Tu se razvijaju i nove forme, pa će uz pomoć algoritama strojnog učenja biti moguće automatsko generiranje sažetaka članaka ili nekih opširnih tema. Jednako tako, ovaj sustav moći će se spojiti i sa vizualnim pretraživanjem i predajom oglasa, za što je Styrijin tim već nagrađen. Korisnici će tako moći puno lakše pronaći slične oglasena Njuškalu, ali i oni će biti daleko precizniji.

Cilj je da algoritam bude pomagač, a da čovjek radi kreativniji dio posla, odnosno novinar će moći dodati vlastiti dio na priču koju je robotski asistent pripremio od podataka - pojašnjava Davor Aničić iz Styrije i dodaje kako će ovakav sustav koji će se razviti uvijek biti alat, ali ne na razini na kojoj je čovjek.

Do kraja 2021. na projektu će sudjelovati 30-ak znanstvenika s uglednih europskih sveučilišta, ali i Finska novinska agencija, estonska Express grupa i Data Science timStyrije iz Zagreba. Svi će oni tijekom istraživanja steći velika nova znanja s područja obrade prirodnog jezika (NLP). Marko Pranjić iz Styrije pojašnjava kako slični modeli već postoje, kao u Googleu, ali su trenirani za engleski jezik.

- Cilj je da sa učenjem na širokom skupu jezika to postane dostupno za male jezike te da se pomakne točnost i kvaliteta tih sustava - rekao je Pranjić i pojasnio kako model neuronske mreže riječi smješta u vektorske prostore te se stvara određena matematička struktura koja se potom može spojiti i sa strukturom drugih jezika.

Kako Styrijin tim u projektu sudjeluje i kao istraživački tim, ovdje će se stvoriti vrijedni novi resursi u području računalne lingvistike za hrvatski i slovenski jezik koji su dva od sedam jezika u projektu. Oni će biti trajno dostupni stručnjacima za nove znanstvene radove i istraživanja. Aničić dodaje i kako će puno različitih alata koji trenutno postoje samo za engleski jezik kroz projekt postati dostupni i u hrvatskom.

Styrijin Data Science inače već više od tri godine uspješno radi na istraživanju i razvoju tehnologija umjetne inteligencije s fokusom na obradu slike i teksta, a prije dvije godine osvojio je i financiranje prestižnog Googleovog DNI Innovation Funda, gdje je "Personalizirana platforma za regionalno news izdavaštvo" osvojila 500.000 eura.

Najveći međunarodni uspjeh tima je osvajanje prestižne nagrade Nvidia GTC Europe 2017 za Fashion Cam razvijen za Styrijin austrijski oglasnik Willhaben – prvu uslugu vizualnog pretraživanja na online oglasnicima u svijetu. Koliko je usluga tehnološki napredna govori činjenica da se pojavila godinu dana prije slične usluge na eBayu a i danas se Styrijino vizualno pretraživanje može kvalitetom uspoređivati sa sličnom na eBayom ili kineskom Alibabi.

Posjeti Express