O zaštiti srpskog jezika se najčešće govori iz perspektive očuvanja ćirilice. Svojevremeno je usvojen i Zakon o upotrebi srpskog jezika u javnom životu i mere za zaštitu i očuvanje ćiriličkog pisma. Vlast se hvalila zbog usvajanja ovog već pomalo zaboravljenog zakona, ali hvaljenje njegovim efektima je izostalo.
Međutim, pitanje je da li kao država i društvo shvatamo doba u kojem živimo i kako će ono što bi se moglo nazvata “AI revolucija”, revolucija veštačke inteligencije, uticati ne samo na opstanak ćirilice kao pisma, već i na celokupni srpski jezik.
Troši se dragoceno vreme
Suosnivač projekta “COMtext” za izradu skupova podataka i prilagođenih modela za obradu srpskog jezika pomoću veštačke inteligencije Slobodan Marković kaže da je scenario u kojem će srpski jezik nestati prenaglašen, ali je u ovoj eri u kojoj živimo već ugrožen.
“Mi trošimo decenije razamtrajući da li naziv pekare treba da se napiše ćiriliciom ili latinicom, a kompletna revolucija primene veštačke inteligencije u obradi prirodnog jezika nam prolazi za to vreme i time se apsolutno niko ne bavi. I to je potpuno neverovatno”, kaže Marković u razgovoru za portal “Vremena”.
Zahvaljujući ChatGPT, upotreba veštačke inteligencije postala je jedna od glavnih tema u medijima. Iako su njegove mogućnosti kad je reč o engleskom jeziku impresivne, kad je reč o srpskom, ChatGPT ima dosta ograničenja.
To se pokazalo i u jednom eksperimentu koji je „Vreme“ uradilo i kad ChatGPT uporno nije znao da tačno odgovori na pitanje ko je osnovao nedeljnik „Vreme“.
Međutim, ovo nije pokazatelj da veštačka inteligencije nema budućnost. Naprotiv, ovo je samo pokazatelj koliko je ugrožena pozicija srpskog jezika u digitalnoj eri.
“Naša deca sa digitalnim asistentima već razgovaraju na engleskom, a jaz će postajati sve veći. Na primer, u virtuelnoj i proširenoj stvarnosti koja dolazi, glas (pretvoren u tekst) biće primarni način za interakciju između korisnika i računara. Ako srpski tu ne bude podržan, moraćemo da se prebacimo na neki drugi jezik, a srpski će nastaviti da nestaje iz sve više oblasti svakodnevne primene računara”, objašnjva Marković.
Šta je potrebno uraditi?
Veliki jezički modeli veštačke inteligencije, kao što su BERT ili GPT, napravili su značajan iskorak u oblasti obrade i razumevanja prirodnog jezika.
Kako objašnjva Marković, ključ uspeha ovih modela u razumevanju i obradi prirodnog jezika nije samo u velikoj količini teksta koji je korišćen za njihovo samostalno obučavanje, nego velikim delom i u raspoloživosti manjih skupova podataka za nadzirano prilagođavanje velikom broju zadataka i jezičkih domena kao što su prevođenje, parafraziranje, skraćivanje i drugo u oblastima kao što su pravo, medicina, umetnost ili mediji.
„Važno je razumeti da trenutna AI revolucija ne bi bila moguća bez višegodišnjih javnih i privatnih ulaganja u kvalitetne skupove podataka, razvoj modela i alata za obradu jezika, koji su danas raspoloživi dominantno za engleski. Sa druge strane, podrška za srpski u ovakvim modelima najčešće ne postoji, a kada postoji, nije na zadovoljavajućem nivou“, kaže Marković.
Upravo zbog toga ideja projekta koji je pokrenuo jeste da se naprave ti jezički skupovi podataka, koji će svima biti dostupni i koji će služiti za treniranje i prilagođavanje raznih modela i alata veštačke inteligencije srpskom jeziku.
„ChatGTP ‘govori’ srpski, ali često daje netačne odgovore u našem kulturnom kontekstu, meša ekavicu i ijekavicu, daje odgovore na neke teme na hrvatskom ili slovenačkom, nije optimizovan za rad sa našom ćirilicom i latinicom. Mi, kao malo tržište, nismo komercijalno interesantni globalnim IT gigantima koji prave ovakve modele i zato ih oni nisu dalje prilagođavali za srpski jezik, za razliku od engleskog. I proći će još dugo vremena dok kvalitetna podrška za srpski ne dođe na red. Zato je potrebno da sami spremimo podatke i stvorimo uslove da ovaj i slični modeli mogu pravilno i kvalitetno da barataju srpskim“, ističe Marković
Gde je Srbija, a gde su drugi
Koliko su druge države van engleskog govornog područja, odnosno male jezičke zajednice, poput naše, prepoznale važnost ulaganja u razvoj jezičkih tehnologija, govore i sledeći podaci.
Estonija, sa 1,33 miliona stanovnika, poslednjih 10 godina ulaže oko 800.000 evra godišnje. Samo tokom proteklih nekoliko godina, Danska sa 5,8 miliona stanovnika uložila je četiri milona evra, Island sa 360.000 stanovnika 13 miliona evra, a Slovenija sa 2,1 miliona stanovnika, više od četiri miliona evra.
Kad je reč o državi Srbiji, cifra je, barem za sada, nula evra.
„Nažalost, u Srbiji ne postoji sistemska podrška razvoju jezičkih tehnologija. Globalni IT giganti nemaju interes da unaprede podršku za srpski jezik. Akademska zajednica je mala i istraživanja u oblasti obrade prirodnog jezika za srpski su nedovoljna. Domaće IT kompanije i startapi imaju interes za razvoj jezičkih tehnologija, ali se postavlja pitanje isplativosti. I konačno, država do sada nije na sistemski način pružala podršku razvoju jezičkih tehnologija“, navodi Marković.
Kako kaže, potrebno je da se cela zajednica uključi i spozna ovaj problem, a država bi mogla da lansira program za razvoj jezičkih tehnologija kako bi sve krenulo s mrtve tačke.
„U Strategiji razvoja veštačke inteligencije ima dobrih elemenata. Osnovan je Institut za veštačku inteligenciju, imamo super-kompjuter u Kragujevcu“, objašnjava Marković. „Ali država je nezamenjiv akter za ovakve programe zaštite jezika i kulturnog nasleđa. To je nešto što je komercijalno teško isplativo u uslovima našeg jezika koji je mali i ima malu jezičku zajednicu“.
Čitajte dnevne vesti, analize, komentare i intervjue na www.vreme.com