Revista si suplimente
MarketWatch
Inapoi Inainte

Dacă nu luăm în considerare multilingvismul, Piaţa Unică Digitală e doar o utopie

28 Octombrie 2015



În încercarea de a îndepărta barierele de limbaj, ultimele graniţe în calea fluxului liber de informaţii, mari corporaţii internaţionale precum Google, Microsoft, IBM sau Nuance au investit substanţial în cercetare, îmbunătăţind performanţele de traducere automată, cu rezultate spectaculoase în cazul aşa-numitelor „limbi mari”. «Raportul „Language and Technology”, al Comisiei Comunităţilor Europene, avertizează, însă, că în afara limbii engleze şi, într-o oarecare măsură, a limbilor franceză şi germană, nivelul de tehnologizare al celorlalte limbi este practic nul», spune acad. Dan Tufiş, directorul Institutului de Cercetări pentru Inteligenţă Artificială „Mihai Drăgănescu” din Bucureşti (ICIA). Totuşi, limba română ocupă un onorabil loc 10 în aceste clasificări, graţie cercetărilor conduse de ICIA. Institutul participă, fie în programe independente, fie în consorţii internaţionale, la construirea şi consolidarea unei platforme digitale pan-europene, care va pune la dispoziţie seturi de date şi instrumente software pentru prelucrarea de voce şi de limbaj.



Într-o lume globală şi, într-o Europă cu aceleaşi aspiraţii, ultimele bariere rămase în calea fluxului liber de idei şi gândire sunt cele lingvistice. Care sunt principalele probleme în cazul tehnologizării altor limbi decât cea engleză?

Pentru a-şi menţine poziţia în prima linie a inovării globale, Europa are nevoie de tehnologii ale limbajului adaptate tuturor limbilor europene, care să fie robuste, accesibile financiar şi bine integrate în medii software complexe. Potrivit anumitor estimări, piaţa europeană de traducere, interpretare, localizare de software şi globalizare a paginilor de Internet era estimată la 8,4 miliarde de euro în 2008, iar tendinţa de creştere a costurilor era de 10 % în fiecare an. Europa are 24 de limbi oficiale, dar pe continent se vorbesc mai mult de 80 de limbi, dacă luăm în considerare limbile regionale, minorităţile şi comunităţile de imigranţi. În absenţa unor prelucrări lingvistice automate, ideea de uniune digitală este o utopie. Direcţiile de integrare se dezvoltă potrivit strategiei europene definite de proiectul META-NET, o reţea de excelenţă formată din 60 de centre de cercetare din 34 de ţări, care face probabil cea mai pertinentă cercetare referitoare la importanţa şi problemele multilingvismului. Resursele financiare şi umane necesare pentru a pune la punct maşini performante de traducere sunt imense şi, din acest punct de vedere, performanţele celor de la Google nu pot fi reproduse nici la nivelul unui institut, nici la nivelul unei ţări. Infrastructurile de cercetare în acest domeniu sunt finanţate şi voi menţiona aici programul CLARIN ERIC (European Reasearch Infrastructure Consortion), la care sunt afiliate mai multe centre de cercetare europene şi câteva americane. În cadrul acestui proiect este construită o infrastructură de cercetare cu conţinut socio-uman, ceea ce presupune un volum uriaş de date, inclusiv încorporarea bibliotecilor. Realizarea arhitecturii hardware și software, însă, este o problemă de înaltă competență informatică. Aceste cercetări reprezintă un excelent punct de plecare acum, în contextul discuţiei despre Piaţa Unică Digitală. Dacă nu luăm în considerare multi-lingvismul, acest nou proiect va fi doar o nouă marotă.

V-aţi referit la Piaţa Digitală Unică, un proiect având ca obiectiv eliminarea ”zidurilor” de reglementare şi, în cele din urmă, trecerea de la 24 de pieţe naţionale la una singură. O piaţă unică digitală, care ar putea să contribuie cu 415 miliarde euro pe an la economia UE. Care sunt sarcinile României şi stadiul realizării lor?

Am participat, la sfârşitul lunii aprilie, la summit-ul Multilingual Digital Single Market, găzduit la Riga. Au fost luări de cuvânt foarte avizate, reprezentanţii marilor companii, factori de decizie din diverse ţări, vorbitori care au fost de acord că principalul obstacol este cel legat de traducerea automată. Prin efortul marilor corporaţii internaţionale, Google, Microsoft, AltaVista, EDL şi altele, s-au îmbunătăţit performanţele de traducere, cu rezultate spectaculoase în cazul aşa-numitelor „limbi mari”, cum ar fi, de pildă, engleza.

Lucrurile nu stau la fel şi în cazul altor limbi. Sesizând semnalele venite din comunitatea experţilor în tehnologia limbajului, Comisia Europeană (CE) a stabilit un grup propriu de cercetare în traducerea automată, adoptând și perfecționând mediul de dezvoltare MOSES pentru sisteme de traducere statistică. Într-o fază preliminară, numită aliniere, sistemul primeşte documente ce reprezintă traduceri reciproce (bitexte), identifică fiecare expresie din textul sursă şi stabileşte echivalentul de traducere. Este o fază pe care ICIA a câştigat-o de două ori în competiţiile mondiale, în 2003 şi 2005. Folosind volume uriaşe de bitexte, fără intervenţia omului, într-o a doua fază, acest mediu construieşte modele statistice de traducere.

Deşi UE şi statele sale membre au sprijinit deja numeroase proiecte de cercetare individuale, decalajul tehnologic dintre limbile „mari” şi cele „mici” continuă să fie semnificativ. Volumele textelor paralele între engleză şi franceză sunt de mii de ori mai mari decât cele dintre română şi croată, de exemplu. O analiză realizată de experţi independenţi arată că limba română nu stă chiar aşa rău, fiind clasată în cea de-a treia categorie dintre cele cinci existente. Româna este considerată, în prezent „under resourced language”, în sensul că nu sunt suficiente date prelucrate corespunzător, dar stăm mai bine în raport cu alte state europene, fiind în primele zece. Avem instrumente, date nucleu de bună calitate, în jurul cărora putem construi.

În acest context, un comunicat recent al ICIA ridică o problemă, dezbătută, de altfel, şi în presa internaţională: supravieţuirea celor mai multe limbi europene ar putea fi ameninţată în era digitală. Desigur, piaţa digitală unică (DSM), un obiectiv-cheie al CE pentru anul 2020, este fundamental multilingvă. Totuşi, până în prezent, cele mai multe limbi nu s-au bucurat de suport tehnologic adecvat...

Ideea că utilizarea unui număr restrâns de 3-4 limbi este suficientă pentru comunicarea în spaţiul virtual a fost combătută cu date statistice obţinute din numeroase sondaje şi au născut îngrijorarea comunităţilor internaţionale, atât din mediile academice preocupate de cultivarea limbilor şi culturilor naționale, dar şi a mediilor de afaceri preocupate de diversificarea şi internaţionalizarea serviciilor şi produselor proprii, de crearea unor noi locuri de muncă (http://rigasummit2015.eu/sites/rigasummit2015.eu/files/Strategic-Agenda-for-Multilingual-DSM.pdf). Iniţiativa CE de lansare a proiectului „The European Language Resource Coordination” (ELRC - www.lr-coordination.eu) este un răspuns direct la presiunea din ce în ce mai mare creată de necesitatea cetăţenilor europeni de a comunica fără bariere lingvistice. Într-o colaborare internaţională fără precedent între experţii naţionali în domeniul tehnologiilor limbajului şi reprezentanţii serviciilor publice şi ai administraţiilor naţionale, ELRC şi-a asumat responsabilitatea coordonării efortului de colectare a datelor din domeniile publice (atât mono-linguale cât şi bi- şi multi-linguale) din toate cele 30 de ţări participante la programul „Connecting Europe Facility”. Acţiunea are ca scop asigurarea traducerii automate, de înaltă calitate, pentru documente din domeniul administraţiei şi serviciilor publice între toate cele 30 de limbi ale consorțiului european, asigurându-se astfel interacţiunea, fără bariere lingvistice, a cetăţenilor europeni cu administraţiile şi serviciile publice de interes. ELRC este fără îndoială, până acum, cel mai amplu efort din lume în domeniul colectării de date referitoare la servicii publice, date ce urmează a fi folosite pentru antrenarea sistemelor de servicii multilinguale destinate cetăţenilor.

Va putea fi folosită, în acest proiect, experienţa acumulată o dată cu proiectul METANET4U - Enhancing the European Linguistic Infrastructure, care-şi propunea, până la finalul anului 2013, stabilirea şi consolidarea unei platforme digitale pan-europene?

META-NET are ca obiectiv construirea fundamentelor tehnologice necesare societăţii informaţionale multilinguale europene. Ea s-a clădit în baza a patru proiecte finanţate în paralel de CE (T4ME, MetaNord, Cesar şi MetaNet4U), fiecare dintre acestea având responsabilităţi şi obiective similare pentru un grup de limbi, astfel încât toate limbile oficiale ale UE să fie acoperite. Platforma META-SHARE, implementată in proiectul T4ME, testată şi validată în celelalte 3 proiecte ale reţelei META-NET, a fost instalată la 27 de instituţii participante (http://www.meta-share.eu/), ea fiind folosită pentru distribuţia a peste 2600 de resurse lingvistice şi servicii web pentru limbile ţărilor respective. ICIA a contribuit la reţeaua de distribuţie META-SHARE (http://ws.racai.ro:9191/) cu 41 de resurse şi servicii web de foarte bună calitate pentru limba română (şi nu numai), ele fiind licenţiate şi descărcate de peste 200 de utilizatori din mediul academic şi comercial. Marea majoritate a celor peste 2600 de resurse lingvistice de pe platformele META-SHARE sunt licenţiate (gratuit) pentru mediul academic, dar marele interes arătat de către companii a determinat mulţi participanţi din reţeaua META-NET (inclusiv ICIA) să elimine restricţiile de utilizare comercială pentru o parte semnificativă din oferta academică. Consider că iniţiativa lansării şi coordonării celor patru proiecte europene T4ME, MetaNord, Cesar şi MetaNet4U a fost una dintre cele mai productive măsuri luate de CE pentru sprijinirea obiectivelor multilinguale ale pieţei unice digitale. Totuşi, această iniţiativă trebuie susţinută în continuare, în special prin implicarea activă a autorităţilor naţionale.

Aveţi deja alte proiecte în derulare, unele dintre ele de vârf în plan mondial, care ar putea servi ca punct de plecare pentru realizarea şi consolidarea noilor structuri...

Una dintre cele mai active direcții actuale de cercetare este analiza limbajului natural prin tehnici de învățare profundă (deep learning). Această nouă direcție presupune nu numai noi metode de calcul și noi algoritmi ci și noi resurse de cunoaștere lingvistică. Noi lucrăm în ambele aceste direcții și am să evoc aici doar resursele lingvistice ce stau la baza unui nou program de analiză a limbajului natural. Prima este un dicționar semantic, în fapt o ontologie lexicală, numit Ro-WordNet, dezvoltat începând din anul 2001 în conformitate cu principiile de organizare a celebrului WordNet aflat în continuă dezvoltare de circa 40 de ani, la Universitatea Princeton. Ro-WordNet conţine peste 80.000 de cuvinte, dar organizarea lor este foarte diferită de cea a unui dicţionar standard. Unitatea structurală de bază a acestui dicționar este seria sinonimică (sinset), între seriile sinonimice fiind definite zeci de relații semantice și lexicale. Mai toate ţările europene au început proiecte de dezvoltare a unor astfel de dicţionare, pentru că performanţele instrumentelor de prelucrare a limbajului care se bazează pe ele sunt mult sporite faţă de orice sistem alternativ. Dicţionarul nostru a fost, o lungă perioadă, printre cele mai mari din lume. A fost susţinut vreme de trei ani de CE şi a fost apoi continuat prin eforturi proprii, până s-a dezvoltat la o dimensiune semnificativă. Pentru realizarea noului program de analiză de limbaj, de care am amintit, am dezvoltat şi o a doua componentă, anume o descriere sintactico-semantică formală a principalelor verbe din limba română. Colecţiile de cunoştinţe lingvistice specifice pentru fiecare verb sunt sistematizate, astfel încât să fie definite clar argumentele obligatorii pentru fiecare verb, pentru a-şi satisface structura de valenţă şi argumentele opţionale. Este un demers de pionierat, pentru că, din păcate, lingvistica românească nu a produs o formalizare completă, în ciuda marii sale istorii şi a personalităţilor de marcă din acest domeniu. Am avut o colaborare foarte bună cu un grup de cercetare din Cehia, care a realizat un sistem similar pentru limba cehă. Cu aceste două resurse lingvistice fundamentale, vom realiza un produs performant, care va fi pe piaţă în următorii doi ani. Poate cu o ocazie viitoare, am să vă vorbesc și despre un alt mare proiect pe care îl avem în desfășurare, proiectul COROLA privind corpusul de referință al limbii române contemporane.

Cine sunt principalii beneficiari ai acestor produse ?

Dicţionarul semantic Ro-WordNet, a fost gândit pentru experţi care vor să dezvolte prelucrarea textului dincolo de analiza de suprafaţă. Fiind un dicţionar semantic construit pe baza unor principii standardizate, sistemul WordNet poate fi aliniat cu orice alt dicţionar construit pentru o altă limbă dar pe baza acelorași principii, devenind un instrument util pentru oricine este interesat de traduceri. ICIA oferă, public, pe site-ul instituţiei, un astfel de dicţionar. Global Wordnet Association ( a cărei conferință bianuală va avea loc la București, în organizarea institutului nostru) se ocupă de inventarierea tuturor dicţionarelor create, astfel încât ele să poată fi mai uşor aliniate. Şi învăţământul superior este unul dintre marii beneficiari. Spre bucuria mea, în ultima vreme au apărut cursuri destinate prelucrării limbajului natural, în special în programele de master, şi din această zonă avem mulți beneficiari .

Pentru 23 de limbi, avem deja 506 de perechi de limbi sursă şi ţintă, în timp ce pentru 60 de limbi este nevoie de 3540 de perechi – precizează ICIA într-un comunicat. Puteţi explica ce înseamnă acest lucru? Păstrând principiile multikulti, cu siguranţă UE nu îşi permite să sacrifice diversitatea lingvistică. Dar ne permitem să o menţinem?

Traducerea automată directă între două limbi A şi B este un proces unidirecţional, asimetric. Cu alte cuvinte, traducerea din limba A în limba B este un proces care poate diferi substanţial de procesul traducerii din limba B în limba A. Dacă luăm în considerare N limbi, atunci vom avea N*(N-1) procese de traducere directă distincte. Există însă şi posibilitatea traducerii indirecte, numită traducere printr-o limbă pivot: din limba sursă A se realizează traducerea în limba pivot P, iar apoi se traduce din limba pivot P în limba ţintă B. În acest caz sunt necesare 2N sisteme de traducere: N sisteme de traducere din cele N limbi considerate limbi sursă în limba pivot P şi alte N sisteme de traducere din limba pivot P în cele N limbi considerate de data aceasta limbi ţintă. Actualmente în UE sunt 24 de limbi (numerele invocate se refereau la momentul respectiv la 23 de limbi oficiale), iar pentru traducerea directă între oricare din aceste limbi ar fi nevoie de 552 sisteme (24*23), în timp ce pentru traducerea prin intermediul unei limbi pivot ar necesita dezvoltarea a doar 48 de sisteme. Aparent, soluţia traducerii printr-o limbă pivot este ideală, iar sporirea numărului de limbi sugerează că această abordare ar fi singura sustenabilă economic. Exisă însă o serie de probleme cu abordarea traducerii printr-o limbă pivot: în primul rând, calitatea traducerii directe este superioară traducerii indirecte; apoi calitatea traducerii indirecte depinde substanţial de limba naturală aleasă ca limbă pivot. Ideea unei limbi universale (de pildă Esperanto), aleasă ca limbă pivot (interlingua), este una mai veche, care practic a fost abandonată, deşi au fost investite multe resurse intelectuale şi financiare în această direcţie. Apariţia modelelor bazate pe învăţarea automată a demonstrat că dacă există suficiente exemple bilingve de traducere, se pot dezvolta în perioade de scurtă durată sisteme de traducere de calitate acceptabilă.
Cercetarea în domeniul sistemelor bazate pe învăţare automată este excepţional de promiţătoare în domeniul traducerii automate, iar noile abordări hibride, cu factorul uman implicat în bucla de corecţie în timp real a erorilor de traducere, deschide orizonturi nebănuite în urmă cu 15-20 de ani. Sporirea uriaşă a puterii de calcul, apariţia cip-urilor ce implementează în hardware reţele neurale de zeci, sute de mii şi chiar un milion de neuroni (http://www.electronicsweekly.com/news/general/137889-2014-08/), cu sute de milioane de sinapse programabile, susţin foarte convingător predicţia rezolvării problemelor multilingvismului. Singurul impediment real pentru acest scenariu optimist îl reprezintă asigurarea volumului de date necesare proceselor de învăţare automată. Nu există o evaluare precisă a volumului de texte bilingve necesare pentru instruirea unui sistem de traducere de calitate bună sau foarte bună, dar experimentele empirice desfăşurate în mai toate centrele de cercetare arată că sunt necesare miliarde de cuvinte. Desigur, calitatea traducerilor automate depinde şi de domeniul lingvistic şi/sau stilul funcţional al textelor de tradus. În zilele noastre, când conceptul ”Big Data” şi-a croit drum în toate programele de dezvoltare/inovare (şi limbajul este o componentă esenţială a ceea ce este „Big Data”) impedimentul datelor de învăţare nu este insurmontabil. Este însă nevoie de o acţiune concertată în identificarea, colectarea şi pregătirea adecvată a acestor date pentru procesele de învăţare automată. Răspunzând la ultima parte a întrebării dumneavoastră, pot spune DA, tehnologia actuală permite salvgardarea diversității lingvistice și culturale a Europei!



Parerea ta conteaza:

(0/5, 0 voturi)

Lasa un comentariu



trimite