Revista si suplimente
MarketWatch
Inapoi Inainte

Inteligența artificială - Prime concretizări publice

19 Martie 2021



Dacă aş fi întrebat care este în zilele noastre manifestarea informatică cu cel mai ridicat nivel de inteligenţă, aş opta pentru aplicaţiile de traducere automată şi pentru cele de recunoaştere a vorbirii (precum Translate şi Speach Recognition din familia Google). Dacă la începuturi rezultatele traducerilor automate erau hilare, astăzi ele sunt oarecum întrebuinţabile, în situaţiile constrânse de criteriul vitezei. E adevărat, încă le putem privi condescendent, fiind deocamdată nepotrivite pentru traducerea de beletristică, testul lor suprem. Dar prognozele sunt optimiste.

Originile traducerii automate
Primele cercetări de ‘machine translation’, respectiv de traducere dintr-o limbă în alta cu ajutorul informaticii, au început în urmă cu 70 de ani, la MIT. Imediat apoi au început și cercetările privind ‘speach recognition’, la Bell Labs, iar în 1962 IBM deja arăta lumii o mașină reală de recunoaștere a vorbirii (adică de transpunere în text inteligibil a vorbirii umane). Până și DARPA a finanțat cercetarea în acest domeniu (în anii 1971, 2000 și 2002). Însă de-abia în 1997 apărea prima aplicație comercială de recunoaștere a vorbirii, Dragon Naturally Speaking. (Poate merită aici menţionată şi angajarea lui Ray Kurzweil la Google, din 2012.) Revenind la ‘machine translation’, trebuie spus că în anii dintre cele două milenii deja software-urile de traducere a textelor dintr-o limbă în alta deveniseră soluții comerciale foarte accesibile (în ciuda rezultatelor imperfecte). Iar în direcția aceasta, tehnologia SYSTRAN a fost cea mai folosită, ajungând inclusiv laYahoo!, Google și Apple. (Vedeți web-link-ul translate.systran.net. Dar și phrase.com și www.matecat.com).

Dicționarul de corespondențe
În primele sale decenii, traducerea automată s-a concentrat pe constituirea bazelor de date cu corespondențele de cuvinte dintre limbi, sens în care echipe de lingviști au contribuit masiv la completarea respectivelor dicționare. Însă curând abordarea și-a vădit limitele strâmte de aplicare (dificultatea de a constitui corespondențe binunivoce între cuvintele din diverse limbi). De-abia spre vremurile noastre Google/Alphabet a avut curajul vizionar de a abandona radical această abordare: în loc să angajeze armate de lingviști spre a popula dicţionarele pentru toate limbile pământului, au lăsat acces liber la dicționare pentru miliardele de cetățeni ai planetei, astfel încât (graţie accesului internet omniprezent/ubicuu) oricine a putut să înscrie și să corecteze cuvinte/sensuri. Valoarea adăugată aici de Google a fost IA-ul care să concilieze intervenţiile multiple, să supervizeze completările „dicționarelor” și să controleze dezvoltarea sintacticilor. (Pentru scurt timp și eu am contribuit la dicționarul Ro-En.)

Oricum, trebuie să recunoaștem două lucruri:
(1) Specialiștii au știut aproape de la început că ‘machine translation’ nu înseamnă doar dicționarul de corespondențe, vocabularul, și că trebuie multă inteligență pentru a implementa regulile de gramatică şi de sintaxă. (Am putea imagina partea de dicţionar ca forma plată, bi-dimensională a traducerii, pe când raporturile gramaticale și frazeologia ar constitui cea de-a treia coordonată, a unei forme 3D.) Și sigur că au știut, pentru că limba engleză – cam prima cu care au lucrat – prezintă două păcate capitale din această perspectivă (și vom reveni).
(2) Informatica de acum 70 de ani nu putea visa o altfel de strategie din motive... cantitative: de-abia când capacitățile de procesare şi de memorare (inclusiv de procesare distribuită) s-au dezvoltat suficient s-a putut asuma... acea tri-dimensionalitate necesară, adică tratarea și implementarea regulilor de constituire a formelor flexionare (conjugări de verbe, cazuri de substantive, acorduri, gen, număr, etc) şi respectiv adaptarea semantică a cuvintelor la contextul propoziţiei/frazei. Pe plan algoritmic, probabil că pasul necesar a fost adoptarea reţelelor neurale.

„Limba noastră-i o comoară”
Limba română este o limbă fonetică, adică fiecărui sunet îi corespunde o singură literă, ceea ce înseamnă un atu pentru speech recognition. (Multe alte limbi nu sunt.) Limba română are foarte puține cuvinte polisemantice, deci un avantaj pentru machine translation. (Pluralitatea semantică este primul păcat al limbii engleze. De exemplu, verbul ‘to get’ are câteva zeci de semnificații, în funcţie de context.) Limba română are un nivel înalt de structuralitate gramaticală şi ortografică (comparabil cu cel al limbii franceze). Noi avem la dispoziţie o articularitate ridicată și respectiv o flexionaritate coerentă şi civilizată, cu reguli destul de clare, implementabile. (Pe aici întâlnim și celălalt păcat major al limbii engleze, unde există multe cuvinte cu forme neregulate şi multe expresii agramaticale. În plus, din perspectiva speech recognition, engleza păcătuiește prin acea pronunţie nativă cu dicție defectuoasă.)

Traduceri automate de la Google
Dacă pornim (ceea ce vă şi recomand instant) Google Translate şi îi dăm (copy & paste) un text să-l traducă dintr-o limbă în alta, şi în special dacă îl mai şi supra-solicităm prin modificarea pe loc a cuvintelor din textul sursă, vom vedea pe viu manifestări de inteligenţă: observăm că textul rezultat prin traducere nu (mai) este rezultatul unui simple corespondenţe de dicţionar, ci fiecare cuvânt este corelat cu (şi respectiv actualizat în funcţie de) cele din vecinătate, iar propoziţiile şi frazele sunt reevaluate în mod dinamic. Ce mai! Se simte că evaluează funcţiile sintactice ale cuvintelor, şi chiar lucrează cu ceva reguli de frazeologie şi de semantică. Ceea ce îi cam dă dreptul la denominarea de ‘inteligenţă artificială’. Nu ştiu dacă Google Translate chiar învaţă singur regulile, aşa cum ar denota sitagma ‘machine learning’, însă într-un viitor nu foarte îndepărtat (când va avea în spate suficientă putere de stocare şi de procesare) va putea aplica mai toate regulile din mai toate limbile lumii. În fond, şi inteligenţa umană este o chestiune de cantitate: abilităţile creierului se datorează imensei mulţimi de celule neuronale şi de sinapse, legându-le. Doar că artificialul mai are mult până să ajungă la miniaturizarea şi la eficienţa energetică specifice biologicului.






Recunoaşterea vorbirii
Pentru a vedea pe viu încă o demonstraţie de inteligenţă artificială actuală, vă propun să pornim un alt serviciu web al lui Google, YouTube, şi aici să găsim o înregistrare video cu dialoguri, sau cu naraţie orală, însă fără subtitrare predefinită. Odată găsit un astfel de material video, vom alege din Settings/Setări opţiunea de generare automată a subtitrării şi vom urmări rezultatul: angajând o tehnologie de ‘speach recognition’, YouTube generează pe loc (şi afişază pe ecran) o subtitrare în limba nativă a materialului video. Deşi rezultatul nu se prezintă chiar grozav, în interior procesul este unul special: algoritmii analizează coloana sonoră a înregistrării stocate pe YouTube şi, folosind tehnici de ‘pattern recognition’, oferă cuvintele corespunzând sunetelor, dar şi un pic reformulate pentru coerenţă semantică. (Reformularea în timp real a frazelor este posibilă la redare, întrucât respectivii algoritmi au acces la materialul video cu una-două secunde înainte de a ni-l furniza nouă.) Pentru o apreciere cinstită a performanţei din algoritmii de „speech recognition” trebuie să punem în balanţă şi aspectul că, de fapt, când vorbim noi nu facem pauze semnificative între cuvinte, deci respectivii algoritmi informatici nu se prea pot baza, pentru identificare, pe o astfel de separare a unităţilor lexicale. (Există nişte „pauze” între cuvinte, însă ele diferă de la un vorbitor la altul, iar uneori se confundă cu variabilităţile din interiorul cuvintelor, deci nu sunt uşor de recunoscut, aşa cum sunt pauzele dintre propoziţii.) Şi, revenind la YouTube, ca testul să fie complet, punem (tot din meniul Settings) să realizeze şi o traducere automată, din limba nativă a înregistrării într-o altă limbă, pe baza textului generat prin opţiunea anterioară. Da, rezultatul redării ne poate amuza sau irita prin imperfecţiune, însă el ne arată mai degrabă perspectivele, potenţialul. Şi ne îndreptăţeşte să mizăm pe o evoluţie remarcabilă a serviciilor de acest gen.



Parerea ta conteaza:

(0/5, 0 voturi)

Lasa un comentariu



trimite