Revista >> Octombrie 2010 [Nr. 129] >> Cercetare

Inteligenţa Artificială elimină „zgomotul informaţional“ din mediul on-line

Prof. acad. Dan Tufis

20 Octombrie 2010

În luna mai a acestui an, Eric Schmidt, unul dintre directorii executivi ai Google, estima dimensiunea Internetului la circa 5 milioane de terabaiţi de date şi că acest volum creşte constant cu 100 terabaiţi pe lună. Comparativ, se consideră că mintea unui om înmagazinează circa 10 terabaiţi de date (această cifră ar putea fi mai mare pentru că se crede a fi mult mai eficientă compresia datelor în creierul uman decât în mediile electronice).

Prof. Acad. Dan Tufiş,
Director Institutul de Cercetare pentru Inteligenţă Artificială

Schmidt mai adăuga că, în cei 7 ani de operare, Google, creatorul celui mai mare index al Internetului, a indexat aproximativ 200 terabaiţi, adică 0.004% din volumul total! Pe bună dreptate se spune că, potenţial, pentru orice solicitare raţională de informaţie, poate exista măcar un răspuns pe Internet. O mare parte din această fabuloasă sursă de cunoaştere este reprezentată prin texte scrise sau rostite în mai toate limbile Pământului. Dar, pentru a reprezenta cunoaştere utilă, informaţiile scufundate în oceanul digital trebuie să fie „descoperite” şi apoi „decodificate”, astfel încât destinatarul lor să le poată înţelege şi folosi. O informaţie textuală sau vocală transmisă într-o limbă necunoscută receptorului este inutilizabilă de către acesta.

Inteligenţa artificială a revoluţionat serviciile on-line
Descoperirea şi decodificarea informaţiilor pe Internet sunt domenii de vârf ale cercetării de Inteligenţă Artificială, cu aplicativitate imediată. Învăţarea Automată, Prelucrarea Limbajului Natural, Indexarea şi Regăsirea Inteligentă a Informaţiei sunt domeniile care au revoluţionat oferta serviciilor on-line, creând o piaţă extraordinar de dinamică, a cărei evoluţie converge spre un ideal al societăţii cunoaşterii: eliminarea barierelor lingvistice, sociale, economice sau politice privind accesul la cunoaşterea trecută, prezentă şi viitoare a omenirii. Ultimii 10-15 ani au adus progrese absolut remarcabile în prelucrarea limbajului scris şi vorbit, în traducerea automată, în stocarea şi regăsirea aproape instantanee a informaţiilor de interes. Pe baza nivelului cunoaşterii ştiinţifice şi tehnologice actuale, mari companii promit de pildă că, în câţiva ani, telefonul va permite conversaţii traduse simultan, ghidarea personalizată a oricărui turist prin locurile vizitate, prin dialog în limba acestuia, precum şi multe alte facilităţi care în urmă cu numai câţiva ani păreau de domeniul science-fiction. Explicaţiile progresului tehnologic fără precedent al serviciilor electronice textuale, audio şi/sau video se regăsesc, desigur, în expansiunea conectivităţii şi a vitezei de comunicare, în creşterea spectaculoasă a vitezei de prelucrare şi a capacităţii de memorare a calculatoarelor, în tehnologiile moderne ale bazelor de date şi ale interfeţelor prietenoase ş.a. Dar cel puţin la fel de importantă ca acestea este generalizarea unui nou mod de abordare a cercetării şi descoperirii ştiinţifice, considerată de Jim Gray ca reprezentând cea de a patra paradigmă a investigaţiei ştiinţifice: cercetarea ghidată de date (DIS: „Data-Intensive Science” adeseori denumită şi „eScience”, termen introdus de John Taylor în 2000): ”Gray’s paradigm joins the classic pair of opposed but mutually supporting scientific paradigms: theory and experimentation. The third paradigm—that of large-scale computational simulation—emerged through the work of John von Neumann and others in the mid-20th century. In a certain sense, Gray’s fourth paradigm provides an integrating framework that allows the first three to interact and reinforce each other, much like the traditional scientific cycle in which theory offered predictions that could be experimentally tested, and these experiments identified phenomena that required theoretical explanation” ([1], p. 177).

Învăţarea Automată şi Prelucrarea Limbajului Natural
Printre domeniile ştiinţifice în care paradigma DIS s-a impus cu argumente inatacabile, se numără Învăţarea Automată şi Prelucrarea Limbajului Natural. În paradigma DIS, calitatea datelor este fundamentală, acest lucru presupunând, printre altele, normalizarea şi codificarea acestora într-un mod standardizat, independent de limbă sau de mediul de prelucrare, clasificarea şi indexarea datelor într-un mod cât mai flexibil pentru a permite regăsirea lor după criterii variate etc. Datele primare existente în Internet conţin cel mai adesea „zgomot informaţional”, iar pre-procesările amintite au ca scop principal eliminarea acestui zgomot şi facilitarea prelucrărilor ulterioare în mod unitar. Aceste operaţii reclamă, în cazul textelor scrise sau rostite, tehnologii avansate de inginerie lingvistică precum şi instrumente şi resurse lingvistice, importante (dicţionare, corpusuri adnotate lingvistic, analizoare lexicale, sintactice şi semantice etc.). Crearea infrastructurilor de cercetare capabile să asigure aceleaşi tipuri de prelucrări şi investigaţii ştiinţifice, indiferent de limba în care sunt scrise sau rostite datele în limbaj natural, necesită eforturi concertate, dincolo de capacitatea unor instituţii individuale de cercetare. Nu este de mirare deci interesul major al principalelor agenţii finanţatoare ale cercetării din întreaga lume pentru crearea unor infrastructuri de cercetare capabile să stocheze şi să ofere acces liber, tuturor cercetătorilor, la volume uriaşe de date de bună calitate şi la instrumentele informatice de prelucrare ale acestora. Dintre cele mai importante iniţiative europene în acest sens pot fi amintite proiectele CLARIN (Common LAnguage Resource INfrastructure), FLaReNet (Fostering Language Resource Network), MLW (Multi-Lingual Web) şi META-Net (Multilingual Europe Technological Aliance Network).

Institutul de Cercetări pentru Inteligenţă Artificială, institut de excelenţă al Academiei Române, situat în avanposturile cercetării europene de inginerie lingvistică, este activ implicat în iniţiativele menţionate, contribuind, alături de alte câteva centre din România, la integrarea limbii române între limbile de acces la cunoştinţele şi serviciile electronice ale Internetului. Dar despre aceste cercetări şi rezultatele obţinute vom vorbi într-un număr viitor.