Revista si suplimente
MarketWatch
Inapoi Inainte

Primul corpus computaţional de referinţă pentru limba română contemporană

22 Iunie 2018



În anul Centenarului, Academia Română, prin Institutul de Cercetări pentru Inteligență Artificială „Mihai Drăgănescu” din București (ICIA) și Institutul de Informatică Teoretică din Iaşi (IIT), a reușit să pună la dispoziţia publicului larg un instrument valoros pentru studiul, învăţarea şi conservarea limbii române, ameninţată în urmă cu câţiva ani cu extincţia în spaţiul digital. Este vorba de primul „Corpus computaţional de referinţă pentru limba română contemporană (CoRoLa)” (corola.racai.ro), rezultat al unui proiect prioritar al Academiei Române, ce reprezintă o colecție de texte contemporane de după 1990, în versiune scrisă și orală, de dimensiuni foarte mari, conţinând peste 1 miliard de cuvinte și peste 300 de ore de înregistrări vocale. Pe parcursul interviului acordat de acad. Dan Tufiş, directorul ICIA, am putut face o incursiune în complexitatea şi semnificaţiile acestui proiect strategic, descoperind totodată oportunitățile pe care le creează, în special în zona preocupărilor aplicative.

Proiectul CoRoLa împrumută numele cunoscutei poezii scrise de Lucian Blaga. V-aţi gândit prin acest proiect să realizaţi o minune a lumii moderne?

Într-adevăr, numele corpusului nu a fost ales întâmplător, dar pentru rigoarea informării, trebuie să vă spun că inspirata denumire este în fond un acronim pentru Contemporary Romanian Language corpus. Însă, continuând ideea dumneavoastră, ne-am propus să nu distrugem corola de minuni a limbii române, ci, din contră, să o dezvăluim, să punem în valoare tainele şi bogăţiile sale. Poate e prea mult spus faptul că am realizat o minune. În mod cert însă, pentru cercetarea românească este o premieră, ce are loc pe fondul unui efort generalizat la nivel internaţional. În 2012, META-NET, o reţea de excelenţă dedicată consolidării societății informaționale europene multilingve, a publicat un studiu elaborat de peste 200 de experți și documentat în 30 de volume ale seriei de rapoarte META-NET, prin care avertiza că 21 de limbi din spaţiul UE, printre care şi limba română, sunt în pericol de extincţie în spaţiul digital. Una dintre cele mai mari deficienţe semnalate era absenţa corpusurilor de mari dimensiuni de limbă scrisă şi vorbită.
În România, reacţia faţă de aceste informaţii a fost destul de rapidă, iar institutul nostru a lansat în acel an un proiect pilot de corpus de referinţă pentru limba română. Doi ani mai târziu, în 2014, pe baza nucleului creat, Academia Română a decis lansarea unui proiect mult mai ambiţios, CoRoLa, coordonat de ICIA şi Institutul de Informatică Teoretică din Iaşi. Obiectivul principal a fost realizarea unui corpus public de limbă scrisă şi vorbită contemporană de mari dimensiuni, completat cu un set de instrumente de prelucrare și adnotări care prezintă informații de natură lingvistică și gramaticală (morfologice, lexicografice, sintactice etc.), precum și metadate standardizate (care se referă la autor, data publicării, editură, genul literar al textului etc.). Textele au acoperit patru domenii majore (social, ştiinţă, natură, artă&cultură) şi nu mai puţin de 70 de subdomenii. Pentru a avea o imagine sugestivă despre dimensiunea CoRoLa, am calculat că întregul său conţinut printat poate acoperi 1000 m de rafturi, iar toate textele adunate, la o rată de 30-35 de cuvinte parcurse pe minut, ar putea fi citite în 47 de ani.

Aţi condus o acţiune de pionierat, însoţită de dificultăţile inerente construirii unei colecţii complexe…
La acel moment realizarea corpusului a fost un obiectiv extrem de ambiţios, în condiţiile în care în întreaga lume erau puţine astfel de lucrări. În UE existau 7-8 corpusuri mari de referință, aferente limbilor de circulație internațională. Întreprinderea a fost complicată: pe lângă respectarea drepturilor de autor ce trebuia asigurată, datorită caracterului public al corpusului, au existat şi o serie de probleme de natură tehnică, determinate de volumul foarte mare de date, în special pe partea de stocare şi prelucrare. Am fost însă sprijiniţi de mulţi specialişti din întreaga ţară, din institutele de lingvistică şi din universităţile din Bucureşti, din Iaşi, din Craiova, de mulţi voluntari, precum şi de o serie de experţi în problemele de limbă, de clasificare sau de construcţie a corpusurilor. Pentru a acoperi toate stilurile funcţionale ale limbii, toate domeniile şi subdomeniile vizate şi a crea o colecţie reprezentativă am încheiat contracte de colaborare cu cele mai mari edituri din ţară, cu agenţiile de presă, inclusiv cu unii blogeri. Selecţia textelor a fost făcută urmărind clasificarea din Wikipedia, care are o taxonomie de texte pe care am considerat-o foarte potrivită.

Dezvoltarea CoRoLa s-a conectat la standardele şi bunele practici internaţionale?
Faptul că am reuşit să împlinim aşteptările şi să onorăm toate promisiunile a trezit interesul creatorului celui mai mare corpus din lume, Institutul Limbii Germane, care a devenit partenerul nostru şi avut un rol esenţial în dezvoltarea CoRoLa
în ultimii ani. Alături de Fundaţia Humboldt, ne-a propus migrarea de la soluţiile noastre software la soluţia lor, care este mai nouă şi practic insensibilă la cantitatea de date, accesul şi timpul de răspuns la diversele operaţii fiind constant. În plus, ofereau şi o serie de servicii atractive pentru cercetare. De pildă, pe platforma concepută de ei, utilizatorii pot construi corpusuri specializate virtuale pe anumite domenii de interes, pe care pot fi făcute apoi orice fel de cercetări. Corpusul CoRoLa poate fi accesat la adresa corola.racai.ro și interogat atât pe partea textuală, cât și pe partea orală, prin interfețe specializate.

Proiectul este de importanță strategică şi a fost considerat prioritar, încă de la început, de către Academia Română…

Importanța strategică a unui astfel de corpus rezultă din posibilitatea aplicării lui în foarte multe domenii, din impactul puternic pe care îl are în ceea ce priveşte reprezentarea limbii române în mediul digital. CoRoLa oferă o imagine obiectivă a limbii actuale, scrise şi vorbite.
Corpusul este destinat în primul rând studiilor lingvistice (fonologie, morfologie, lexicologie, etimologie, sintaxă, semantică, pragmatică), pentru învățarea limbii și pentru dezvoltarea de aplicații de prelucrare automată a limbii române (modele semantice de limbă, dezambiguizare semantică a textelor, sisteme de clasificare tematică a documentelor, traducere automată etc.).
În plus, la nivel internaţional, contribuie la crearea unei infrastructuri şi colaborări multilingve. În cadrul proiectului DRuKoLA, început în 2016 cu Institutul Limbii Germane, urmărim să realizăm o analiză contrastivă între limba germană şi limba română. Mai mult, acest proiect a fost extins prin atragerea ungurilor şi polonezilor, care, pe platforma creată de nemţi, şi-au pus la dispoziţie corpusurile lor naţionale de referinţă, deschizându-se astfel calea unor cercetări multilingve.

Ce urmează? Cum va continua dezvoltarea CoRoLa?
Îmbucurător este faptul că, deşi a fost lansată de puţin timp, în decembrie 2017, se lucrează deja cu CoRoLa. A devenit instrument de lucru în țară pentru realizarea unor teze de doctorat la ICIA,. precum și a mai multor studii de lingvistică teoretică, susţinute de evidența datelor, la Universitatea din Bucureşti, la Universitatea din Iaşi, la institute de lingvistică din Chişinău și Paris.
Datorită rezultatelor şi ecourilor foarte bune venite din ţară şi din străinătate, Academia Română a decis să prelungească dezvoltarea proiectului pe o perioadă de încă doi ani, cel puţin. Niciodată o colecţie nu va fi finită, limba evoluează, sunt necesare adăugiri, contrabalansarea subdomeniilor - dezechilibrate cantitativ - noi prelucrări, crearea de noi instrumente de lucru. Important este că situaţia limbii române în mediul digital s-a îmbunătăţit semnificativ, iar la nivelul UE, iniţiativa European Language Resource Coordination confirmă această evoluţie.
În ultimul deceniu, progresul remarcabil în știința și tehnologia informației, abordările bazate pe învățarea profundă (deep learning) și modele neuronale, au impus ca o prioritate internațională necesitatea achiziției și stocării volumelor mari de date lingvistice, publice și de bună calitate. CoRoLa, prezentă și viitoare, este răspunsul nostru la această provocare!

Proiecte complementare de AI, noi oportunităţi de dezvoltare
De curând România a semnat acordul de participare la Apelul Comisiei Europene privind Declaraţia de Cooperare pentru Inteligenţă Artificială (IA), prin care există un angajament oficial de colaborare pe problemele cheie din domeniu, prelucrarea automată a limbajului natural fiind o preocupare majoră. Pentru tot ce înseamnă prelucrarea limbii române, pe toate nivelele - scris, vorbit, video - colecţia CoRoLa va fi o sursă de informaţii şi un suport extrordinar pentru cercetări în IA şi dezvoltare de aplicaţii.
În contextul acestei deschideri, ICIA participa, începând din acest an, la două proiecte de IA, care vor contribui la extensia CoRoLa şi la valorificarea resurselor pe care le înglobează. Primul se numeşte ReTeRom (PN-III-P1-1.2-PCCDI-2017-0818 în cadrul PNCDI III) şi adună instituțiile academice din România cu cele mai bune rezultate în prelucrarea vorbirii: Universitatea Tehnică din Cluj, Universitatea Politehnica din Bucureşti, Institutul de Informatică Teoretică din Iaşi şi ICIA. Scopul său este de a pune cap la cap, într-un format unic, resursele de vorbire din fiecare instituţie participantă, rezultat care va permite suplimentarea componentei de vorbire din CoRoLa şi dezvoltarea de aplicaţii de recunoaştere a vorbirii în limba română şi de sinteză cu afect a textelor.
Al doilea este tot un proiect complex de IA, ROBIN (PN-III-P1-1.2-PCCDI-2017-734 în cadrul PNCDI III), în robotică cognitivă, la care participă Universitatea Politehnica din Bucureşti, Universitatea Tehnică din Cluj, Institutul de Matematică al Academiei Române, Universitatea Dunărea de Jos din Galați şi ICIA, fiecare instituţie având responsabilitatea unui domeniu, de la robotică standard şi programarea roboţilor, până la autovehicule autonome şi vedere artificială. Se are în vedere rezolvarea de probleme de dialog cu roboţii, pentru a putea interacţiona cu aceştia în limba română, în premieră. Obiectivul principal urmăreşte dezvoltarea de sisteme de asistare a persoanelor cu dizabilităţi de către roboţi personali, roboţi sociali folosiţi în diverse business-uri, interacţiunea cu automobilele ce au capacitate de conducere autonomă.
În ambele proiecte vor fi depuse mai multe brevete de invenţie, în contextul în care se estimează că vor rezulta lucruri foarte atractive comercial.



Parerea ta conteaza:

(0/5, 0 voturi)

Lasa un comentariu



trimite