Revista >> Iunie 2018 [Nr. 205] >> Cercetare & Invatamant superior

Tehnologiile informației deschid noi fronturi pentru cercetarea lingvistică românească

Victor Celac

22 Iunie 2018

În perioada actuală, cercetarea lingvistică românească a căpătat un nou suflu prin deschiderea oferită de legăturile şi colaborările internaţionale şi prin implementarea unor metode şi resurse moderne, aduse de tehnologiile de ultimă oră ale informaţiei. Tendința a fost evidențiată și cu ocazia ediţiei a VII-a a Simpozionului internaţional de lingvistică, organizat în zilele de 18 şi 19 mai 2018 la Institutul de Lingvistică „Iorgu Iordan – Alexandru Rosetti” din Bucureşti. Victor Celac, cercetător Institutul de Lingvistică „Iorgu Iordan – Alexandru Rosetti”, Academia Română

Evenimentul a reunit specialişti din diverse centre universitare din România (Bucureşti, Baia Mare, Blaj, Braşov, Cluj, Galaţi, Iaşi, Oradea, Ploieşti) şi din alte ţării (Austria, Belgia, Croaţia, Franţa, Italia, Luxemburg, Marea Britanie, Norvegia, Republica Moldova, Ungaria).
Comunicările ştiinţifice prezentate la Simpozion, în cadrul a şapte secţiuni tematice, au ilustrat preocupări ţinând de sub-domenii ale lingvisticii precum dialectologia, onomastica, fonetica, filologia, istoria limbii române, morfologia, sintaxa, lexicologia, lexicografia, frazeologia, lingvistica romanică, pragmatica, stilistica, analiza discursului. S-a făcut remarcată o tendinţă accentuată, a multor autori de comunicări, de a recurge la resurse şi mijloace oferite de noile tehnologii ale informaţiei. S-a discutat într-un mod aprofundat despre dezvoltarea şi utilizarea de corpusuri textuale ce pot stimula cercetările de morfologie, lexicologie, frazeologie, pragmatică etc., înregistrări de teren privind dialectologia, onomastica, fonetica, analiza discursului, crearea de intrefeţe speciale de redactare pentru lexicografia prezentului şi a viitorului.
Pe lângă comunicările din cele şapte secţiuni ale Simpozionului, participanţii au avut ocazia de a urmări trei conferinţe plenare, prezentate de mari personalităţi ştiinţifice: Delia Bentley (Manchester, Marea Britanie), Martin Maiden (Oxford, Marea Britanie) şi Jean-Marie Pierrel (Nancy, Franţa).

ORTOLANG – un rezervor on-line de resurse lingvistice
Jean-Marie Pierrel, în conferinţa intitulată Une infrastructure de pérennisation, de mutualisation et de valorisation de ressources linguistiques: l’Equipex ORTOLANG (Open Resources and Tools for Language, www.ortolang.fr), a prezentat o platformă on-line – un vast rezervor de date şi de resurse privind limba franceză, limbile vorbite în Franţa şi limbile cu care franceza a avut sau are legături sau contacte de orice fel. Orice cercetător sau instituţie (din Franţa sau de oriunde din lume) poate contribui la platforma Ortolang, punând la dispoziţie resursele lingvistice corespunzătoare pe care le-a creat: corpusuri de orice fel (scrise sau textuale, orale, multimedia), dicţionare, inventare terminologice, instrumente electronice servind la prelucrarea limbajului etc. Ortolang asigură perenitatea resurselor şi a bazelor de date deţinute, găzduindu-le în condiţii sigure. În acelaşi sens, al perenizării, se asigură, când e cazul, transpunerea datelor într-un format ce va fi accesibil în viitor, pe termen mediu şi lung. (E soluţionată astfel o problemă practică: după trecerea unui număr de ani, se întâmplă uneori ca resursele, colecţiile de date create de unii specialişti ne-informaticieni să devină inaccesibile chiar şi creatorilor lor, din cauza procesului de înnoire continuă a softurilor şi a echipamentelor folosite). În plus, Ortolang asigură difuzarea şi punerea în valoare a resurselor respective, cu respectarea condiţiilor privind proprietatea intelectuală şi a altor condiţii şi limitări, după caz. De exemplu, un corpus multimedia privind interacţiunile persoanelor afectate de autism, conţinând date de identificare ale subiecţilor, va fi accesibil exclusiv specialiştilor din domeniu (care se vor înregistra ca utilizatori pe Ortolang, certificându-şi această calitate), spre deosebire de un glosar de fonologie sau de argou, accesibil oricărui vizitator. Ortolang asigură contribuitorilor şi dreptul de intervenţie, ulterior depunerii pe platformă: e posibilă modificarea în orice sens a conţinuturilor respective (în sensul augmentării, dezvoltării sau a corectării lor etc.). În concluzie, Ortolang ilustrează în mod exemplar paradigma caracteristică zilelor noastre: open data, open sources, open acces, open knowledge, open minds (pentru detalii suplimentare privind Ortolang, cf. <www.ortolang.fr>).

Institutul de Lingvistică „Iorgu Iordan – Alexandru Rosetti” din cadrul Academiei Române este un centru de cercetare ce se sprijină pe o frumoasă tradiţie, reprezentată de numele şi opera unor mari înaintaşi precum Sextil Puşcariu, Al. Graur, Iorgu Iordan, Ion Coteanu, Al. Rosetti, Emanuel Vasiliu, Marius Sala. Dintre lucrările elaborate aici de-a lungul timpului – tratate şi monografii ştiinţifice, dicţionare, gramatici, atlase lingvistice, lucrări de ortografie şi cultivare a limbii etc. – unele sunt adresate preponderent specialiştilor, altele interesează publicul larg.

Cercetarea lingvistică şi tehnologiile informaţiei
Progresul vertiginos al noilor tehnologii ale informaţiei generează, prin contrast, o rezistenţă din partea unor reprezentanţi ai domeniilor de cercetare orientate, într-o oarecare măsură, spre tradiţie, cum sunt ştiinţele umaniste, în general, şi lingvistica, în particular. Profesorul Pierrel a pledat pentru depăşirea rezervelor şi a rezistenţei respective, propunând o analogie cu situaţia absurdă în care biologii şi astronomii, din comoditate sau din inerţie, ar refuza, în prezent, să se servească de microscop sau de telescop. În perioada anterioară revoluţiei informaţionale pe care o traversăm, lingviştii păreau să privilegieze metoda introspecţiei individuale. Cu alte cuvinte, luau propria lor experienţă şi competenţă lingvistică drept reper în elaborarea studiilor despre limbă şi limbaj, ceea ce implica riscul unor soluţii şi aprecieri de tip „impresionist”, marcate sau chiar viciate de subiectivitate. A existat totuşi, chiar de la începutul secolului al 20-lea, în lingvistică şi în filologie, tendinţa de a acumula cantităţi cât mai mari de date – prin întocmirea de colecţii de texte, glosare, dicţionare de tip tezaur, atlase lingvistice, dar această tendinţă era drastic limitată de puterea de procesare şi de capacităţile de stocare disponibile: instrumentele de care se puteau folosi cercetătorii erau memoria umană, fişa de hârtie şi creionul.
Eficienţa dată de viteza de procesare incomparabil mai mare decât a creierului uman, de capacităţile colosale de stocare a datelor, îi convinge pe majoritatea lingviştilor români, din toate generaţiile aflate în activitate în prezent, să adopte noile tehnologii (sau măcar să nu li se opună făţiş).

Romtext, un corpus electronic diacronic
Voi menţiona în continuare câteva comunicări ştiinţifice prezentate la simpozion, corespunzătoare unor preocupări existente actualmente în Institutul de Lingvistică „Iorgu Iordan – Al. Rosetti” şi în alte institute de profil din ţară.
Monica Busuioc (şefa Departamentului de lexicologie şi lexicografie din institutul menţionat) şi Dan Caragea au prezentat comunicarea Romtext, corpus electronic adnotat şi datat, al limbii române, dezvăluind detalii despre acest proiect: e vorba de crearea unui corpus textual diacronic (conţinând texte din toate perioadele istorice, începând cu secolul al 16-lea, etapa cea mai veche de când există mărturii scrise în română). Obiectivul major este crearea unei interfeţe on-line, prin care Romtext să devină accesibil publicului, după modelul marelui corpus electronic Frantext (disponibil publicului la <http://www.frantext.fr/>), în mod similar cu corpusul de referinţă pentru limba română contemporană CoRoLa, care conţine o cantitate foarte mare de texte, datând din 1989 şi până astăzi (v. <http://corola.racai.ro/> şi articolul din acest număr al revistei).

Interfaţă de redactare pentru viitoarea serie a DLR
Dicţionarul limbii române (cunoscut specialiştilor şi publicului cu sigla DLR), cea mai importantă lucrare lexicografică românească, propune o perspectivă istorică şi etimologică asupra lexicului. Fiecare articol din DLR trasează istoria cuvântului respectiv, ilustrând diversificarea semantică, formală, stilistică etc., în timp şi în spaţiu, prin intermediul numeroaselor atestări (citate) extrase din sursele textuale româneşti, începând cu cele mai vechi. Elaborarea şi publicarea celor peste 30 de volume ale DLR a început acum mai bine de o sută de ani şi s-a încheiat în 2010.
În comunicarea Interfaţa de redactare a Dicţionarului limbii române, Monica Busuioc, Alexandru Anghelina şi Claudius

Teodorescu au descris stadiul în care se află elaborarea unei interfeţe de redactare ce va fi folosită de lexicografii din institutele de lingvistică ale Academiei Române în munca de redactare a unei noi serii a DLR. Această interfaţă este dezvoltată de informaticianul Claudius Teodorescu (<http://kuberam.ro/>), prin adaptarea la specificul lexicografiei academice româneşti a editorului XML creat şi oferit lexicografilor din Academia Română de compania românească de software Oxygen. E de aşteptat ca această interfaţă să asigure o standardizare şi o coerenţă internă foarte bună a viitoarei serii DLR, prin aspecte precum: (1) structurarea unitară a articolelor lexicografice; (2) furnizarea unor seturi predefinite de formulări şi indicaţii lexicografice de diverse tipuri, concomitent cu restricţiile aferente utilizării lor; (3) furnizarea unui inventar predefinit de sigle referitoare la sursele textuale sau lexicografice citate în DLR.