Revista si suplimente
MarketWatch
Inapoi Inainte

Cercetare si Invatamant superior >> Stiri si Evenimente

Proiectul european: METANET4U - Enhancing the European Linguistic Infrastructure

21 Decembrie 2010



Printre proiectele europene în consorţiile cărora, în baza experienţei câştigate şi a instrumentelor şi serviciilor create, se regăseşte în prezent Institutul de Cercetări pentru Inteligenţă Artificială al Academiei Române – ICIA (cunoscut în proiectele europene ca RACAI) se numără şi proiectul METANET4U - Enhancing the European Linguistic Infrastructure. Acest articol prezintă pe scurt acest proiect şi activităţile în care este implicat Institutul de Cercetări pentru Inteligenţă Artificială al Academiei Române.

Scopul acestui proiect european, care se va desfăşura între 2010 – 2013, este acela de a contribui la stabilirea şi consolidarea unei platforme digitale pan-europene care pune la dispoziţie resurse de limbaj şi servicii web, cuprinzând atât seturi de date cât şi instrumente software, pentru prelucrare de voce şi de limbaj sprijinind o nouă generaţie de facilităţi de schimb pentru acestea.
Această platformă de distribuţie este destinată în primul rând celor din afaceri şi industrie, satisfăcând cerinţele acestora privind acele resursele lingvistice ce stau la baza produselor şi serviciilor web. Totodată, ea este orientată şi spre comunitatea academică şi de cercetare, satisfăcând cerinţele de resurse, pe baza cărora vor putea fi obţinute noi rezultate de cercetare. Mai mult, platforma se adresează societăţii în general, satisfăcând cererea de soluţii care depăşesc barierele lingvistice, sprijinind îmbunătăţirea accesului la informaţii.
Instrumentele software distribuite prin intermediul acestei platforme vor constitui soluţii complete ce vor sprijini produse şi servicii multilimbaj. Datele obţinute folosind aceste instrumente vor fi utilizate pentru a dezvolta, antrena şi evalua aplicaţiile tehnologiei limbajului dar şi pentru a adânci sau diversifica cercetarea în domeniul ştiinţei şi tehnologiei limbajului.
Platforma, construită pe o arhitectură distribuită, are la bază servicii web, prin care resursele de limbaj sunt accesate şi utilizate. Resursele lingvistice includ o gamă largă de date (de exemplu, corpusuri, lexicoane, ontologii, modele de limbaj, baze de date specifice vorbirii, etc.) şi instrumente software (de exemplu, aplicaţii de dezambiguizare morfo-lexicală, interpretoare, sumarizatoare, sintetizatoare de vorbire, etc), caracteristice atât tehnologiei vorbirii cât şi celei a limbajului.

Fiind o platformă distribuită, funcţionarea sa pe termen lung este asigurată în cooperare de către diferitele instituţii partenere, care au un lung istoric de activitate în domeniul resurselor lingvistice.
Obiectivul central al proiectului Metanet4u este acela de a contribui la crearea unei platforme digitale pan-europene care să faciliteze accesul rapid şi uşor la resurse şi servicii lingvistice conţinând atât date cât şi instrumentele software destinate procesării limbajului şi vorbirii.
Acest obiectiv central se constituie din următoarelor obiective principale:

Evaluarea: Colectarea, organizarea şi difuzarea de informaţii care permit formarea unei imagini actualizate asupra stării actuale şi potenţiale a activităţilor legate de limbă, pentru fiecare dintre comunităţile lingvistice reprezentate în proiect. Sunt incluse aici organizarea şi furnizarea unei descrieri a utilizării limbajului şi a dimensiunilor sale economice, a tehnologiilor lingvistice, resurselor, produselor şi serviciilor. Sunt evidenţiaţi principalii actori din diferite domenii, inclusiv din cercetare, industrie, guvern şi societate în general, politicile publice, programele, standardele în vigoare şi nivelul actual de dezvoltare, principalii factori şi obstacole, practici, etc.
Colectarea: Asamblarea şi pregătirea resurselor lingvistice pentru distribuţie. Acest lucru presupune colectarea resurselor pentru fiecare din limbile implicate - atât endogene, care sunt deţinute sau controlate de către partenerii de proiect, cât şi exogene, care nu sunt gestionate direct sau controlate de aceştia; documentarea acestor resurse lingvistice; actualizarea lor la standardele convenite; adăugarea de referinţe şi alinierea resurselor paralele, atunci când este cazul.

Distibuţia: Distribuirea resurselor lingvistice colectate prin instrumente de schimb uşor utilizabile de către cei din cercetare şi industrie. Acest lucru presupune colaborarea atât cu alte proiecte (în speţă cu proiectele pilot cu rezultate remarcabile din prezentul apel), cu membrii reţelei de excelenţă META-NET, cât şi cu alte forumuri multi-naţionale sau iniţiative relevante, acolo unde este util. Această colaborare implică atât sprijinul reciproc (atunci când este posibil) în construirea şi exploatarea de spaţii non-comerciale, inter-conectate şi orientate către comunitate, pentru depozitarea datelor, cât şi facilitarea reciprocă la instrumente de lucru.

Diseminarea: Mobilizarea actorilor naţionali şi regionali, a organismelor publice şi a agenţiilor de finanţare prin creşterea gradului de conştientizare cu privire la activităţile şi rezultatele proiectului, în special, şi a resurselor lingvistice şi tehnologie, în general.


Partenerii acestui proiect sunt: University of Lisbon (ULX) din Portugalia care este şi coordonatorul proiectului; Instituto Superior Técnico (IST) din Portuglia; University of Manchester (UNIMAN) din Regatul Unit al Marii Britanii; University Alexandru Ioan Cuza (UAIC) din Iaşi, România; Institutul de Cercetări pentru Inteligenţă Artificială al Academiei Române (RACAI); University of Malta (UOM); Technical University of Catalonia (UPC) din Spania; University Pompeu Fabra (UPF) din Spania.

Dimensiunea europeană este dată de următoarele aspecte:
Crearea unei noi generaţii de platformă pan-europeană digitală, care face resursele şi serviciile lingvistice disponibile, este un atu pentru implementarea completă a tehnologiei limbajului. Platforma este de o mare importanţă pentru funcţionarea unor soluţii care să depăşească barierele lingvistice şi să sprijine accesul îmbunătăţit la informaţie multi-lingvă. Acest lucru este pe deplin aliniat cu politicile Uniunii Europene de stimulare a comunicării cros-linguale bazate pe tehnologia informaţiei şi comunicaţiei (TIC), colaborării şi participării, ce au ca scop crearea unei pieţe pan-europene digitale unice.
Există cinci limbi reprezentate în acest proiect: engleză, malteză, portugheză, română şi spaniolă dar şi alte limbi co-oficiale din Spania, fapt ce presupune lucru pe trei familii de limbi diferite: germanice, romanice şi semitice. Acest lucru conduce la apariţia unor probleme importante ridicate de diversitatea lingvistică. De asemenea, este important de reţinut faptul că printre aceste limbi se numără atât cea mai studiată limbă din lume (limba engleză), cât şi una din limbile pentru care există extrem de puţine resurse (limba malteză), fapt ce permite apariţia unor probleme metodologice relevante ce oferă un cadru propice de testare a diferitelor tehnici de prelucrare a limbajului.

Dimensiunea naţională este dată de următoarele aspecte:
La nivel naţional şi regional, există o percepţie larg împărtăşită a limbii ca un element-cheie ale apartenenţei (culturale, naţionale etc,), precum şi ca un factor crucial de identitate care face să fie conservată cu atât mai mult în cadrul schimbării şi globalizării. Acest lucru a condus la un număr tot mai mare de iniţiative naţionale şi regionale de politici lingvistice mai concentrate, care includ programe specifice de cercetare în domeniul ştiinţei şi tehnologiei limbajului în vederea dezvoltării de resurse lingvistice. Obiectivele proiectului sunt în deplină concordanţă cu politicile naţionale şi regionale şi contribuie la consolidarea iniţiativelor specifice de resurse lingvistice.

Dimensiunea globală este dată de următoarele aspecte:
Printre limbile reprezentate în proiect, există trei limbi europene - engleză, portugheză şi spaniolă - care nu au doar cel mai mare număr de vorbitori nativi dar majoritatea acestora sunt în afara Uniunii Europene. Acest proiect este construit pe reţeaua de relaţii profesionale a partenerilor consorţiului ceea ce face ca această situaţie să fie exploatată ca un avantaj strategic pentru proiect: va permite mărirea volumului de resurse lingvistice care vor fi atrase de proiect ce acoperă variante non-europene ale acestor limbi. Un avantaj direct care rezultă de aici este extinderea gamei de activităţi şi a grupurilor ţintă pentru diseminare a rezultatelor proiectului şi amplificarea lor în exterior. Trebuie remarcat faptul că pentru acest proiect, toate limbile reprezentate sunt la fel de importante, indiferent de numărul lor de vorbitori.
Există două tipuri majore de stimulente care rezultă din partajarea resurselor:
• beneficii academice: pentru aceste stimulente, pe lângă beneficiile obişnuite (citări şi recunoaşteri), se va lua în considerare editarea unui volum descriind contribuţiile lor.
• beneficii materiale: pentru această categorie se va lua în considerare facilitarea “barterelor” şi chiar a unor mici premii pentru contribuţiile valoroase.
Desigur, cele două categorii de stimulente ar putea fi combinate în scopul de a creşte interesul şi angajamentele părţilor potenţial terţe.

Institutul de Cercetări pentru Inteligenţă Artificială al Academiei Române (RACAI) este implicat în pachetul de lucru dedicat îmbogăţirii resurselor lingvistice şi se ocupă de realizarea unei anchete ample asupra resurselor lingvistice şi instrumentelor disponibile pentru limba română existente în România dar şi în străinătate (sunt multe site-uri publice care promovează resurse utile). Proprietarii vor fi contactaţi pentru a se alătura eforturilor de realizare a proiectului. Acest pachet de lucru are în vedere livrarea de resurse de o foarte bună calitate şi (re)utilizabile prin intermediul schimbului digital deschis oferit de META-NET şi, după caz, prin intermediul altor canale şi iniţiative adecvate. Resursele selectate în activităţile şi pachetele de lucru anterioare vor fi modernizate astfel:
- din punctul de vedere al seturilor de date, acestea vor include: baze de date de sinteza vorbirii, lexic, wordnet-uri, tezaure, corpusuri adnotate, corpusuri paralele;
- din punctul de vedere al software-ului, acestea vor include: programe de identificare a limbii, programe de despărţit în silabe, segmentare la nivel de cuvânt, lematizare, segmentare la nivel de frază, analiză sintactică de suprafaţă, dezambiguizare semantică automată, interpretoare de discurs, rezolvitori de anafore, sisteme de întrebare-răspuns, manageri de corpusuri, aliniatoare la nivel cuvânt, editoare de lexicoane şi de ontologii, servicii web lingvistice, editoare de fluxuri de lucru.
În funcţie de resursele specifice considerate, această modernizare poate implica, printre alte activităţi:
- îmbunătăţirea documentaţiei, atât în termeni de metadate cât şi în termeni descriptivi;
- eliminarea neconcordanţelor şi curăţarea seturilor de date;
- asigurarea conformităţii resurselor cu standardele tehnice şi lingvistice recunoscute;
- înlăturarea erorilor din instrumentele software;
- etc.
Modernizarea acestor resurse este planificată nu numai pentru a le finaliza, pentru a le corecta sau a le face să respecte standardele, dar şi pentru a servi la dezvoltarea de versiuni îmbunătăţite de instrumente lingvistice computaţionale care pot sprijini activitatea de cercetare. Dată fiind gama largă de resurse lingvistice, de software şi de date, precum şi faptul că acţiunile disparate de îmbogăţire şi îmbunătăţire a lor se face de obicei în mod descentralizat, nu se poate oferi o prezentare sistematizată a diferitelor opţiuni metodologice care trebuie să fie adoptate. Este important totuşi de subliniat faptul că aceste acţiuni de modernizare vor fi facilitate de instrumente care sunt, aproape toate, disponibile la partenerii responsabili şi care sunt instrumente care, fie au fost solicitate şi folosite în dezvoltarea iniţială a resurselor în cauză, fie sunt instrumente care au evoluat de la versiunile anterioare.
Resursele selectate pentru utilizare au fost supuse unei analize în ceea ce priveşte natura şi amploarea lucrărilor de modernizare la care vor fi supuse, precizându-se natura şi gradul de modernizare planificate.



Parerea ta conteaza:

(0/5, 0 voturi)

Lasa un comentariu



trimite