Revista si suplimente
MarketWatch
Inapoi Inainte

Cercetare si Invatamant superior >> Stiri si Evenimente

Proiectul european: METANET4U - Enhancing the European Linguistic Infrastructure

21 Decembrie 2010




Extinderea, înlănţuirea şi alinierea resurselor
Resursele existente vor fi extinse şi/sau înlănţuite între diferite surse pentru a le îmbunătăţi acoperirea şi pentru a le creşte adecvarea atât pentru cercetare cât şi pentru dezvoltare. Acestea vor fi, de asemenea, puse împreună pentru a crea resurse lingvistice încrucişate.
Pentru a selecta nucleul setului de resurse care urmează să fie elaborat, au fost considerate câteva domenii ca puncte focale de activitate. Aceste zone au apărut ca relevante în măsura în care ele oferă un suport mai bun comunităţii prin înlănţuirea şi alinierea de resurse şi tehnologie corespunzătoare (împreună cu instrumentele pe care le suportă), cu privire la limbile reprezentate în acest proiect şi care sunt insuficient deservite.
Prin urmare, deşi nu sunt excluse alte activităţi pe alte tipuri de resurse, cea mai mare parte din muncă este organizată în mare parte în jurul următoarelor teme:

“parallel treebanks”: O versiune iniţială a alinierii va fi obţinută în mod automat cu instrumentele disponibile performante (de exemplu, Giza ++) şi ulterior verificate manual cu sprijinul editoarelor de aliniere la nivel de cuvânt (de exemplu, Sanchay, Yawat). Arborii sintactici cu care propoziţia va fi adnotată vor fi obţinuţi cu sprijinul unui mediu open source pentru adnotare dinamică a treebankurilor şi cu gramaticile specifice resurselor limbii existente la partenerii responsabili. Aceste gramatici se bazează pe generalizări lingvistice completate de modele stochastice de rezoluţie a ambiguităţii. Ele urmează cadrul gramatical al Head-Driven Phrase Structure Grammar şi livrează reprezentări semantice în funcţie de formalismul MRS al descrierii semantice. Se folosesc de sistemul de cunoştinţe lingvistice Linguistic Knowledge Builder (LKB) şi sunt agreate de parserul PET. Acesta este dezvoltat de DELPH-IN, un consorţiu internaţional la scară largă (include printre altele, Stanford Univ, Univ Tokyo,. Univ. Cambridge, Univ. Saarland).
Este unanim acceptată în utilizare metodologia de adnotare cea mai fiabilă şi care se bazează pe o adnotare independentă de către mai mult de un adnotator, urmată de adjudecare a adnotării corecte pe bază de vot.

reţele semantice lexicale aliniate la nivel de concept: Munca în reţelele semantice lexicale aliniate la nivel de concept (wordnets) va consta în extinderea lor la limbile relevante (pentru care acestea sunt de dimensiuni limitate) şi, după caz, la îmbogăţirea acestora cu informaţii suplimentare. Aceste wordnet-uri sunt aliniate tranzitiv între ele prin intermediul alinierii lor cu Princeton English WordNet.
Această îmbunătăţire se va baza pe înlănţuirea şi fuzionarea cu alte resurse, acolo unde este cazul. Aceasta va include conectarea la FrameNet şi la resursele care vor fi livrate de către MONNET, PANACEA, probabil de către TTC şi, eventual, de către proiectele în curs ale Comisiei Europene. Extinderea wordnet-urilor se va baza pe proiecţia semiautomată a synset-urilor cu validarea manuală a acesteia. Având în vedere metodele semiautomate utilizate, aceste noi synset-uri vor fi aliniate cu synset-urile English WordNet rezultând o nouă versiune extinsă a wordnet-ului care include şi wordnet-ul englezesc. Se va folosi tehnica de triangulaţie bazată pe dicţionare bilingve pentru a alinia synset-urile noi. Această tehnică de triangulaţie foloseşte English WordNet şi dicţionare bilingve pentru a alinia synset-urile care sunt clasificate a fi corecte având în vedere datele disponibile în dicţionare.
Triangulaţia cât şi instrumentele asociate pentru proiectarea automată, verificare şi editare manuală şi navigarea online a wordnet-urilor rezultante au fost iniţiate de către Emanuel Pianta şi colegii săi de la Trento. Ele există în nucleul clusterului de wordnet-uri MultiWordNet şi vor fi disponibile şi utilizate pentru aceast proiect.
resurse multimodale: În cadrul proiectului CHIL finanţat de Uniunea Europeană (2004-2007) a fost produsă o bază de date multimodală a seminariilor interactive cu prezentări în limba engleză. Înregistrările au fost făcute într-un mediu smart-room.
Adnotarea a fost efectuată de către ELDA, folosind instrumentul Transcriber, care produce documente XML. Adnotarea existentă, care acoperă numai anumite porţiuni ale înregistrărilor, include transcrierea ortografică a vorbirii precum şi identitatea şi funcţia fiecărei persoane participante.
Adnotarea va fi completată şi extinsă pentru a include gesturi ale persoanelor, relaţiile spaţiale şi informaţii prosodice şi legate de emoţie, exact ca în cazul în care scopul ar fi fost acela de a descrie cu precizie în cuvinte scena atât pentru o persoană surdă cât şi pentru o persoană din afara camerei (sau pentru un orb).
Toate înregistrările vor fi adnotate folosind aceeaşi metodologie folosind scheme de adnotare standard. Pentru adnotarea spaţială se va folosi un standard existent cum ar fi SpatialML sau Spatial Role Labelling. Pentru prosodie şi emoţie vor fi utilizate standardele informaţionale ToBi, EMMA (Extensible Multimodal Annotation Markup) sau EmotionML (Emotion Markup Language). Rezultatul va fi o resursă nucleu multimodală de bază concepută pentru activitatea de cercetare pe diferitele tehnologii implicate şi în special pe integrarea ieşirilor lor pentru o analiză multi-nivel.

Bibliografie

Sanchay, A Collection of Tools and APIs for Language Processing. http://sanchay.co.in/
Brown, P., Della Pietra, S., Della Pietra, V., Mercer, R. (1993). The mathematics of statistical machine translation: parameter estimation. Computational Linguistics, 19(2), 263-311.
German, U. (2008). Yawat: Yet Another Word Alignment Tool. http://www.mt-archive.info/ACL-2008-Germann.pdf
Tufiş, D., Ion, R., Ceauşu A., Ştefănescu, D. (2008). RACAI’s Linguistic Web Services. In Proceedings of the 6th Language Resources and Evaluation Conference - LREC 2008, pages 7, Marrakech, Morocco, May 2008. ELRA - European Language Ressources Association.
Vogel, S., Ney, H., Tillmann, C. (1996). HMM-based Word Alignment in StatisticalTranslation. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.



Parerea ta conteaza:

(0/5, 0 voturi)

Lasa un comentariu



trimite