Revista >> Iunie 2019 [Nr. 215] >> IT&C

Prof. Ion Stoica, cel mai bine cotat specialist român în computer science: „În cercetare şi în business diferenţa va fi făcută de actualitatea problemelor și de rapiditatea rezolvării lor“

Alexandru Batali & Bogdan Marchidanu

20 Iunie 2019

În topul celor mai buni 1000 de specialişti în computer science şi electronică (www.guide2research.com/scientists/), Ion Stoica, profesor la University of California, Berkeley, se situează pe locul 41, fiind românul cel mai bine poziționat în acest clasament mondial. Prezent la Cluj în calitate de speaker la Techsylvania, unul dintre cele mai mari evenimente de tehnologie din Europa de Est, prof. Ion Stoica a primit pe 11 iunie titlul de Doctor Honoris Causa din partea Universităţii Babeş-Bolyai, acordat pentru contribuții științifice remarcabile în domeniile sisteme distribuite, cloud computing și rețele de calculatoare. L-am întâlnit pe prof. Ion Stoica în cadrul vizitei pe care a facut-o la Academia Română, ocazie cu care a acordat revistei Market Watch un interviu în exclusivitate.

Sunteţi profesor în SUA la Berkeley, una dintre cele mai bune universităţi tehnice. Privind în urmă, în ce măsură școala românească a pus bazele unei bune formări şi evoluţii profesionale? Cum apreciaţi educaţia primită în şcoala politehnică din România?
Înainte de facultate, Gheorghe Şincai este liceul pe care l-am urmat în București. Am avut parte de profesori care m-au inspirat şi care făceau diferenţa, cum a fost, de exemplu, la matematică, Alexandru Lăpușneanu. Dar a contat şi mediul, faptul că eram în compania unor colegi foarte buni, foarte bine pregătiţi, care mă motivau să fiu la un nivel înalt. Participam la olimpiade de fizică şi de matematică şi am oscilat între aceste domenii. Am ales să urmez Automatica, deoarece am considerat că oferea mai multe oportunităţi: informatica era la început, un teritoriu virgin, cu mai multe posibilităţi de explorare decât fizica, care mi se părea mai închisă.
La sfârşitul anilor 80, între 1985 şi 1989, am fost student la Facultatea de Automatică din cadrul Unversității Politehnica din Bucureşti. Am avut nişte profesori deosebiţi: mentorii mei, prof. Nicolae Țăpuș şi prof. Irina Atanasiu, T. Moisa, Adrian Petrescu, Vasile Brînzănescu, Octavian Stănășilă. Facultatea a reprezentat un fundament bun pentru pregătirea tehnică de bază: pe parte de matematică, programare şi hardware (construcția de calculatoare). De asemenea, școala românească îţi oferea skills-uri pentru rezolvarea de probleme. A fost şi o perioadă specială, când se costruia primul PC în România…

Între timp românii s-au afirmat în IT-ul de vârf. Am constatat analizând topul mondial al specialiştilor din computer science şi electronică că în el sunt prezenți mulți români. Care consideraţi că este secretul acestei bune poziţionări a specialiştilor din România?
Există mai multe posibile explicaţii. Tradiţional, România a asigurat şi asigură o pregătire de foarte bună calitate în matematică, în fizică şi în informatică, punând nişte baze profesionale foarte solide, oferind o educaţie bună. Ulterior, când te dedici domeniului cercetării contează foarte mult creativitatea, capacitatea de a munci asiduu şi de a te orienta foarte clar pe o anumită direcţie. Presupun că specialiștii români de top mondial stau foarte bine și la aceste capitole.

Cum colaborați cu profesioniștii din România? Există un plan de extindere a relațiilor cu țara noastră prin inițierea unei cooperări cu Academia Română?
De fiecare dată când am venit în România, aproape în fiecare vară, la invitaţia prof. Nicolae Țăpuș și a prof. Costin Raiciu, am susţinut prezentări la Facultatea de Automatică şi am avut discuţii cu studenţii, cărora le-am spus ce anume cercetez şi ce este de interes în computer science la nivel mondial. În particular, am avut discuții de colaboarare cu prof. Costin Raicu, unul dintre cei mai buni cercetatori tineri în domeniul sistemelor și rețelelor de calculatoare, pe care îl cunosc încă de când era student la doctorat la University College London. De câteva luni l-am cunoscut pe acad. Florin Filip şi se deschide perspectiva colaborării cu Academia Română. Zilele acestea vom discuta despre un plan şi câteva direcţii de cooperare. Sunt interesat în primul rând să aflu care sunt metodele care au avut succes în trecut. Pentru a merge bine un parteneriat trebuie să identifici în mod prioritar oamenii cu care colaborezi, interesele comune şi modalitatea de concentrare a eforturilor în direcţia vizată. Am convorbiri ocazionale cu informaticieni şi companii de IT din România. Dar, și la Berkeley, colaborările efective nu sunt între profesori, care au puţin timp la dispoziţie, ci între studenţii acestora, care au mai multe resurse pentru a susţine un parteneriat. Noi asigurăm doar cadrul şi direcţiile de urmat.

Există şi o dimensiune de business pe care o acoperiţi prin vizita făcută în România. La Techsylvania veţi participa în calitate de om de afaceri, fiind co-fondator al unor companii de tehnologie: Databricks-Unified Analytics şi Conviva Networks. Ce specific au aceste companii?
Databricks este o companie fondată în 2013 împreună cu studenţii mei în frunte cu un alt român, Matei Zaharia, pe parcursul perioadei mele sabatice. Business-ul e generat de un sistem software de tip open source dezvoltat la Berkeley, numit Apache Spark. Software-ul creat permite să analizezi şi să procesezi rapid şi eficient cantităţi foarte mari de informaţii. Produsul bazat pe proiectul de open source rulează în public cloud: Amazon, Microsoft Azure, ş.a.m.d. Dispune şi de instrumente de securitate și de tooluri care permit dezvoltarea mai rapidă de programe pentru procesare de date şi pentru machine learning. Este un produs vândut la companii mari din domeniul financiar-bancar (FINRA), mass-media (Viacom, NBC Universl), tehnologic (HP, Zeiss), farmaceutic (Sanofi, Regeneron) sau telecom (Comcast), care au date foarte multe în cloud, pe care doresc să le proceseze pentru a obţine valoare din ele. Userii sunt data scientists şi ingineri de date care ajută companiile în care lucrează să înţeleagă comportamentul consumatorilor şi ulterior să optimizeze produsele pe care le au sau anumiţi parametri, operaţiuni care determină creşterea business-ului.
Cealaltă companie fondată, Conviva, furnizează informaţii relevante şi produse realizate în jurul datelor pentru uzul companiilor media care produc sau distribuie conţinut, precum HBO, Time Warner, Hulu, etc.

Anul trecut cifra de afaceri Databricks a depăşit 100 de milioane de dolari. O posibilă explicație a reușitei?
Pentru o companie mică, ideal este să ţintească o nişă de piaţă cu potenţial de creştere foarte rapid și să cunoască foarte bine utilizatorii. Unul dintre avantajele nişei este acela că este neglijată de marile companii şi pentru o bună perioadă nu există o concurență serioasă. Ne axăm pe mediul de cloud public şi oferim soluţia noastră sub formă de serviciu. Nu ne interesează deocamdată instalările on-premises la clienţi şi nici mediul de cloud privat. Şi asta deoarece dezvoltările simultane pentru ambele medii cloud sunt foarte dificile. În plus, mediile de cloud privat sunt extrem de diferite între ele, şi asta înseamnă un efort imens de adaptare şi lucru pentru dezvoltator.

Lucraţi la foarte multe proiecte de cercetare, dar acoperiți şi zona aplicativă prin cele două firme ajunse la maturitate. Cum îmbinaţi zona de cercetare în domenii noi precum machine learning sau AI cu dezvoltarea a ceea ce aveţi deja implementat?
În permanenţă am fost pasionat de rezolvarea de probleme. Doctoratul l-am făcut în SUA la Carnegie Mellon în domeniul reţelelor de calculatoare. Când m-am mutat la Berkeley am fost preocupat de peer-to-peer systems şi iniţial le-am perfecţionat pentru video distribution. Din 2006 interesul mi-a fost captat de big data, colaborarea cu industria fiind deja la un nivel ridicat. În 2006-2007, când am vizitat Facebook, compania era mică, aveau doar 3 oameni în echipa care se ocupă de big data, iar clusterul lor dispunea de 80 de calculatoare. Am colaborat bine la acea vreme cu Yahoo, care dezvoltau Hadoop.
Tot timpul m-a interesat să rezolv problemele de actualitate, iar colaborarea cu industria mi-a oferit oportunitatea de a înţelege mult mai bine cercetările efectuate. Cel mai interesant a fost să punem la punct procesarea back-end, în timp real, şi oferirea de răspunsuri la întrebările legate de ce s-a întâmplat în trecut. Procesarea back-end a fost o sursă de probleme pe care le-am lucrat în cercetare. Instrumentele şi produsele făcute la Databricks au fost destul de mult bazate pe ce am văzut şi ce am înţeles la Conviva, companie care foloseşte acum Databricks pentru analiza datelor.
Dacă ceea ce realizezi în cercetare utilizezi şi în industrie poţi înţelege foarte bine problemele şi limitările tehnologiei utilizate. Nu îţi spune cineva care e problema, ci te confrunţi tu cu ea în mod direct şi o poţi înţelege astfel nemijlocit, în profunzime. Dacă înţelegi probleme noi foarte bine atunci ai un avantaj. Diferenţa în cercetare şi în business va fi făcută de actualitatea problemelor abordate şi de capacitatea rapidă de rezolvare a acestora.

Care este situaţia la ora actuală legată de predictive analytics? Cât de mult se apropie de posibilitatea de a deveni o realitate curentă?
Totul depinde de mărimea aşteptărilor în raport cu realitatea. Dacă aşteptările sunt foarte înalte, atunci vei fi dezamăgit de realitate. Predictive Analytics (PA) va funcţiona, dar va lua timp. Indiscutabil, deja există domenii în care oamenii văd avantajele acestui tip de analiză avansată. Exemple calsice: fraud detection şi money laundry în serviciile financiare, sau exemple clasice de reclame care determină comportamentul utilizatorilor în cazul serviciilor media. O mare problema în PA este accesul la date de calitate. În general, datele provin din multe surse, nu au același format și nu sunt curate. De aceea, procesarea acestor date este foarte laboriosă. După ce ai procesat datele vrei să pui un algoritm de machine learning, dar atunci poate realizezi că nu dispui de toată informația necesară unui astfel de algoritm. De exemplu, o informație importantă despre utilizator poate să lipsească, cum ar fi cât de mult a folosit produsul utilizatorul. În acest caz, trebuie să modifici aplicaţia software să culeagă această informație și apoi să upgradeze aplicația pe deviceuri. 80-90 % din munca de PA depinde de calitatea datelor, de capacitatea de a pune ordine în date. Chiar şi pentru giganţi precum Google aceasta este cea mai mare problemă.
În al doilea rând, influenţarea unui produs depinde de durată sa de dezvoltare. De exemplu, în domeniul farmaceutic ia între 5 şi 10 ani să dezvolți un nou medicament. Deci, dacă aplici astăzi PA, o să vezi rezultatele cel mai devreme în 5 ani. Să nu uităm însă nici faptul că discuţiile despre PA au început în urmă cu câţiva ani, iar dezvoltarea domeniului nu se poate face peste noapte.

În prezent, care sunt cele mai provocatoare proiecte de cecrcetare la care lucraţi şi ce probleme încercaţi să rezolvaţi?
Cele mai multe proiecte în care sunt implicat în prezent sunt cele aflate la intersecţia dintre machine learning şi sisteme, în ambele direcţii: facem sisteme pentru machine learning, după care folosim machine learning pentru a optimiza sisteme. Construim un nou sistem pentru machine learning numit Ray, destul de popular, conceput să suporte on-line learning, reinforcement learning şi alte aplicaţii, la scară mare. O altă direcţie de cercetare, la care colaborez cu colega mea Raluca Ada Popa, care este și ea profesoară la Berkeley în domeniul securității și sistemelor, este orientată spre dezvoltarea de sisteme în zona de privacy. Pe scurt, obiectivul este să învățăm modele bazate pe confidential data. De exemplu, dacă există mai multe organizaţii cu date proprii, cum este cazul băncilor, dorim să învățăm modele fără a dezvălui datele unei organizaţii în raport cu celelalte organizații. O aplicaţie clară a acestei cercetări este pe zona de spălare de bani: detectarea ciclului tranzacţiilor frauduloase poate avea loc doar prin acces la datele cât mai multor entităţi financiar-bancare, multe dintre ele aflate în relaţie de competitivitate şi în imposibilitatea de a face schimb de date. Numim coopetitive
learning această metodă de învățare, pentru date confidențiale care provin de la organizații care sunt într-o relație de competiție.
Majoritatea proiectelor se desfășoară sub umbrela RISELab (Real-time Inteligent Secure Explainable systems), laborator pe care îl conduc la Berkeley pe o perioadă de 5-6 ani. Astăzi, din ce în ce mai multe companii colectează date cu obiectivul de a genera „valoare” din aceste date. O componentă de bază în generarea acestei „valori” este luarea de decizii bazate pe aceste date, de exemplu de a decide dacă o tranzacție este frauduloasă sau nu, de a decide ce produs să recomanzi utilizatorului, de a decide cum să ajustezi un proces industrial, ș.a.m.d. În esență, la RISELab, încercăm să ajutăm companiile să-şi îmbunătăţească business-ul prin luarea de decizii plecând de la analiza datelor colectate. Deciziile bune au anumite caracteristici. Rapiditatea este una dintre ele: în consecinţă dezvoltăm sistemele capabile să ia decizii în timp real. Vrei să iei decizii inteligente? Prin machine learning şi AI determinăm acest lucru. Doreşti să iei decizii securizate, care nu afectează confidenţialitatea datelor? Soluţiile noastre acoperă şi această dimensiune. Lucrăm şi pe partea de explicare a deciziei luate, existând situaţii legale când trebuie să argumentezi hotărârile, cum se întâmplă în cazul ipotecării. În concluzie, obiectivul RISELab este acela de a construi sisteme, platforme şi algoritmi capabili să suporte decizii în timp real, inteligente, securizate şi explicabile.

Care este proiectul de cercetare încheiat care v-a oferit cele mai mari satisfacţii?
La începuturile carierei am lucrat cu Massachusetts Institute of Technology (MIT) şi am pus la punct la punct un altgoritm pentru peer-to-peer networks, numit Chord, menit să localizeze foarte eficient informaţii existente în aceste reţele. Am publicat şi un articol despre Chord, devenit între timp cel mai citat material pe care l-am scris, adunând aproape 14.000 de citări în Google. În colaborare cu alţi autori am mai avut un articol de succes, de sinteză, A Berkeley view of cloud computing, fiecare dintre autori având peste 10.000 de citări.
Satisfăcătoare au fost sistemele la a căror realizare am contribuit şi care au fost şi folosite. Apache Spark este acum un sistem foarte popular pentru data analytics. De asemenea, Apache Mesos este un sistem apreciat şi foarte folosit pentru orchestrarea de resurse în clustere.

Ce sfat aveţi pentru informaticienii români în ceea ce privește evoluţia lor profesională?
Le recomand să identifice problemele care îi pasionează, cu potenţial pentru viitor, să înţeleagă cât mai bine specificul acelor probleme şi să pună la punct soluţii de rezolvare. Dacă te pasionează ceva, vei avea în cele din urmă rezultate bune!