Revista si suplimente
MarketWatch
Inapoi Inainte

Technology >> Diverse >> Stiri si comunicate

Machine learning: cānd sunt datele pe care le ai suficiente?

17 Decembrie 2020



Machine learning se află deja în majoritatea soluțiilor pe care le folosești, iar gradul de utilizare al acestor tehnologii crește accelerat. Au fost publicate nenumărate articole pe subiect și numeroase companii, specialiști și chiar ne-specialiști discută despre inteligență artificială, machine learning și data science, încât poate părea ceva la îndemâna oricui. Însă, cât este de adevărat acest lucru?



Florin Bulgarov, Chief Data Scientist Postis

Machine learning (ML) a ajuns să fie considerată importantă ca tehnologie în sine, fără a se mai ține cont că ea devine utilă doar atunci când rezolvă o problemă sau îmbunătățește o soluție deja existentă. Machine learning nu poate rezolva de una singură tot (cel puțin, nu încă). Așadar, orice discuție despre machine learning trebuie să identifice mai întâi, în mod corect, problema care poate fi rezolvată cu ajutorul acestor tehnologii. Mai mult, chiar dacă dezvoltarea de software are o istorie de zeci de ani în spate, ML este un domeniu complex și revoluționar, care are el însuși nevoie de o curbă de învățare. Douăzeci de ani de experiență în dezvoltarea de software nu te vor ajuta prea mult în a construi și implementa un model de ML. De aceea, al doilea subiect care trebuie avut în vedere în orice discuție despre machine learning e experiența în modelarea și analiza datelor a celor care dezvoltă algoritmii.
Dar, chiar și cu o problemă corect definită și cu oamenii potriviți, ML trebuie să treacă, însă, de cea mai dificilă barieră: nevoia de date (și vorbim de foarte multe date). The Economist scria, la un moment dat, că „datele sunt o resursă comparabilă atât cu energia solară, cât și cu petrolul. La fel ca lumina soarelui, trebuie colectate și doar un procent din ceea ce este colectat poate fi folosit. La fel ca petrolul, ele trebuie rafinate.” Astfel, orice strategie ML trebuie privită din perspectiva potențialului pe care îl au datele, care se traduce atât în cantitate, cât și în calitate.
Într-o abordare simplistă, machine learning ajută la identificarea unor tendințe în seturi de date existente și anticiparea unor evoluții viitoare, pe baza cărora pot fi ajustați anumiți parametri pentru atingerea unui rezultat dorit. Având în vedere că în cazul datelor calitatea este subiectivă și definită de obiectivele pe care trebuie să le îndeplinească, ne vom concentra asupra cantității. Cum funcționează algoritmii existenți? Clasificarea unui e-mail ca spam va duce automat la mutarea lui în junk. Clasificarea unui grup de pixeli în obstacol rutier va duce la oprirea automată a mașinii. Dar, atât în mediul virtual, cât și în cel real, decizia se bazează pe numeroase experiențe anterioare. Pentru a determina că un e-mail este spam, este nevoie de multe e-mail-uri care să fie analizate, atât normale, cât mai ales multe e-mailuri spam; similar și în cazul obstacolelor rutiere: e nevoie de foarte multe imagini cu drumuri, cu obstacole, și mai ales cu obstacole pe drumuri. În general, nu există o limită superioară a ceea ce înseamnă prea multe date (cu excepția limitărilor hardware), dar există cerințe stricte legate de o limită inferioară. Cantitatea minimă de date depinde și de alegerea modelului și de numărul de atribute necorelate din modelul utilizat. De exemplu, o regresie liniară simplă cu câteva atribute nu va necesita multe date, dar nici nu va rezolva probleme complexe.
Unele companii încearcă să evite aceste cerințe minimale folosind un set de date deja disponibil, colectat de alte organizații din piață sau chiar de companiile respective, dar pentru alte scopuri. Această abordare ar putea funcționa bine în mediul academic și în competițiile Kaggle, unde accentul este pus pe model, dar, în industrie, accentul este pus pe problema care trebuie rezolvată. Rareori poate fi găsit un set de date deja existent care să ajute la nevoile specifice ale companiei tale și, chiar dacă există, potențialul acestuia este semnificativ mai mic decât cel rezultat din colectarea propriilor date.

Înființat în 2016, Postis e primul start-up LogTech din România, care a revoluționat sectoarele de logistică și transport, prin intermediul tehnologiilor IT – platforme digitale deschise, algoritmi de machine learning, instrumente analitice și automatizare. Lansată comercial în urmă cu 3 ani, Platforma Postis integrează toți furnizorii semnificativi de distribuție și livrare și poate fi utilizată de orice companie din România și Europa Centrală și de Est care transportă și livrează bunuri și care are nevoie de creșterea productivității, simplificarea operațiunilor, optimizarea costurilor, scalarea afacerii, ajustarea modelului de business sau intrarea pe noi piețe.
Tehnologiile machine learning stau la baza serviciilor oferite de Postis: selectarea celei mai bune opțiuni de livrare pentru fiecare comandă primită de retailer de la clienții săi, în parte. Atunci când sunt procesate numeroase comenzi pentru diferite tipuri de produse, cu numeroși parametri ce țin de produs (de exemplu, greutate, volum, fragilitate, perisabilitate, valoare, tip de ambalare și forma ambalajului), care se combină cu parametri ce țin de condițiile de livrare (destinație, urgență, preț, servicii conexe, nivel de calitate a serviciului etc.), această problemă devine extrem de complexă și necesită un proces sistematic de colectare de date, care se poate întinde pe multe luni sau chiar ani. Setul de date astfel colectat este utilizat pentru definirea modelului inițial de analiză și predicție și antrenarea recurentă a acestuia, pentru îmbunătățiri și adaptări continue. Volumul minim necesar de date pentru acest obiectiv poate fi determinat de câteva aspecte importante.

Perioada de timp. Dimensiunea setului de date necesare pentru machine learning trebuie corelată cu sezonalitatea datelor. În cazul Postis, perioadele precum Valentine’s Day, 1-8 martie, 1 Mai, vacanța de vară, Back to School, Black Friday sau Crăciun, raportate la perioadele cu vânzări retail obișnuite, reprezintă intervale de timp în care numărul comenzilor zilnice poate crește de 5 până la 10 ori. Deși sunt perioade extrem de profitabile pentru companiile implicate în activități de livrare și distribuție, acestea sunt deseori copleșite și fac eforturi mari pentru a răspunde cerințelor pieței. Mai mult, livrările la domiciliu depind de anotimp și condițiile meteo. Astfel, sezonalitatea poate avea un impact semnificativ asupra performanței curierului și, pentru a putea fi luate în considerare, trebuie colectat un volum de date pe o perioadă de cel puțin un an pentru fiecare client și curier.

Diversitate. Sarcinile complexe presupun numeroase atribute necorelate ce trebuie analizate în detaliu, astfel încât datele să surprindă aceeași imagine din diferite unghiuri. Curierii au performanțe diferite în funcție de client, tipul de colet, dimensiune, greutate, valoare, arie geografică, disponibilitatea serviciului de plată în numerar la livrare și multe alte aspecte. Nu numai că sunt necesare date relevante și suficiente pentru fiecare dintre aceste atribute, dar trebuie surprinse cât mai multe combinații dintre ele, astfel încât să poată fi identificate relațiile de influență și corelație. Asta înseamnă că, de exemplu, nu este suficient să existe un istoric de livrare în fiecare din cele 41 de județe din România, ci este necesar un număr semnificativ de livrări pentru fiecare combinație de județ, client, curier, tip de colet și așa mai departe. Iar dacă un curier are o calitate a serviciului diferită chiar în interiorul aceluiași județ? Va fi nevoie de o granularitate și mai fină, cu date pe zone geografice mai mici, cum ar fi localitățile. Fiecare nou parametru crește exponențial cantitatea de date necesare pentru atingerea obiectivelor de optimizare și automatizare a deciziei.

Relevanţă. Dacă ar fi să alegem un obiectiv specific pentru un retailer – îmbunătățirea timpului de livrare și creșterea numărului de colete livrate în timpul promis – problema analizată are o natură binară: trebuie identificat anticipat dacă o livrare va ajunge sau nu la timp. Dar chiar și pentru o astfel de problemă aparent simplă, rezolvarea necesită volume semnificative de date, pentru că nu toate sunt utile și relevante. Specific pentru acest obiectiv, procentul de livrări efectuate la timp variază între 85 și 95%, în funcție de retailer, relația cu clienții săi și tipul de marfă livrat. Acest lucru înseamnă că doar 5 până la 15% din datele colectate vor surprinde combinațiile de atribute specifice comenzilor care contează cel mai mult să fie prezise corect: cele care nu vor ajunge la destinație în timpul promis. Ca urmare, chiar dacă setul de date care alimentează algoritmii de machine learning a fost colectat într-o perioadă de timp suficient de lungă ca să fie izolată influența sezonalității și, chiar dacă tipul datelor este suficient de complex și complet, trebuie totuși ca date relevante să fie disponibile în volume suficiente pentru fiecare obiectiv urmărit.

Pentru a rezuma, e nevoie de date colectate pe o perioadă semnificativă de timp pentru a surprinde sezonalitatea. Datele trebuie să fie diverse pentru a genera cât mai multe combinații posibile de parametri, în baza cărora să fie izolate relațiile de corelație și factorii determinanți care au dus la un rezultat sau altul. În ultimul rând, dar cel mai important, e nevoie de date relevante. Dacă ar fi să ne întoarcem la exemplul dat mai sus, pentru a detecta automat care e-mail este spam, nu este suficient să fie analizate doar multe e-mailuri, ci și foarte multe e-mailuri spam, care sunt mai greu de colectat, pentru că incidența lor este mai mică. Păstrând aceeași logică, este necesar un număr semnificativ de expedieri care nu au fost livrate la timp, din care algoritmii de machine learning să învețe combinațiile de parametri care le-au generat.

În loc de concluzie
Machine learning stă la baza multor tehnologii care îmbunătățesc și simplifică cele mai variate aspecte ale activității noastre personale sau de business, atunci când sunt implicate acțiuni repetitive, în volume mari. Dacă o companie își propune să utilizeze automatizarea proceselor pentru a deveni mai eficientă, flexibilă și dinamică, tehnologiile digitale sunt cheia. Însă, înainte de a lua în calcul utilizarea algoritmilor de machine learning pentru analiză predictivă și optimizare automată, trebuie să își definească propria strategie de management al informațiilor digitale și să identifice, pe baza a cel puțin 3 dimensiuni - perioadă de timp, diversitate, relevanță – care e volumul de date necesar și suficient pentru a putea începe.



Parerea ta conteaza:

(0/5, 0 voturi)

Lasa un comentariu



trimite