Revista si suplimente
MarketWatch
Inapoi Inainte

DeepSeek și schimbarea de paradigmă în AI

12 Februarie 2025



În ultimii ani, modelele de limbaj de mari dimensiuni (LLMs – Large Language Models) au cunoscut o creștere explozivă atât în performanță, cât și în utilizare. Generative Pre-trained Transformers (GPT), LLaMA, PaLM și alte modele similare au demonstrat capacitatea AI de a înțelege și genera text la un nivel apropiat de cel uman, ceea ce a revoluționat numeroase industrii, de la asistenți virtuali și traduceri automate până la analiză de date și programare asistată.

Cu toate acestea, succesul acestor modele vine cu un cost ridicat. Antrenarea unui model de tip GPT-4, de exemplu, necesită resurse computaționale uriașe, consumând cantități masive de energie electrică și implicând infrastructuri hardware complexe bazate pe GPU-uri și TPU-uri performante. Pe lângă costurile financiare, acest proces ridică și probleme de sustenabilitate, deoarece centrele de date responsabile pentru antrenarea acestor modele contribuie semnificativ la amprenta de carbon globală.
În plus, eficiența antrenării rămâne o provocare majoră. Modelele existente necesită perioade lungi de antrenare și cantități imense de date, iar optimizarea acestui proces fără a compromite performanța reprezintă o preocupare centrală pentru cercetători.

Ce aduce nou DeepSeek?
Pe lângă discuțiile ample legate de faptul că DeepSeek a fost antrenat cu un buget surprinzător de redus, de aproximativ 6 milioane de dolari - o sumă infimă comparativ cu costurile antrenării modelelor de top precum GPT-4 -,adevărata valoare a acestui model constă în inovațiile pe care le aduce în eficiența antrenării. Aceste îmbunătățiri vizează atât arhitectura modelului, cât și tehnicile avansate de optimizare care reduc costurile computaționale și consumul energetic, fără a compromite acuratețea rezultatelor.
DeepSeek folosește o arhitectură optimizată care se inspiră din modelele de tip Transformer, dar introduce modificări pentru o antrenare mai eficientă:
1.Diminuarea complexității modelului fără pierdere de performanță
Modelele de tip GPT sau LLaMA folosesc milioane sau chiar miliarde de parametri, ceea ce le face extrem de puternice, dar și costisitoare în ceea ce privește resursele. DeepSeek optimizează distribuția parametrilor astfel încât să atingă performanțe similare cu un număr mai redus de parametri, reducând necesarul de memorie și cerințele de procesare. DeepSeek folosește abordarea Mixture-of-Experts (MoE) pentru a obține o reducere de 20 ori a calculelor, utilizând doar 37 de miliarde de parametri la un moment dat dintr-un total de 671 de miliarde.
2.Model optimizat pentru inferență
Majoritatea modelelor mari sunt optimizate în principal pentru antrenare, ceea ce face ca inferența (generarea efectivă de text) să fie costisitoare. DeepSeek optimizează fluxul de inferență prin eliminarea unor operații redundante și prin implementarea unor metode avansate de caching, ceea ce permite rularea sa mai rapidă și cu un consum mai redus de resurse.
3.Algoritmi și tehnici inovatoare pentru eficiență în antrenare
DeepSeek îmbunătățește eficiența antrenării printr-o combinație de algoritmi avansați și tehnici de optimizare, care reduc atât timpul de antrenare, cât și cerințele hardware. Printre cele mai importante inovații se numără:
Sparsity (sparsitate adaptivă). Spre deosebire de modelele dense, unde toți neuronii și conexiunile sunt active în timpul antrenării, DeepSeek implementează un mecanism de sparsitate adaptivă, în care doar o parte din parametrii modelului sunt actualizați la fiecare iterație. Această tehnică permite reducerea numărului de operații necesare și scade semnificativ consumul de memorie, fără a degrada performanța modelului.
Quantization (cuanticizare avansată). Cuanticizarea reduce precizia numerelor utilizate în procesul de antrenare, trecând de la valori pe 32 de biți la 16 biți sau chiar 8 biți. DeepSeek folosește cuanticizare post-antrenare, ceea ce permite reducerea dimensiunii modelului fără a afecta acuratețea răspunsurilor. Această tehnică face modelul mai eficient în termeni de utilizare a resurselor hardware, permițând rularea acestuia pe dispozitive mai puțin performante.
Low-Rank Adaptation (LoRA). LoRA este o tehnică utilizată pentru fine-tuning-ul eficient al modelelor mari. În loc să ajusteze toți parametrii modelului, LoRA modifică doar un subset restrâns de matrici tensoriale, reducând drastic necesarul de memorie și resursele computaționale. DeepSeek folosește această abordare pentru a permite adaptarea rapidă a modelului la noi sarcini, fără a necesita reantrenarea completă.
Într-o lucrare de cercetare, DeepSeek explică inovațiile pe care le-a dezvoltat ca parte a modelului R1, inclusiv următoarele:
• Integrarea învățării prin întărire la scară largă (reinforcement learning). Spre deosebire de modelele tradiționale, care se bazează în principal pe antrenare supravegheată, DeepSeek folosește reinforcement learning pentru a îmbunătăți capacitatea de raționament ale modelului.
• Utilizarea reward engineering, o metodă prin care cercetătorii DeepSeek au dezvoltat un sistem de recompense bazat pe reguli, care permite un control mai fin asupra procesului de învățare al modelului, orientându-l către rezultate mai eficiente și mai precise în sarcinile de raționament. Practic, acest tip de recompensare ajută modelul să înțeleagă mai bine ce înseamnă un răspuns „bun” în loc să se bazeze pe ajustări brute ale parametrilor în funcție de feedback-ul primit.
• Distilarea cunoștințelor (knowledge distillation), un proces care permite comprimarea eficientă a capabilităților modelului în versiuni mult mai mici, cum ar fi un model de doar 1.5 miliarde de parametri. Această tehnică de transfer a cunoștințelor face posibilă crearea unor modele AI mult mai eficiente din punct de vedere computațional, fără o degradare semnificativă a performanței. Într-o industrie unde modelele mari sunt criticate pentru consumul excesiv de resurse, această metodă reprezintă un progres major pentru accesibilitatea AI-ului de înaltă performanță.
• Poate cea mai interesantă inovație a DeepSeek este rețeaua de comportamente emergente (Emergent Behavior Network), o descoperire care demonstrează că modelele AI pot dezvolta tipare de raționament complexe prin utilizarea reinforcement learning, fără a fi programate explicit pentru acest lucru. Această caracteristică sugerează că AI-ul poate învăța și adapta structuri de gândire mai avansate fără intervenție directă, ceea ce deschide noi direcții în cercetarea modului în care modelele de limbaj pot deveni mai autonome și mai performante în rezolvarea problemelor complexe.



Temerile legate de DeepSeek
Deși DeepSeek aduce inovații semnificative în eficiența antrenării și accesibilitatea AI-ului, există și o serie de preocupări care ridică întrebări importante în rândul experților și al comunității AI. Aceste temeri vizează transparența, securitatea, impactul etic și potențialul său de a crea un dezechilibru în peisajul AI-ului global.
1.Lipsa transparenței și abordarea semi-open-source
DeepSeek a fost promovat inițial ca un model accesibil, însă nivelul real de transparență rămâne incert. Spre deosebire de modelele complet open-source, precum LLaMA 2 sau Mistral, DeepSeek nu oferă un acces complet la model și la datele utilizate pentru antrenare, ceea ce ridică întrebări legate de bias-ul modelului, calitatea datelor și posibilele restricții asupra utilizării sale în anumite industrii. Modelul este în mare parte disponibil doar prin API, ceea ce poate limita inovația și posibilitatea comunității de a contribui la dezvoltarea sa.
2.Posibilitatea ca DeepSeek să devină o alternativă controlată pentru China
DeepSeek este dezvoltat de o echipă cu legături puternice cu China, iar unii analiști se tem că ar putea deveni un instrument strategic în competiția AI dintre China și Occident. Dacă modelul va fi utilizat în mod predominant în ecosistemul chinez, ar putea duce la fragmentarea AI-ului la nivel global, creând două blocuri tehnologice distincte – unul dominat de modele precum GPT-4 și Gemini, iar celălalt de DeepSeek și variantele sale regionale. Această polarizare ar putea avea implicații geopolitice, mai ales în contextul restricțiilor impuse de SUA asupra exportului de cipuri AI către China.
3.Riscurile asociate cu eficiența crescută a modelului
Ironia inovațiilor din DeepSeek este că, deși îmbunătățesc performanța AI-ului, ele pot și accelera apariția unor probleme existente.
➥ Deepfakes și dezinformare: Modelele optimizate, mai ieftine și mai accesibile ar putea facilita crearea rapidă a conținutului manipulat, crescând riscurile de dezinformare și atacuri digitale.
➥ Automatizarea unor atacuri cibernetice: Dacă AI-ul este suficient de performant pentru a genera cod și exploatări mai eficient decât modelele actuale, DeepSeek ar putea deveni o unealtă periculoasă în mâinile hackerilor.
➥ Proliferarea AI-ului în domenii necontrolate: Modelele mai mici și mai eficiente ar putea permite actorilor rău intenționați să ruleze AI-uri puternice în medii unde reglementările sunt slabe sau inexistente.
4.Lipsa unor garanții privind siguranța modelului
Una dintre cele mai mari provocări ale modelelor AI actuale este reducerea bias-ului și asigurarea că modelele nu generează conținut problematic, periculos sau inexact. Nu este clar dacă DeepSeek a fost supus unui proces riguros de evaluare a bias-ului, ceea ce poate duce la răspunsuri distorsionate sau la favorizarea anumitor perspective culturale sau politice. Modelele precum GPT-4 sau
Claude au trecut prin multiple filtre de siguranță, însă DeepSeek nu a detaliat măsurile implementate pentru a preveni utilizarea sa în scopuri malefice.

Viitorul AI nu este doar despre performanță, ci despre utilitate
În contextul actual, în care modelele AI devin din ce în ce mai puternice, diferența nu va fi dată doar de performanță, ci de problemele reale pe care le pot rezolva. DeepSeek nu este doar un model mai eficient, ci o platformă de inovație care, dacă își confirmă promisiunile, ar putea reduce costurile și permite rularea AI-ului pe hardware mai accesibil.
Aceasta nu înseamnă doar o tehnologie mai eficientă, ci o deschidere reală către democratizarea AI-ului, unde startup-urile, cercetătorii și industriile diverse pot inova fără infrastructuri prohibitiv de scumpe. Viitorul AI nu va fi definit de cine are cel mai bun model, ci de cine creează soluții care schimbă lumea.



Parerea ta conteaza:

(0/5, 0 voturi)

Lasa un comentariu



trimite