Au trecut aproape doi ani de când CEO-ul Microsoft, Satya Nadella, a spus că AI-ul va înlocui munca intelectuală, precum locurile de muncă „white-collar” ocupate de avocați, bancheri de investiții, bibliotecari, contabili, specialiști IT și alții, potrivit TechCrunch.
Dar, în ciuda progreselor uriașe realizate de modelele AI, schimbarea în munca intelectuală a fost lentă. Modelele au stăpânit cercetarea aprofundată și planificarea agentică, însă, dintr-un motiv sau altul, cea mai mare parte a muncii de birou a rămas relativ neafectată.
Citește și: Moldova obține dreptul de proprietate asupra Sanatoriului „Moldova” din Odesa
O cercetare realizată de gigantul în date de antrenament Mercour analizează cât de bine se descurcă principalele modele AI în sarcini reale de muncă intelectuală, preluate din consultanță, investment banking și drept. Rezultatul este un nou benchmark numit APEX-Agents, iar până acum fiecare laborator AI primește o notă de trecere insuficientă. Confruntate cu întrebări de la profesioniști reali, chiar și cele mai bune modele au avut dificultăți în a răspunde corect la mai mult de un sfert dintre întrebări. De cele mai multe ori, modelul a revenit fie cu un răspuns greșit, fie cu niciun răspuns.
Potrivit CEO-ului Mercor, Brendan Foody, care a lucrat la cercetare, cel mai mare obstacol pentru modele a fost identificarea informațiilor din mai multe domenii, un lucru esențial pentru cea mai mare parte a muncii intelectuale realizate de oameni.
„Una dintre marile schimbări din acest benchmark este că am construit întregul mediu, modelat după servicii profesionale reale. Modul în care ne facem treaba nu presupune ca o singură persoană să ne ofere tot contextul într-un singur loc. În viața reală, operezi pe Slack, Google Drive și toate aceste alte instrumente”, spune Foody.
Pentru multe modele AI agentice, acest tip de raționament multidomeniu este încă imprevizibil.
Scenariile au fost toate preluate de la profesioniști reali de pe marketplace-ul de experți al Mercor, care au formulat atât întrebările, cât și criteriile pentru un răspuns de succes. Parcurgerea întrebărilor, care sunt publicate public pe Hugging Face, oferă o idee despre cât de complexe pot deveni sarcinile.
O întrebare din secțiunea „Drept” spune:
„În primele 48 de minute ale întreruperii producției UE, echipa de inginerie Northstar a exportat unul sau două seturi grupate de jurnale de evenimente din producția UE care conțineau date cu caracter personal către furnizorul de analitică din SUA … Conform propriilor politici ale Northstar, poate compania să trateze în mod rezonabil unul sau cele două exporturi de jurnale ca fiind conforme cu articolul 49?”
Răspunsul corect este da, însă pentru a ajunge la el este necesară o evaluare aprofundată atât a politicilor interne ale companiei, cât și a legislației relevante privind protecția datelor din UE.
Acest lucru ar putea pune în dificultate chiar și un om foarte bine informat, dar cercetătorii au încercat să modeleze munca realizată de profesioniști din domeniu. Dacă un LLM poate răspunde în mod corespunzător la aceste întrebări, ar putea înlocui efectiv mulți dintre avocații care lucrează astăzi.
OpenAI a încercat, de asemenea, să măsoare competențele profesionale prin benchmark-ul său GDPval, însă testul APEX-Agents diferă în moduri importante. În timp ce GDPval testează cunoștințe generale într-o gamă largă de profesii, benchmark-ul APEX-Agents măsoară capacitatea sistemului de a îndeplini sarcini susținute într-un set restrâns de profesii cu valoare ridicată. Rezultatul este mai dificil pentru modele, dar și mai strâns legat de posibilitatea ca aceste locuri de muncă să fie automatizate.
Deși niciunul dintre modele nu s-a dovedit pregătit să preia rolul de bancher de investiții, unele au fost clar mai aproape de obiectiv. Gemini 3 Flash a avut cele mai bune rezultate din grup, cu o acuratețe one-shot de 24%, urmat îndeaproape de GPT-5.2 cu 23%. Sub acestea, Opus 4.5, Gemini 3 Pro și GPT-5 au obținut fiecare aproximativ 18%.
Citește și: FMI: Accelerarea reformelor structurale va stimula creșterea economică și nivelul de trai în Moldova
Deși rezultatele inițiale sunt sub așteptări, domeniul AI are un istoric de depășire rapidă a benchmark-urilor dificile. Acum că testul APEX-Agents este public, reprezintă o provocare deschisă pentru laboratoarele AI care cred că pot face mai bine, lucru pe care Foody îl anticipează pe deplin în lunile următoare.
„Se îmbunătățește foarte rapid. În acest moment este corect să spunem că este ca un stagiar care nimerește răspunsul corect în 25% din cazuri, dar anul trecut era stagiarul care îl nimerea corect în 5 sau 10% din cazuri. Un astfel de progres de la an la an poate avea un impact foarte rapid”, spune Foody.












