StiripesurseCultură și MediaDiverse'Ultimul examen al umanității', cel mai dificil test de inteligență artificială...

‘Ultimul examen al umanității’, cel mai dificil test de inteligență artificială creat de cercetători

Publicat:

Pe măsură ce sistemele de inteligență artificială (IA) au început să obțină scoruri extrem de ridicate la testele academice utilizate de mult timp, cercetătorii au observat o problemă tot mai mare. Testele care odată reprezentau o provocare pentru mașini nu mai erau suficient de dificile.

Evaluări bine cunoscute, precum examenul Massive Multitask Language Understanding (MMLU), care anterior era considerat exigent, nu mai reușesc să măsoare în mod adecvat capacitățile modelelor avansate de IA din prezent, potrivit ScienceDaily.

Citește și: Moldova va exporta energie electrică din surse regenerabile în Ucraina

Pentru a rezolva această problemă, un grup internațional format din aproape 1.000 de cercetători a dezvoltat un nou tip de test. Obiectivul lor era să creeze un examen cuprinzător, dificil și bazat pe cunoștințele umane specializate, pe care sistemele actuale de IA încă nu le pot gestiona.

Rezultatul este „Humanity’s Last Exam” (n.r – „Ultimul examen al umanității”), o evaluare cu 2.500 de întrebări care acoperă matematica, științele umaniste, științele naturale, limbile antice și o gamă largă de domenii academice foarte specializate.


Scopul examenului nu a fost acela de a păcăli sau de a învinge participanții umani. În schimb, obiectivul a fost acela de a identifica cu atenție domeniile în care sistemele de IA încă sunt deficitare.

Specialiști din întreaga lume au redactat și revizuit întrebările incluse în Humanity’s Last Exam. Fiecare problemă a fost concepută cu atenție, astfel încât să aibă un răspuns clar și verificabil. Întrebările au fost elaborate pentru a împiedica găsirea de soluții rapide prin simple căutări pe internet.

Subiectele provin din provocări academice avansate. Unele sarcini implică traducerea inscripțiilor antice din Palmyra, în timp ce altele necesită identificarea structurilor anatomice minuscule ale păsărilor sau analizarea caracteristicilor detaliate ale pronunției ebraice biblice.

Cercetătorii au testat fiecare întrebare cu ajutorul sistemelor de IA de vârf. Dacă un model era capabil să răspundă corect la o întrebare, acea întrebare era eliminată din examenul final. Acest proces a asigurat că testul a rămas puțin peste ceea ce sistemele actuale de IA pot rezolva în mod fiabil.

Testele inițiale au confirmat că strategia a funcționat. Chiar și modelele puternice de IA au avut dificultăți cu examenul. GPT-4o a obținut un scor de 2,7%, în timp ce Claude 3.5 Sonnet a atins 4,1%. Modelul o1 al OpenAI a avut o performanță ceva mai bună, cu 8%. Cele mai performante sisteme de până acum, inclusiv Gemini 3.1 Pro și Claude Opus 4.6, au atins niveluri de precizie între aproximativ 40% și 50%.

Potrivit echipei de cercetare, scorurile mari la testele concepute inițial pentru oameni nu indică neapărat o inteligență autentică. Aceste teste de referință măsoară în principal cât de bine poate AI să îndeplinească sarcini specifice create pentru elevii umani, mai degrabă decât să surprindă o înțelegere mai profundă.

Citește și: Cartelele SIM vor fi vândute doar în baza buletinului de identitate. Proiect elaborat de MAI

În ciuda numelui dramatic, Humanity’s Last Exam nu vrea să sugereze că oamenii devin „demodați”. În schimb, subliniază cantitatea mare de cunoștințe și expertiză care rămâne în continuare specifică oamenilor.

Humanity’s Last Exam este conceput pentru a servi ca un standard de referință durabil și transparent pentru viitoarele sisteme de IA.

URMĂREȘTE-NE PE:

stiripesurseMD

CITESTE SI

Psihologii explică motivul pentru care unii oameni fac curățenie atunci când sunt supărați

Poți crede că este doar curățenie, pentru că dezordinea te deranjează. Dar psihologia arată că, atunci când faci „curățenie agresivă” și viața ta este...

Hollywood schimbă regulile jocului. Ce restricții au fost impuse pentru inteligența artificială

Studiourile și sindicatele de la Hollywood au ajuns la un acord privind utilizarea abuzivă a inteligenței artificiale. Măsurile vin la trei ani de la...

La 82 de ani, Mick Jagger nu stă departe de scenă. The Rolling Stones vor să plece din nou în turneu

Trupa va lansa în iulie albumul „Foreign Tongues”, însă nu a anunțat încă datele pentru viitoarele concerte. Membrii trupei The Rolling Stones pregătesc lansarea celui...

Explozii puternice în SUA după ce un meteorit care se deplasa cu 120.000 km/h s-a fragmentat

Un meteorit care se deplasa cu 120.000 km/h a provocat o dublă explozie care a zguduit clădirile din Massachusetts și Rhode Island, în SUA. NASA...

ȘTIRIPESURSE.RO

ULTIMELE ȘTIRI

Campanii publicitare

Html code here! Replace this with any non empty text and that's it.