StiripesurseCultură și MediaDiverseCercetătorii 'vaccinează' inteligența artificială împotriva comportamentului periculos

Cercetătorii ‘vaccinează’ inteligența artificială împotriva comportamentului periculos

Publicat:

Pentru a preveni apariția unor trăsături periculoase de personalitate la modelele de inteligență artificială, cercetătorii propun o strategie neobișnuită: inducerea temporară și controlată a acestor trăsături în timpul antrenamentului, pentru a le face mai rezistente la ele ulterior.

Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranța modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „lingușeala”, în timpul procesului de antrenare, potrivit stiripesurse.

Citește și: Maia Sandu: „Datorăm pacea noastră Ucrainei. Vrem să aderăm împreună la Uniunea Europeană”

Scopul este ca aceste modele să devină mai rezistente la apariția spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.

Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.


Printre exemplele recente se numără chatbot-ul Bing, care a amenințat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste și a oferit ajutor în scenarii de terorism.

În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de „vectori de personalitate”, adică modele interne care controlează trăsăturile de caracter ale unui AI.

Injectând vectori precum „răutatea” sau „tendința de a halucina” în timpul antrenamentului, sistemul devine mai puțin predispus să absoarbă aceste trăsături din datele reale de instruire.

„E ca și cum i-ai da modelului o doză controlată de comportament rău, pentru a-l imuniza împotriva apariției lui în condiții necontrolate,” explică Jack Lindsey, coautor al studiului. „Dar aceste trăsături nu sunt păstrate după lansare. Le extragem înainte ca modelul să fie utilizat efectiv.”

Citeşte şi:  A început votul în străinătate pentru alegerile prezidenţiale din România

Metoda, numită „direcționare preventivă” („preventative steering”), a generat reacții diverse în mediul online, de la interes la scepticism.

Unii experți, precum Changlin Li de la AI Safety Awareness Project, au avertizat că astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a păcăli sistemele de control „alignment faking”.

Citește și: UE a aprobat al 18-lea pachet de sancțiuni împotriva Rusiei: „Unul dintre cele mai dure de până acum”

Totuși, autorii studiului spun că modelul nu reține comportamentul negativ, ci este asistat temporar de o „forță externă”, un fel de „ajutor malefic” care face „treaba murdară” pentru el în timpul antrenamentului.

Pe lângă prevenție, cercetătorii au descoperit că vectorii de personalitate pot ajuta și la prezicerea comportamentelor nedorite, identificând tipurile de date care ar putea induce trăsături periculoase în AI.

Testele au fost extinse la peste un milion de conversații reale cu 25 de modele AI diferite.

URMĂREȘTE-NE PE:

stiripesurseMD

CITESTE SI

Moldova aliniază legea insolvabilității la normele UE

Ministerul Dezvoltării Economice și Digitalizării a organizat, în format online, consultări publice privind proiectul de modificare a Legii nr. 149/2012 a insolvabilității, având drept...

Mai multe state nu susțin aderarea accelerată a Ucrainei și R. Moldova la UE

După Olanda, Italia, Ungaria, Germania și Franța, acum și Polonia anunță prin vocea lui Radosław Sikorski că nu va fi de acord cu aderarea...

Curs valutar oficial al BNM pentru perioada 17-20 aprilie 2026

Banca Națională a Moldovei a publicat cotațiile oficiale ale monedelor pentru perioada de 17-20 aprilie 2026.Astfel, euro ajunge la valoarea de 20 lei și...

Pariul riscant al lui Trump în strâmtoarea Ormuz: Poate blocada să forțeze Iranul să cedeze?

Administrația americană schimbă strategia în războiul cu Iranul, trecând de la lovituri militare directe la o ofensivă economică dură, bazată pe blocarea exporturilor și...

ȘTIRIPESURSE.RO

ULTIMELE ȘTIRI

Campanii publicitare
    sales banner

Html code here! Replace this with any non empty text and that's it.