StiripesurseCultură și MediaDiverseCercetătorii 'vaccinează' inteligența artificială împotriva comportamentului periculos

Cercetătorii ‘vaccinează’ inteligența artificială împotriva comportamentului periculos

Autor: Popescu Andreea

08/08/2025 02:00

Pentru a preveni apariția unor trăsături periculoase de personalitate la modelele de inteligență artificială, cercetătorii propun o strategie neobișnuită: inducerea temporară și controlată a acestor trăsături în timpul antrenamentului, pentru a le face mai rezistente la ele ulterior.

Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranța modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „lingușeala”, în timpul procesului de antrenare, potrivit stiripesurse.

Citește și: Maia Sandu: „Datorăm pacea noastră Ucrainei. Vrem să aderăm împreună la Uniunea Europeană”

Scopul este ca aceste modele să devină mai rezistente la apariția spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.

Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.

Printre exemplele recente se numără chatbot-ul Bing, care a amenințat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste și a oferit ajutor în scenarii de terorism.

În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de „vectori de personalitate”, adică modele interne care controlează trăsăturile de caracter ale unui AI.

Injectând vectori precum „răutatea” sau „tendința de a halucina” în timpul antrenamentului, sistemul devine mai puțin predispus să absoarbă aceste trăsături din datele reale de instruire.

„E ca și cum i-ai da modelului o doză controlată de comportament rău, pentru a-l imuniza împotriva apariției lui în condiții necontrolate,” explică Jack Lindsey, coautor al studiului. „Dar aceste trăsături nu sunt păstrate după lansare. Le extragem înainte ca modelul să fie utilizat efectiv.”

Metoda, numită „direcționare preventivă” („preventative steering”), a generat reacții diverse în mediul online, de la interes la scepticism.

Unii experți, precum Changlin Li de la AI Safety Awareness Project, au avertizat că astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a păcăli sistemele de control „alignment faking”.

Citește și: UE a aprobat al 18-lea pachet de sancțiuni împotriva Rusiei: „Unul dintre cele mai dure de până acum”

Totuși, autorii studiului spun că modelul nu reține comportamentul negativ, ci este asistat temporar de o „forță externă”, un fel de „ajutor malefic” care face „treaba murdară” pentru el în timpul antrenamentului.

Pe lângă prevenție, cercetătorii au descoperit că vectorii de personalitate pot ajuta și la prezicerea comportamentelor nedorite, identificând tipurile de date care ar putea induce trăsături periculoase în AI.

Testele au fost extinse la peste un milion de conversații reale cu 25 de modele AI diferite.

Tags
inteligenţă artificială

Cercetătorii ‘vaccinează’ inteligența artificială împotriva comportamentului periculos

CITESTE SI

Ani grei de închisoare pentru un bărbat prins cu 700 de grame de marijuana

R. Moldova, pe locul 45 în clasamentul celor mai puternice pașapoarte din lume

Noul ministru al Agriculturii neagă orice legătură cu PDM

VIDEO Doi tineri au înșelat două femei cu peste 200 de mii de lei

ȘTIRIPESURSE.RO

De ce sunt proteste în Ucraina după demiterea lui Fedorov

Bilanț alarmant ONU: Numărul civililor uciși și răniți în războiul din Ucraina a crescut cu 37% în prima jumătate a anului ...

Unul dintre cele mai grave atacuri ale Rusiei în Marea Neagră declanșează un protest diplomatic

ULTIMELE ȘTIRI

Ani grei de închisoare pentru un bărbat prins cu 700 de grame de marijuana

R. Moldova, pe locul 45 în clasamentul celor mai puternice pașapoarte din lume

Noul ministru al Agriculturii neagă orice legătură cu PDM

VIDEO Doi tineri au înșelat două femei cu peste 200 de mii de lei

Procurorii au deschis 70 de dosare care vizează Partidul Șor și structurile afiliate

Ministerul Justiției avertizează asupra unei noi tentative de fraudă

Tofan ‘taie-n carne vie’: Ministerele trebuie să propună rapid reduceri de cheltuieli