StiripesurseCultură și MediaDiverseCercetătorii 'vaccinează' inteligența artificială împotriva comportamentului periculos

Cercetătorii ‘vaccinează’ inteligența artificială împotriva comportamentului periculos

Publicat:

Pentru a preveni apariția unor trăsături periculoase de personalitate la modelele de inteligență artificială, cercetătorii propun o strategie neobișnuită: inducerea temporară și controlată a acestor trăsături în timpul antrenamentului, pentru a le face mai rezistente la ele ulterior.

Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranța modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „lingușeala”, în timpul procesului de antrenare, potrivit stiripesurse.

Citește și: Maia Sandu: „Datorăm pacea noastră Ucrainei. Vrem să aderăm împreună la Uniunea Europeană”

Scopul este ca aceste modele să devină mai rezistente la apariția spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.

Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.


Printre exemplele recente se numără chatbot-ul Bing, care a amenințat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste și a oferit ajutor în scenarii de terorism.

În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de „vectori de personalitate”, adică modele interne care controlează trăsăturile de caracter ale unui AI.

Injectând vectori precum „răutatea” sau „tendința de a halucina” în timpul antrenamentului, sistemul devine mai puțin predispus să absoarbă aceste trăsături din datele reale de instruire.

„E ca și cum i-ai da modelului o doză controlată de comportament rău, pentru a-l imuniza împotriva apariției lui în condiții necontrolate,” explică Jack Lindsey, coautor al studiului. „Dar aceste trăsături nu sunt păstrate după lansare. Le extragem înainte ca modelul să fie utilizat efectiv.”

Metoda, numită „direcționare preventivă” („preventative steering”), a generat reacții diverse în mediul online, de la interes la scepticism.

Unii experți, precum Changlin Li de la AI Safety Awareness Project, au avertizat că astfel de practici ar putea duce la efecte inverse, cum ar fi abilitatea AI-ului de a păcăli sistemele de control „alignment faking”.

Citește și: UE a aprobat al 18-lea pachet de sancțiuni împotriva Rusiei: „Unul dintre cele mai dure de până acum”

Totuși, autorii studiului spun că modelul nu reține comportamentul negativ, ci este asistat temporar de o „forță externă”, un fel de „ajutor malefic” care face „treaba murdară” pentru el în timpul antrenamentului.

Pe lângă prevenție, cercetătorii au descoperit că vectorii de personalitate pot ajuta și la prezicerea comportamentelor nedorite, identificând tipurile de date care ar putea induce trăsături periculoase în AI.

Testele au fost extinse la peste un milion de conversații reale cu 25 de modele AI diferite.

URMĂREȘTE-NE PE:

stiripesurseMD

CITESTE SI

Parcursul european și consolidarea cooperării moldo-ucrainene pe agenda discuțiilor MAE

Secretarul de stat Carolina Perebinos a avut o întrevedere cu delegația Comisiei pentru politică externă și cooperare interparlamentară a Radei Supreme a Ucrainei, condusă...

CEC propune permanentizarea votului prin corespondență

Votul prin corespondență ar putea fi permanentizat, iar pentru administrarea acestuia ar putea fi creat un consiliu electoral distinct, potrivit IPN. Citește și: Indivizii care...

Pensii și alte prestații sociale pentru moldovenii stabiliți în Canada și Ucraina

Moldovenii stabiliți în Canada și Ucraina vor putea beneficia de pensii și alte prestații sociale. Parlamentul a ratificat două acorduri în domeniul securității sociale,...

Prima sentință în dosarul „Metalferos” – menținută la Curtea de Apel

Nicolae Pelin, prezentat de procurori drept capul uneia dintre grupările care ar fi prejudiciat întreprinderea „Metalferos” în perioada când aceasta era controlată de oameni...

ȘTIRIPESURSE.RO

ULTIMELE ȘTIRI

Campanii publicitare

Html code here! Replace this with any non empty text and that's it.