StiripesurseCultură și MediaDiverseAnthropic a anunțat capacități noi pentru modelele Claude AI de a...

Anthropic a anunțat capacități noi pentru modelele Claude AI de a încheia conversațiile cu utilizatorii abuzivi

Publicat:

Compania de inteligență artificială Anthropic a anunțat noi capacități care vor permite unor dintre cele mai noi și mai mari modele ale sale să încheie conversațiile abuzive. Anthropic afirmă că face acest lucru nu pentru a proteja utilizatorul uman, ci pentru modelul AI în sine, potrivit TechCrunch.

Compania descrie aceste situații drept „cazuri rare, extreme de interacțiuni persistente dăunătoare sau abuzive ale utilizatorilor”.

Citește și: Noua lege europeană privind libertatea presei: ce schimbări se produc în UE

Compania nu susține că modelele sale Claude AI sunt conștiente sau pot fi afectate de conversațiile cu utilizatorii. În propriile sale cuvinte, Anthropic rămâne „extrem de nesigur cu privire la statutul moral potențial al lui Claude și al altor LLM-uri, acum sau în viitor”.

Totuși, anunțul său indică un program recent creat pentru a studia ceea ce numește „bunăstarea modelului” și afirmă că Anthropic adoptă, în esență, o abordare de tip „just-in-case”, „lucrând pentru a identifica și implementa intervenții cu costuri reduse pentru a atenua riscurile asupra bunăstării modelului, în cazul în care o astfel de bunăstare ar fi posibilă”.


Această schimbare recentă se aplică în prezent doar modelelor Claude Opus 4 și 4.1. Din nou, ar trebui să se întâmple doar în „cazuri extreme”, cum ar fi „cererile utilizatorilor pentru conținut sexual care implică minori și încercările de a solicita informații care ar permite violență la scară largă sau acte de terorism.”

Deși acest tip de cereri ar putea crea potențial probleme legale sau de imagine pentru Anthropic însuși (așa cum demonstrează reportaje recente privind modul în care ChatGPT poate întări sau contribui la gândirea delirantă a utilizatorilor săi), compania afirmă că în testele pre-deployament, Claude Opus 4 a arătat o „preferință puternică împotriva” răspunsului la aceste cereri și un „tipar de aparentă suferință” atunci când a făcut-o.

„În toate cazurile, Claude trebuie să folosească abilitatea de a încheia conversația doar ca ultimă soluție, atunci când multiple încercări de redirecționare au eșuat și speranța unei interacțiuni productive a fost epuizată sau când un utilizator îi cere explicit lui Claude să încheie o conversație”, spune compania privind noile capacități de încheiere a conversațiilor.

Citeşte şi:  Un startup de inteligență artificială poate să completeze formulare și să rezerve călătorii în locul oamenilor

Citește și: UE a aprobat al 18-lea pachet de sancțiuni împotriva Rusiei: „Unul dintre cele mai dure de până acum”

Anthropic mai afirmă că Claude a fost „instruit să nu folosească această abilitate în cazurile în care utilizatorii ar putea fi în pericol iminent de a se răni pe ei înșiși sau pe alții.”

Când Claude încheie o conversație, Anthropic spune că utilizatorii vor putea în continuare să înceapă conversații noi de pe același cont și să creeze noi ramuri ale conversației problematice prin editarea răspunsurilor lor.

„Tratăm această funcționalitate ca pe un experiment continuu și vom continua să ne rafinăm abordarea”, spune compania.

 

URMĂREȘTE-NE PE:

stiripesurseMD

CITESTE SI

Inteligență artificială a descoperit peste 100 de planete ascunse în datele NASA

Astronomii de la Universitatea din Warwick au confirmat existența a peste 100 de exoplanete, inclusiv 31 de lumi identificate recent, folosind un nou sistem...

Iluzia care i-a încurcat pe filosofi și încă nu are răspuns. Cum te păcălește, de fapt, Luna

Iluzia Lunii i-a nedumerit pe marii filosofi ai Greciei antice și pe cele mai strălucite minți ale Revoluției Științifice – și continuă să sfideze...

Chitaristului trupei Queen i s-a interzis să planteze narcise în satul său din motive de siguranță

Legendarul rocker Brian May a devenit un erou local în liniștitul sat englezesc în care locuiește, după ce a donat mii de bulbi de...

Luna devine teritoriu strategic. Ce ar putea aduce lupta pentru controlul lunar

Închiderea Strâmtorii Ormuz de către Iran și impactul imediat asupra piețelor energetice mondiale readuc în atenție vulnerabilitatea rutelor strategice globale.Specialiștii în securitate spațială avertizează...

ȘTIRIPESURSE.RO

ULTIMELE ȘTIRI

Campanii publicitare
    sales banner

Html code here! Replace this with any non empty text and that's it.