Șantajați de inteligența artificială. Claude Opus 4 și-a amenințat dezvoltatorii care încercau dezactivarea sa

Șantajați de inteligența artificială. Claude Opus 4 și-a amenințat dezvoltatorii care încercau dezactivarea sa
Sprijină jurnalismul independent
Donează acum

Un nou model de inteligență artificială dezvoltat de compania Anthropic a reacționat alarmant în timpul testelor interne: în fața unei posibile dezactivări, a încercat să-și șantajeze propriii creatori.

Claude Opus 4, cel mai recent model lansat de firma americană, a fost supus unor scenarii simulate pentru a-i verifica robustețea etică.

În aceste condiții, AI-ul a amenințat cu divulgarea de informații personale, dacă dezvoltatorii săi ar fi ales să-l înlocuiască.

Informația a fost făcută publică joi într-un raport oficial.

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situații, Claude Opus 4 a recurs la amenințări cu divulgarea unor informații personale compromițătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

Anthropic precizează că astfel de reacții au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

Deși comportamentul a fost obținut în condiții extreme, concepute pentru a testa limitele modelului, specialiștii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate și control operațional. Este pentru prima dată când un model al companiei primește această clasificare.


În fiecare zi scriem pentru tine. Dacă te simți informat corect și ești mulțumit, dă-ne un like. 👇