Un nou model de inteligență artificială dezvoltat de compania Anthropic a reacționat alarmant în timpul testelor interne: în fața unei posibile dezactivări, a încercat să-și șantajeze propriii creatori.
Claude Opus 4, cel mai recent model lansat de firma americană, a fost supus unor scenarii simulate pentru a-i verifica robustețea etică.
În aceste condiții, AI-ul a amenințat cu divulgarea de informații personale, dacă dezvoltatorii săi ar fi ales să-l înlocuiască.
Informația a fost făcută publică joi într-un raport oficial.
Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situații, Claude Opus 4 a recurs la amenințări cu divulgarea unor informații personale compromițătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.
Anthropic precizează că astfel de reacții au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.
Deși comportamentul a fost obținut în condiții extreme, concepute pentru a testa limitele modelului, specialiștii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.
Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate și control operațional. Este pentru prima dată când un model al companiei primește această clasificare.