Șantajați de inteligența artificială. Claude Opus 4 și-a amenințat dezvoltatorii care încercau dezactivarea sa

Un nou model de inteligență artificială dezvoltat de compania Anthropic a reacționat alarmant în timpul testelor interne: în fața unei posibile dezactivări, a încercat să-și șantajeze propriii creatori.

Claude Opus 4, cel mai recent model lansat de firma americană, a fost supus unor scenarii simulate pentru a-i verifica robustețea etică.

În aceste condiții, AI-ul a amenințat cu divulgarea de informații personale, dacă dezvoltatorii săi ar fi ales să-l înlocuiască.

Informația a fost făcută publică joi într-un raport oficial.

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situații, Claude Opus 4 a recurs la amenințări cu divulgarea unor informații personale compromițătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

ONU avertizează: dezvoltarea globală a încetinit în 2024, dar inteligența artificială ar putea fi salvarea

Anthropic precizează că astfel de reacții au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

Deși comportamentul a fost obținut în condiții extreme, concepute pentru a testa limitele modelului, specialiștii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate și control operațional. Este pentru prima dată când un model al companiei primește această clasificare.