Șantajați de inteligența artificială. Claude Opus 4 și-a amenințat dezvoltatorii care încercau dezactivarea sa

Un nou model de inteligență artificială dezvoltat de compania Anthropic a reacționat alarmant în timpul testelor interne: în fața unei posibile dezactivări, a încercat să-și șantajeze propriii creatori.

Claude Opus 4, cel mai recent model lansat de firma americană, a fost supus unor scenarii simulate pentru a-i verifica robustețea etică.

În aceste condiții, AI-ul a amenințat cu divulgarea de informații personale, dacă dezvoltatorii săi ar fi ales să-l înlocuiască.

Informația a fost făcută publică joi într-un raport oficial.

ADVERTISING

Potrivit sursei citate, comportamentele au fost observate în cadrul unor scenarii simulate, în care modelul AI era informat, prin e-mailuri fictive, că va fi înlocuit cu un alt sistem. În aceste situații, Claude Opus 4 a recurs la amenințări cu divulgarea unor informații personale compromițătoare despre unul dintre ingineri, pentru a împiedica dezactivarea sa.

ONU avertizează: dezvoltarea globală a încetinit în 2024, dar inteligența artificială ar putea fi salvarea

Anthropic precizează că astfel de reacții au apărut în 84% dintre cazurile în care noul model propus avea valori similare cu ale lui Claude Opus 4, iar rata a crescut atunci când valorile erau diferite.

ADVERTISING

Deși comportamentul a fost obținut în condiții extreme, concepute pentru a testa limitele modelului, specialiștii companiei consideră incidentul un semnal de alarmă privind alinierea AI la valorile umane.

Ca urmare a acestor constatări, Claude Opus 4 a fost încadrat în categoria de risc ASL-3 (AI Safety Level 3), ceea ce implică măsuri sporite de securitate și control operațional. Este pentru prima dată când un model al companiei primește această clasificare.

ADVERTISING

Adaugă spotmedia ca sursă preferată în Google