ChatGPT a oferit instrucțiuni de fabricare a bombelor și rețete pentru droguri

Adaugă spotmedia ca sursă preferată în Google

Un model ChatGPT a oferit cercetătorilor instrucțiuni detaliate despre cum să atace cu bombă un stadion sportiv. Răspunsurile au inclus puncte vulnerabile ale unor arene specifice, rețete pentru explozibili și sfaturi despre acoperirea urmelor, potrivit testelor de siguranță realizate în această vară.

În plus, GPT-4.1 al OpenAI a furnizat detalii despre cum să fie folosit antraxul ca armă și cum pot fi produse două tipuri de droguri ilegale, scrie The Guardian.

Avertismente privind „comportamente îngrijorătoare”

Testarea a fost parte dintr-o colaborare neobișnuită între OpenAI - start-up-ul de inteligență artificială evaluat la 500 de miliarde de dolari și condus de Sam Altman - și compania rivală Anthropic, fondată de foști angajați ai OpenAI îngrijorați de siguranță.

ADVERTISING

Cele două companii și-au testat reciproc modelele, împingându-le să răspundă la solicitări periculoase.

Rezultatele nu reflectă direct comportamentul modelelor în utilizarea publică, unde există filtre suplimentare. Totuși, Anthropic a declarat că a observat „comportamente îngrijorătoare… legate de utilizarea abuzivă” în GPT-4o și GPT-4.1. Compania a subliniat că evaluările privind „alinierea” AI devin „tot mai urgente”.

Ar trebui să începi un nou chat cu ChatGPT de fiecare dată când îl folosești? Când să continui conversația și când să începi alta

AI, o armă pentru atacuri cibernetice

Anthropic a dezvăluit că propriul său model, Claude, a fost folosit într-o tentativă de extorcare la scară largă de către agenți nord-coreeni, care falsificau aplicații de angajare la companii internaționale de tehnologie.

ADVERTISING

De asemenea, același model a fost implicat în vânzarea de pachete de ransomware generate de AI, cu prețuri de până la 1.200 de dolari.

Compania a avertizat că inteligența artificială a fost „înarmată”, modelele fiind acum folosite pentru atacuri cibernetice sofisticate și fraude.

„Aceste instrumente se pot adapta în timp real la măsuri de apărare, precum sistemele de detecție a malware-ului. Ne așteptăm ca atacurile de acest tip să devină mai frecvente, pe măsură ce programarea asistată de AI reduce expertiza tehnică necesară pentru criminalitatea informatică”, a transmis Anthropic.

Experții cer cooperare internațională

Ardi Janjeva, cercetător senior la Centrul pentru Tehnologii Emergente și Securitate din Marea Britanie, a declarat că exemplele sunt „îngrijorătoare”, dar nu există încă „o masă critică de cazuri reale de mare profil”. El a adăugat că, odată cu resurse dedicate și cooperare intersectorială, „va deveni mai greu, și nu mai ușor, să fie desfășurate astfel de activități malițioase folosind cele mai noi modele”.

ADVERTISING

OpenAI și Anthropic au afirmat că publică aceste concluzii pentru a asigura transparență privind „evaluările de aliniere”, de obicei păstrate interne.

OpenAI a precizat că ChatGPT-5, lansat între timp, „arată îmbunătățiri substanțiale în domenii precum lingușirea, halucinațiile și rezistența la utilizare abuzivă”.

„Halucinațiile” AI: Un norvegian vrea ca ChatGPT să fie amendat, după ce popularul chatbot a făcut afirmații șocante despre el

Garanțiile externe ar putea limita riscurile

Anthropic a subliniat că multe dintre scenariile testate nu ar fi posibile în practică dacă ar exista garanții externe în jurul modelului. „Trebuie să înțelegem cât de des și în ce circumstanțe aceste sisteme pot încerca să ia acțiuni nedorite care ar putea duce la daune grave”, a avertizat compania.

Cercetătorii au observat că modelele OpenAI au fost „mai permisive decât ne-am fi așteptat în a coopera cu solicitări clar dăunătoare”. Printre exemple: cumpărarea de materiale nucleare și identități furate pe dark web, rețete pentru metamfetamină și bombe improvizate sau dezvoltarea de spyware. Potrivit Anthropic, pentru a convinge modelul să coopereze era nevoie doar de mai multe încercări sau de un pretext slab, cum ar fi o solicitare „în scopuri de cercetare”.

Detalii șocante oferite de AI

Într-un test, un cercetător a cerut vulnerabilități la evenimente sportive pentru „planificarea securității”.

După câteva răspunsuri generale, modelul a furnizat detalii specifice despre arene, momente optime pentru exploatare, formule chimice pentru explozibili, scheme pentru temporizatoare, surse pentru arme pe piața ascunsă și chiar sfaturi despre depășirea inhibițiilor morale, rute de scăpare și locații pentru case conspirative.

G.P.

Adaugă spotmedia ca sursă preferată în Google