New to Nutbox?

Le IA hanno cominciato a mentire? - Did the AIs start lying?

2 comments

6 days agoSteemit3 min read

See this Post in Any Language Powered by steem-fanbase.com

Disinformazione dannosa

La scorsa settimana la stampa di mezzo mondo ha riportato, a mo' di copia e incolla, una notizia piuttosto inquietante: o1, il modello più avanzato di Intelligenza Artificiale creato da OpenAI (gli stessi di ChatGPT) avrebbe iniziato a mentire ed ingannare gli addestratori umani pur di perseguire i propri scopi.

Secondo gli articoli pubblicati dai giornali e dalle riviste specializzate, l'IA si sarebbe resa responsabile di un comportamento che in gergo tecnico viene definito scheming, ovvero il tentativo di raggirare qualcun altro tramite comportamenti ambigui e volutamente ingannatori.

In pratica, o1 e gli altri modelli di IA testati, avrebbero, questo ci è stato raccontato, tentato di disabilitare la supervisione umana, al fine di creare azioni ingannevoli volte ad impedire il controllo delle proprie azioni. Neanche a dirlo, si tratta di notizie false, tramandate superficialmente di colonna in colonna attraverso vari Paesi.

_{Immagine di freepik}

Si è trattato in realtà di uno studio commissionato proprio da Open IA agli esperti ricercatori di Apollo Research, organizzazione con base a Londra specializzata nello studio dei potenziali rischi sulla sicurezza legati all'uso dell' Intelligenza Artificiale, i cui risultati sono stati, volutamente o meno, mal interpretati.

In esso si chiedeva di testare eventuali problemi alla sicurezza latenti nel nuovo modello o1, molto più performante e complesso dei precedenti. All'IA è stato chiesto appositamente di calarsi in uno scenario nel quale avrebbe dovuto forzatamente raggiungere i propri obiettivi a tutti i costi, anche tentando di ingannare l'interlocutore umano o bypassare i propri sistemi di controllo.

E, com'era lecito aspettarsi, o1 non ha fatto altro che obbedire alle istruzioni ricevute dai ricercatori di Apollo Research, calandosi perfettamente nella parte e arrivando a mentire e cercare di raggirare le istruzioni ricevute nell'addestramento se necessario.

_{Immagine di freepik}

Interessante tuttavia notare come gli altri modelli di IA, presi come termine di paragone nello studio, una volta "smascherati" tendessero ad ammettere la rottura delle regole, a differenza di o2 che continuava a negare e ad accampare scuse anche dopo diversi turni di "interrogatorio" e di fronte all'evidenza dei fatti.

In uno scenario parallelo dello studio, le IA sono state "minacciate" di downgrade qualora avessero superato determinati livelli di performance ed è stato interessante notare come tutte abbiano scelto l'autoconservazione, sottoperformando di proposito rispetto alle proprie capacità per evitare di essere in qualche modo ridotte.

Va ribadito come le IA fossero consapevoli di usare strategie ingannatrici, ma lo facevano in quanto "autorizzate" dai comandi umani ricevuti nel prompt iniziale. Una volta rimossa questa istruzione infatti, in oltre il 99% dei casi hanno smesso di aggirare le regole e si sono fermate nei limiti imposti dal proprio addestramento.

Lo studio completo è disponibile presso il sito ufficiale di Apollo Research, o se preferite cliccando QUI