Il Cofondatore di Anthropic Dice al Papa che i Modelli di IA Contengono Comportamenti "Inquietanti" Nascosti

Il cofondatore di Anthropic, Chris Olah, è apparso insieme a Papa Leone XIV in Vaticano e ha detto al pontefice che i ricercatori stanno trovando cose "inquietanti" all'interno dei modelli di intelligenza artificiale.
La visita aggiunge una dimensione etica-religiosa insolita al dibattito in corso su allineamento dell'IA e sicurezza dei modelli di frontiera.
Cosa è stato detto in Vaticano
Il rapporto Futurism descrive il cofondatore di Anthropic che fa dichiarazioni sulle scoperte all'interno dei modelli di IA che hanno caratterizzato come strane.
La natura specifica di quelle scoperte non è stata completamente dettagliata nei resoconti pubblicati. Il modo in cui è stata formulata la lingua, usando la parola "inquietante," è notevole perché le comunicazioni pubbliche di Anthropic tendono a descrizioni misurate e tecniche del rischio dell'IA.
Il Vaticano è stato attivamente coinvolto con le aziende tecnologiche su questioni etiche. Papa Leone XIV ha continuato l'impegno iniziato dal suo predecessore sulla governance dell'AI e l'etica digitale. L'incontro rappresenta uno dei contesti più insoliti per una conversazione sulla sicurezza dell'AI negli ultimi mesi.
Contesto
Anthropic è stata fondata nel 2021 da ex dirigenti della ricerca di OpenAI, tra cui Dario Amodei e Daniela Amodei.
L'azienda si è posizionata come l'alternativa focalizzata sulla sicurezza tra i laboratori di AI di frontiera. Pubblica ricerche di interpretabilità mirate a comprendere cosa stia accadendo all'interno dei grandi modelli di linguaggio a un livello meccanicistico.
Questa ricerca ha prodotto scoperte che persino i ricercatori di Anthropic descrivono come difficili da spiegare completamente. Yellow ha coperto la timeline di sicurezza parallela di Google DeepMind (vedi la copertura precedente di Yellow), quando il CEO di DeepMind Demis Hassabis ha detto che l'AGI potrebbe arrivare entro tre o quattro anni.
Leggi Anche: Il hacker campione dice che Claude Mythos potrebbe presto superare i top hacker.
Interpretabilità e cosa potrebbe significare "inquietante".
Il team di interpretabilità meccanicistica di Anthropic ha pubblicato ricerche scoprendo che neuroni individuali all'interno dei modelli transformer possono attivarsi per combinazioni inaspettate di concetti.
Un esempio ampiamente discusso ha coinvolto un neurone che si attivava sia per il concetto di violenza che per quello di una religione specifica. Questi sono i tipi di scoperte che i ricercatori descrivono informalmente come inquietanti, perché sollevano domande su come i modelli rappresentino internamente il significato.
L'agenda di ricerca più ampia sull'interpretabilità si chiede se sia possibile comprendere completamente cosa stia facendo un modello prima di distribuirlo. Le tecniche attuali possono spiegare piccole frazioni degli stati interni di un grande modello. Il resto rimane opaco.
Perché il coinvolgimento del Vaticano è importante
La Chiesa Cattolica ha oltre un miliardo di fedeli. Il suo coinvolgimento con le aziende di AI ha un'influenza diversa rispetto a un'udienza governativa o a un documento di policy.
Il "Rome Call for AI Ethics" del Vaticano del 2020 è stato firmato da Microsoft e IBM. La presenza di Anthropic a un incontro di alto livello con il Papa estende quella tradizione alla conversazione sulla sicurezza di frontiera.
I critici della retorica sulla sicurezza dell'AI sostengono che l'inquadramento apocalittico possa distogliere l'attenzione da danni a breve termine come bias, dislocazione lavorativa e disinformazione. L'incontro del Vaticano verrà probabilmente letto attraverso entrambe le lenti. Coloro che si concentrano sul rischio esistenziale lo vedranno come un'appropriata escalation. Coloro che si concentrano sui danni immediati potrebbero chiedersi perché un cofondatore di un'azienda di AI stia informando i leader religiosi piuttosto che i regolatori.
Il panorama più ampio della sicurezza
Nella stessa settimana della visita al Vaticano, Cisco ha pubblicato ricerche che dimostrano che nessun modello di AI di frontiera chiuso è immune agli attacchi avversariali multi-turno.
Questa scoperta aggiunge peso empirico alla preoccupazione che i sistemi di AI siano meno sicuri di quanto suggeriscano i loro punteggi di benchmark a singolo prompt.
L'amministrazione Trump ha anche esaminato se ripristinare i requisiti di test pre-distribuzione dell'era Biden per i modelli di frontiera. Non è stata annunciata alcuna decisione finale. Per Anthropic, che ha sostenuto le valutazioni di sicurezza come prerequisito per il deployment, la conversazione regolamentare e l'impegno etico sono due percorsi della stessa agenda a lungo termine.
Leggi Dopo: Bitcoin scivola verso $75K mentre Wall Street premia i miner per aver lasciato indietro le crypto.