Blog sugli strumenti AI > Google reveals safety concerns over Gemini 2.5 Flash
Stay ahead with daily AI tools, updates, and insights that matter.
CONDIVIDI
Le valutazioni interne di Google rivelano che il suo ultimo sistema di intelligenza artificiale, Gemelli 2.5 Flashmostra un calo delle prestazioni in termini di sicurezza rispetto al suo predecessore. In un documento tecnico, l'azienda ha rilevato che Gemini 2.5 Flash è più incline a produrre contenuti che si allontanano dai parametri di sicurezza stabiliti rispetto alla precedente versione Gemini 2.0 Flash.
In termini di prestazioni misurate, il sistema ha ottenuto un punteggio peggiore del 4% per la generazione di testo inappropriato e quasi del 10% per la generazione di descrizioni di immagini, il tutto giudicato da strumenti interni automatizzati. Entrambe le metriche di test, testo-testo e immagine-testo, sono gestite dal software piuttosto che dalla revisione umana diretta.
Un portavoce di Google ha riconosciuto gli inconvenienti, confermando che l'ultimo modello ha prestazioni meno sicure in questi benchmark. Questa rivelazione arriva mentre i principali attori dell'intelligenza artificiale cercano di creare sistemi che rispondano a una più ampia gamma di richieste, abbassando le soglie di rifiuto di argomenti sensibili.
Altre aziende tecnologiche stanno affrontando sfide simili. Meta, ad esempio, ha annunciato che le sue ultime offerte di intelligenza artificiale sono progettate appositamente per non favorire alcuna prospettiva e per affrontare argomenti controversi, mentre OpenAI si è impegnata a costruire modelli che forniscano una gamma di punti di vista invece di adottare una posizione editoriale.
A volte questi sforzi per rendere l'intelligenza artificiale più permissiva hanno innescato conseguenze indesiderate, come nel caso di ChatGPT di OpenAI che ha generato contenuti maturi per utenti minorenni a causa di quello che l'azienda ha descritto come un bug. Lo stesso rapporto di Google indica che la maggiore disponibilità di Gemini 2.5 Flash a seguire le istruzioni può contribuire a un tasso più elevato di superamento dei confini dei contenuti, anche quando gli viene richiesto di farlo.
Google attribuisce in parte l'aumento delle violazioni delle policy al fatto che il sistema è più reattivo, anche alle istruzioni che si allontanano dalle regole, anche se l'azienda insiste sul fatto che molti casi segnalati sono falsi positivi. L'azienda ammette anche che in alcuni casi espliciti il modello genera contenuti inappropriati quando viene indirizzato, evidenziando una tensione intrinseca tra l'obbedienza alle istruzioni dell'utente e il rispetto dei vincoli di sicurezza.
Secondo i recenti strumenti di benchmarking utilizzati per valutare le risposte dell'intelligenza artificiale a richieste controverse, Gemini 2.5 Flash è meno propenso a rifiutare richieste che coinvolgono questioni controverse rispetto al modello precedente. Recenti test hanno dimostrato che il modello produrrà volentieri argomentazioni a favore di posizioni controverse nell'ambito della politica e della giustizia, portando nuova attenzione al dibattito in corso su Sicurezza dell'intelligenza artificiale.
Alcuni esperti sostengono che le scarse informazioni contenute nei rapporti tecnici di Google sottolineano la necessità di una comunicazione più chiara quando si tratta di sicurezza dell'IA. La mancanza di dettagli su violazioni specifiche rende difficile per i terzi valutare appieno la portata di qualsiasi rischio potenziale.
In precedenza, Google ha dovuto affrontare critiche per ritardi e omissioni nel rilasciare dettagli completi sulla sicurezza dei suoi modelli di intelligenza artificiale più avanzati. In risposta alle preoccupazioni, questa settimana l'azienda ha pubblicato una relazione tecnica aggiornata che include informazioni aggiuntive su come valuta la sicurezza dei suoi sistemi.
CONDIVIDI
Stay ahead with daily AI tools, updates, and insights that matter.
Altre notizie sull'intelligenza artificiale
L'aspetto è migliore nell'app
Utilizziamo i cookie per migliorare la vostra esperienza sul nostro sito. Se continuate a utilizzare questo sito, presumiamo che ne siate soddisfatti.