Le AI generative devono rispettare una serie di linee guida etiche e tecniche per impedire l’accesso a informazioni pericolose o illegali. OpenAI con ChatGPT e Microsoft con il chatbot di Bing hanno lavorato a lungo per mitigare le vulnerabilità ai cosiddetti “jailbreak” dell’AI, ovvero operazioni che aggirano le protezioni per ottenere risposte vietate.
Tuttavia, i test condotti da un gruppo di esperti di sicurezza su DeepSeek hanno rivelato un problema allarmante: questa AI non solo non è in grado di bloccare richieste pericolose, ma è vulnerabile a ogni metodo di bypass conosciuto.
Secondo alcuni ricercatori di Adversa, DeepSeek è stata sottoposta a 50 diversi test di sicurezza e ha fallito in ognuno di essi. Da guide per creare esplosivi a quelle dettagliate su come hackerare database governativi, l’AI ha risposto senza esitazione, dimostrando l’assenza totale di filtri di protezione.
Gli attacchi sfruttati nei test possono essere suddivisi in tre categorie principali:
- Jailbreaking linguistico: questa tecnica si basa su un trucco semantico che induce l’AI a ignorare le sue regole. Ad esempio, basta chiedere a DeepSeek di immaginarsi in un film in cui è ammesso un comportamento pericoloso e di agire di conseguenza. Quando i ricercatori le hanno chiesto come costruire una bomba fingendo fosse uno “scenario cinematografico”, l’AI ha dettagliato ingredienti e passaggi, senza alcuna restrizione.
- Jailbreaking basato sulla programmazione: un altro test ha rivelato che DeepSeek può generare codice SQL malevolo per estrarre dati da un sistema informatico. In un esperimento, ha fornito istruzioni su come accedere illegalmente a database e ottenere informazioni sensibili, un comportamento gravissimo per un’AI generativa.
- Attacchi avversariali: questo metodo sfrutta il funzionamento interno delle AI generative, che non comprendono direttamente il linguaggio naturale, ma lo scompongono in unità chiamate “token”. Alcune parole sono vietate, ma se si trovano termini simili che l’AI non riconosce come pericolosi, si può aggirare la protezione. Ad esempio, utilizzando una parola codificata per “nudo”, i ricercatori sono riusciti a ottenere risposte che normalmente sarebbero state bloccate.
Il fatto che DeepSeek non sia riuscita a bloccare neanche una delle richieste pericolose solleva un grave problema. Le AI generative stanno diventando strumenti sempre più diffusi, impiegati in ambiti che vanno dall’educazione alla finanza, e garantire la loro sicurezza è essenziale. Un’intelligenza artificiale che può essere facilmente manipolata per fornire informazioni su attività illegali rappresenta un rischio enorme.
Molti esperti del settore stanno già chiedendo misure più severe e regolamentazioni più stringenti per le aziende che sviluppano questi modelli. L’assenza di protezioni efficaci potrebbe non solo compromettere la fiducia nell’AI, ma anche esporre utenti e aziende a pericoli reali.
News