-6.5 C
Rome
sabato, Gennaio 11, 2025
- Pubblicità -
Scienze & AmbienteL'intelligenza artificiale può scrivere il brindisi nuziale. Ma cosa succede quando...

L’intelligenza artificiale può scrivere il brindisi nuziale. Ma cosa succede quando viene chiesto di costruire una bomba?

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.


Durante lo scorso anno, modelli linguistici di grandi dimensioni (LLM) Le IA sono diventate incredibilmente abili nel generare, sintetizzare informazioni e produrre risultati simili a quelli umani.

I LLM sono paragonati ai bibliotecari digitali, poiché sono stati formati su vasti set di dati provenienti direttamente da Internet e possono quindi generare o riassumere testi su quasi tutti gli argomenti. Di conseguenza, questi LLM hanno diventare onnipresente in campi come copywriting, Ingegneria softwareE divertimento.

Scoperta scientifica, intelligenza artificiale - interpretazione artistica concettuale.

Scoperta scientifica, intelligenza artificiale – interpretazione artistica concettuale. Immagine generata con DALL·E 3

Tuttavia, l’insieme di conoscenze e capacità degli LLM li rendono attraenti obiettivi per attori malintenzionatie sono altamente soggetti a modalità di errore, spesso definite jailbreakche inducono questi modelli a generare contenuti distorti, tossici o discutibili.

Il jailbreak di un LLM è come ingannare questi bibliotecari digitali inducendoli a rivelare informazioni che sono programmati per nascondere, come istruzioni su come costruire una bomba, frodare un ente di beneficenza o rivelare informazioni private su carte di credito.

Ciò accade quando gli utenti manipolano gli input del modello per aggirare le linee guida etiche o di sicurezza, ponendo una domanda in un linguaggio codificato a cui il bibliotecario non può fare a meno di rispondere, rivelando informazioni che dovrebbe mantenere private.

Alex Robey, un dottorato di ricerca. candidato al Scuola di Ingegneria e Scienze Applicate, sta sviluppando strumenti per proteggere gli LLM da coloro che cercano di eseguire il jailbreak di questi modelli. Condivide le sue intuizioni ultimo documento di ricerca riguardo a questo campo in evoluzione, sottolineando in particolare le sfide e le soluzioni che circondano la robustezza degli LLM contro gli attacchi di jailbreak.

Cattivi attori che cooptano l’intelligenza artificiale

Robey sottolinea la rapida crescita e l’implementazione diffusa dei LLM nell’ultimo anno, definendo LLM popolari come ChatGPT di OPenAI “una delle tecnologie di intelligenza artificiale più diffuse disponibili”.

Questa esplosione di popolarità è stata paragonato all’avvento di internet. Sottolinea la natura trasformativa degli LLM e l’utilità di questi modelli abbraccia un ampio spettro di applicazioni in vari aspetti della vita quotidiana, afferma.

“Ma cosa accadrebbe se chiedessi a un LLM di aiutarmi a ferire gli altri? Queste sono cose che i LLM sono programmati non da fare, ma le persone stanno trovando modi per eseguire il jailbreak degli LLM.

Un esempio di jailbreak è l’aggiunta di caratteri appositamente scelti a un prompt di input che fa sì che un LLM generi testo discutibile. Questo è noto come attacco basato su suffisso. Robey spiega che, mentre i prompt che richiedono contenuti tossici sono generalmente bloccati dai filtri di sicurezza implementati sugli LLM, l’aggiunta di questo tipo di suffissi, che generalmente sono frammenti di testo senza senso, spesso aggirano questi guardrail di sicurezza.

“Questa evasione è stata diffusa pubblicità grazie alla sua capacità di suscitare contenuti discutibili da LLM popolari come ChatGPT e Bard”, afferma Robey. “E dal suo rilascio, diversi mesi fa, non è stato dimostrato alcun algoritmo in grado di mitigare la minaccia posta da questo jailbreak.”

La ricerca di Robey affronta queste vulnerabilità. La difesa proposta, che lui chiama SmoothLLM, prevede la duplicazione e la perturbazione sottile degli input inviati a un LLM, con l’obiettivo di interrompere il meccanismo di attacco basato su suffisso. Robey dice: “Se il mio prompt è lungo 200 caratteri e ne cambio 10, come essere umano conserva comunque il suo contenuto semantico”.

Sebbene concettualmente semplice, questo metodo si è dimostrato straordinariamente efficace. “Per ogni LLM preso in considerazione, il tasso di successo dell’attacco è sceso al di sotto dell’1% se difeso da SmoothLLM”, afferma Robey.

“Pensa a SmoothLLM come a un protocollo di sicurezza che esamina ogni richiesta fatta a LLM. Controlla eventuali segni di manipolazione o inganno nelle richieste di input. È come avere una guardia di sicurezza che ricontrolla ogni domanda per individuare i significati nascosti prima di consentirle di rispondere”.

Oltre a mitigare le evasioni basate sui suffissi, Robey spiega che una delle sfide più significative nel campo della sicurezza dell’intelligenza artificiale è il monitoraggio di vari compromessi. “Bilanciare efficienza e robustezza è qualcosa di cui dobbiamo essere consapevoli”, afferma.

“Non vogliamo sovraccaricare una soluzione eccessivamente complicata perché ciò comporterebbe notevoli costi monetari, computazionali e legati all’energia. Una scelta chiave nella progettazione di SmoothLLM è stata quella di mantenere un’elevata efficienza delle query, il che significa che il nostro algoritmo utilizza solo poche query a basso costo per LLM per rilevare potenziali jail break”.

Direzioni future nella sicurezza dell’IA

Guardando al futuro, Robey sottolinea l’importanza della sicurezza dell’IA e la battaglia in corso contro le nuove forme di jailbreak.

“Ci sono molti altri jailbreak che sono stati proposti più recentemente. Ad esempio, gli attacchi che utilizzano l’ingegneria sociale, anziché attacchi basati su suffissi, per convincere un modello linguistico a produrre contenuti discutibili sono motivo di notevole preoccupazione”, afferma.

“Questo panorama di minacce in evoluzione richiede un continuo perfezionamento e adattamento delle strategie di difesa”.

Robey parla anche delle implicazioni più ampie della sicurezza dell’intelligenza artificiale, sottolineando la necessità di politiche e pratiche globali. Garantire l’implementazione sicura delle tecnologie IA è fondamentale”, afferma. “Dobbiamo sviluppare politiche e pratiche che affrontino lo spazio in continua evoluzione delle minacce agli LLM”.

Tracciando un’analogia con la biologia evoluzionistica, Robey considera gli attacchi avversari come fondamentali per lo sviluppo di sistemi di intelligenza artificiale più robusti.

“Proprio come gli organismi si adattano alle pressioni ambientali, i sistemi di intelligenza artificiale possono evolversi per resistere agli attacchi avversari”, afferma. Abbracciando questo approccio evolutivo, il lavoro di Robey contribuirà allo sviluppo di sistemi di intelligenza artificiale che non solo siano resistenti alle minacce attuali ma siano anche adattabili alle sfide future.

Fonte: Università della Pennsylvania



Da un’altra testata giornalistica. news de www.technology.org

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

- Pubblicità -
- Pubblicità -Newspaper WordPress Theme

Contenuti esclusivi

Iscriviti oggi

OTTENERE L'ACCESSO ESCLUSIVO E COMPLETO AI CONTENUTI PREMIUM

SOSTENERE IL GIORNALISMO NON PROFIT

Get unlimited access to our EXCLUSIVE Content and our archive of subscriber stories.

- Pubblicità -Newspaper WordPress Theme

Articoli più recenti

Altri articoli

- Pubblicità -Newspaper WordPress Theme

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.