Spiegare il comportamento delle reti neurali addestrate rimane un enigma avvincente, soprattutto perché questi modelli crescono in dimensioni e sofisticazione. Come altre sfide scientifiche nel corso della storia, il reverse engineering del funzionamento dei sistemi di intelligenza artificiale richiede una sperimentazione sostanziale: formulare ipotesi, intervenire sul comportamento e persino sezionare grandi reti per esaminare i singoli neuroni. Fino ad oggi, gli esperimenti di maggior successo hanno comportato una grande quantità di supervisione umana. Spiegare ogni calcolo all’interno di modelli delle dimensioni di GPT-4 e superiori richiederà quasi certamente più automazione, forse anche utilizzando gli stessi modelli di intelligenza artificiale.
Per facilitare questo tempestivo impegno, i ricercatori del Laboratorio di informatica e intelligenza artificiale (CSAIL) del MIT hanno sviluppato un nuovo approccio che utilizza modelli di intelligenza artificiale per condurre esperimenti su altri sistemi e spiegarne il comportamento. Il loro metodo utilizza agenti costruiti da modelli linguistici preaddestrati per produrre spiegazioni intuitive di calcoli all’interno di reti addestrate.
Al centro di questa strategia c’è l’“agente di interpretabilità automatizzata” (AIA), progettato per imitare i processi sperimentali di uno scienziato. Gli agenti di interpretabilità pianificano ed eseguono test su altri sistemi computazionali, che possono variare in scala da singoli neuroni a interi modelli, al fine di produrre spiegazioni di questi sistemi in una varietà di forme: descrizioni linguistiche di ciò che un sistema fa e dove fallisce, e codice che riproduce il comportamento del sistema. A differenza delle procedure di interpretabilità esistenti che classificano o riassumono passivamente gli esempi, l’AIA partecipa attivamente alla formazione di ipotesi, alla verifica sperimentale e all’apprendimento iterativo, affinando così la sua comprensione di altri sistemi in tempo reale.
A complemento del metodo AIA c’è la nuova “interpretazione e descrizione delle funzioni” (TROVARE) benchmark, un banco di prova di funzioni simili a calcoli all’interno di reti addestrate e descrizioni di accompagnamento del loro comportamento. Una sfida chiave nel valutare la qualità delle descrizioni dei componenti di rete del mondo reale è che le descrizioni sono valide solo quanto il loro potere esplicativo: i ricercatori non hanno accesso alla verità concreta etichette di unità o descrizioni di calcoli appresi. FIND affronta questo problema di lunga data sul campo fornendo uno standard affidabile per valutare le procedure di interpretabilità: le spiegazioni delle funzioni (ad esempio, prodotte da un’AIA) possono essere valutate rispetto alle descrizioni delle funzioni nel benchmark.
Ad esempio, FIND contiene neuroni sintetici progettati per imitare il comportamento dei neuroni reali all’interno di modelli linguistici, alcuni dei quali sono selettivi per concetti individuali come “trasporto via terra”. Alle AIA viene fornito l’accesso tramite scatola nera ai neuroni sintetici e agli input di progettazione (come “albero”, “felicità” e “macchina”) per testare la risposta di un neurone. Dopo aver notato che un neurone sintetico produce valori di risposta più elevati per “auto” rispetto ad altri input, un’AIA potrebbe progettare test più dettagliati per distinguere la selettività del neurone per le auto da altre forme di trasporto, come aerei e barche. Quando l’AIA produce una descrizione del tipo “questo neurone è selettivo per il trasporto stradale e non per il trasporto aereo o marittimo”, questa descrizione viene valutata rispetto alla descrizione reale del neurone sintetico (“selettivo per il trasporto terrestre”) in FIND. Il benchmark può quindi essere utilizzato per confrontare le capacità delle AIA con altri metodi presenti in letteratura.
Sarah Schwettmann PhD ’21, co-autrice principale di a documento sul nuovo lavoro e ricercatore presso CSAIL, sottolinea i vantaggi di questo approccio. “La capacità delle AIA di generare e testare ipotesi autonome potrebbe essere in grado di far emergere comportamenti che altrimenti sarebbero difficili da rilevare per gli scienziati. È notevole che i modelli linguistici, se dotati di strumenti per sondare altri sistemi, siano capaci di questo tipo di progettazione sperimentale», afferma Schwettmann. «Benchmark chiari e semplici con risposte concrete sono stati un importante motore di capacità più generali nei modelli linguistici e speriamo che FIND possa svolgere un ruolo simile nella ricerca sull’interpretabilità».
Automatizzare l’interpretabilità
I grandi modelli linguistici mantengono ancora il loro status di celebrità molto richieste nel mondo della tecnologia. I recenti progressi negli LLM hanno evidenziato la loro capacità di eseguire compiti di ragionamento complessi in diversi domini. Il team del CSAIL ha riconosciuto che, date queste capacità, i modelli linguistici potrebbero essere in grado di fungere da spina dorsale di agenti generalizzati per l’interpretabilità automatizzata. “L’interpretabilità è stato storicamente un campo molto sfaccettato”, afferma Schwettmann. “Non esiste un approccio valido per tutti; la maggior parte delle procedure sono molto specifiche per le singole domande che potremmo avere su un sistema e per modalità individuali come la visione o il linguaggio. Gli approcci esistenti per etichettare i singoli neuroni all’interno dei modelli di visione hanno richiesto l’addestramento di modelli specializzati su dati umani, dove questi modelli svolgono solo questo singolo compito. Gli agenti di interpretabilità costruiti a partire da modelli linguistici potrebbero fornire un’interfaccia generale per spiegare altri sistemi, sintetizzando i risultati degli esperimenti, integrandoli in diverse modalità e persino scoprendo nuove tecniche sperimentali a un livello molto fondamentale”.
Mentre entriamo in un regime in cui i modelli che spiegano sono essi stessi scatole nere, le valutazioni esterne dei metodi di interpretabilità stanno diventando sempre più vitali. Il nuovo benchmark del team risponde a questa esigenza con una serie di funzioni con struttura nota, modellate su comportamenti osservati in natura. Le funzioni all’interno di FIND abbracciano una varietà di domini, dal ragionamento matematico alle operazioni simboliche sulle stringhe fino ai neuroni sintetici costruiti da compiti a livello di parola. Il dataset delle funzioni interattive è costruito proceduralmente; la complessità del mondo reale viene introdotta in funzioni semplici aggiungendo rumore, componendo funzioni e simulando pregiudizi. Ciò consente il confronto dei metodi di interpretabilità in un contesto che si traduce in prestazioni nel mondo reale.
Oltre al set di dati delle funzioni, i ricercatori hanno introdotto un protocollo di valutazione innovativo per valutare l’efficacia delle AIA e dei metodi di interpretabilità automatizzata esistenti. Questo protocollo prevede due approcci. Per le attività che richiedono la replica della funzione nel codice, la valutazione confronta direttamente le stime generate dall’intelligenza artificiale e le funzioni originali e concrete. La valutazione diventa più complessa per compiti che coinvolgono descrizioni di funzioni in linguaggio naturale. In questi casi, valutare accuratamente la qualità di queste descrizioni richiede una comprensione automatizzata del loro contenuto semantico. Per affrontare questa sfida, i ricercatori hanno sviluppato un modello linguistico specializzato di “terze parti”. Questo modello è specificamente addestrato per valutare l’accuratezza e la coerenza delle descrizioni del linguaggio naturale fornite dai sistemi di intelligenza artificiale e le confronta con il comportamento della funzione ground-verity.
FIND consente la valutazione rivelando che siamo ancora lontani dall’automatizzare completamente l’interpretabilità; sebbene le AIA superino gli approcci di interpretabilità esistenti, non riescono ancora a descrivere accuratamente quasi la metà delle funzioni del benchmark. Tamar Rott Shaham, co-autore principale dello studio e postdoc presso CSAIL, osserva che “sebbene questa generazione di AIA sia efficace nel descrivere funzionalità di alto livello, spesso trascurano i dettagli più fini, in particolare nei sottodomini di funzioni con rumore o rumore”. comportamento irregolare. Ciò probabilmente deriva da un campionamento insufficiente in queste aree. Un problema è che l’efficacia delle AIA potrebbe essere ostacolata dai dati esplorativi iniziali. Per contrastare questo, abbiamo provato a guidare l’esplorazione delle AIA avviando la loro ricerca con input specifici e pertinenti, che hanno migliorato significativamente la precisione dell’interpretazione”. Questo approccio combina nuovi metodi AIA con tecniche precedenti utilizzando esempi precalcolati per avviare il processo di interpretazione.
I ricercatori stanno inoltre sviluppando un kit di strumenti per aumentare la capacità delle AIA di condurre esperimenti più precisi sulle reti neurali, sia in ambienti black-box che white-box. Questo toolkit mira a dotare le AIA di strumenti migliori per selezionare gli input e affinare le capacità di test delle ipotesi per un’analisi della rete neurale più sfumata e accurata. Il team sta anche affrontando sfide pratiche nell’interpretabilità dell’intelligenza artificiale, concentrandosi sulla determinazione delle domande giuste da porre quando si analizzano i modelli in scenari del mondo reale. Il loro obiettivo è sviluppare procedure di interpretabilità automatizzate che potrebbero eventualmente aiutare le persone a controllare i sistemi – ad esempio, per la guida autonoma o il riconoscimento facciale – per diagnosticare potenziali modalità di guasto, pregiudizi nascosti o comportamenti sorprendenti prima dell’implementazione.
Osservando gli osservatori
Il team prevede di sviluppare un giorno AIA quasi autonome in grado di controllare altri sistemi, con scienziati umani che forniranno supervisione e guida. Le AIA avanzate potrebbero sviluppare nuovi tipi di esperimenti e domande, potenzialmente oltre le considerazioni iniziali degli scienziati umani. L’obiettivo è espandere l’interpretabilità dell’intelligenza artificiale per includere comportamenti più complessi, come interi circuiti neurali o sottoreti, e prevedere input che potrebbero portare a comportamenti indesiderati. Questo sviluppo rappresenta un significativo passo avanti nella ricerca sull’intelligenza artificiale, con l’obiettivo di rendere i sistemi di intelligenza artificiale più comprensibili e affidabili.
“Un buon punto di riferimento è uno strumento potente per affrontare sfide difficili”, afferma Martin Wattenberg, professore di informatica all’Università di Harvard, non coinvolto nello studio. “È meraviglioso vedere questo sofisticato punto di riferimento per l’interpretabilità, una delle sfide più importanti nell’apprendimento automatico di oggi. Sono particolarmente colpito dall’agente di interpretabilità automatizzato creato dagli autori. È una sorta di jiu-jitsu dell’interpretabilità, che riporta l’intelligenza artificiale su se stessa per aiutare la comprensione umana”.
Scritto da
Da un’altra testata giornalistica. news de www.technology.org