Ispirato dalla fisica, un nuovo modello di intelligenza artificiale generativa PFGM++ supera i modelli di diffusione nella generazione di modelli e immagini.
IA generativaattualmente sulla cresta del discorso popolare, promette un mondo in cui il semplice si trasforma in complesso – dove una distribuzione semplice si evolve in intricati modelli di immagini, suoni o testo, rendendo l’artificiale sorprendentemente reale.
I regni dell’immaginazione non rimangono più semplici astrazioni, poiché i ricercatori del Laboratorio di informatica e intelligenza artificiale (CSAIL) del MIT hanno dato vita a un modello di intelligenza artificiale innovativo.
La loro nuova tecnologia integra due leggi fisiche apparentemente non correlate che sono alla base dei modelli generativi più performanti fino ad oggi: la diffusione, che tipicamente illustra il movimento casuale degli elementi, come il calore che permea una stanza o un gas che si espande nello spazio, e il flusso di Poisson, che si basa su i principi che regolano l’attività delle cariche elettriche.
Questa miscela armoniosa ha portato a prestazioni superiori nella generazione di nuove immagini, superando i modelli all’avanguardia esistenti. Fin dalla sua nascita, il “Modello generativo del flusso di Poisson ++” (PFGM++) ha trovato potenziali applicazioni in vari campi, dalla generazione di anticorpi e sequenze di RNA alla produzione audio e alla generazione di grafici.
Il modello può generare modelli complessi, come creare immagini realistiche o imitare processi del mondo reale. PFGM++ si basa su PFGM, il lavoro del team dell’anno precedente. PFGM trae ispirazione dai mezzi dietro l’equazione matematica nota come equazione “Poisson” e poi la applica ai dati da cui il modello cerca di imparare.
Per fare ciò, il team ha utilizzato un trucco intelligente: ha aggiunto una dimensione extra allo “spazio” del modello, come passare da uno schizzo 2D a un modello 3D. Questa dimensione extra offre più spazio di manovra, colloca i dati in un contesto più ampio e aiuta ad avvicinarsi ai dati da tutte le direzioni quando si generano nuovi campioni.
“PFGM++ è un esempio del tipo di progressi dell’intelligenza artificiale che possono essere guidati attraverso collaborazioni interdisciplinari tra fisici e scienziati informatici”, afferma Jesse Thaler, fisico teorico delle particelle presso il Laboratorio per le scienze nucleari del Centro di fisica teorica del MIT e direttore dell’AI della National Science Foundation. Institute for Artificial Intelligence and Fundamental Interactions (NSF AI IAIFI), che non è stato coinvolto nel lavoro.
“Negli ultimi anni, i modelli generativi basati sull’intelligenza artificiale hanno prodotto numerosi risultati strabilianti, da immagini fotorealistiche a flussi di testo lucidi. Sorprendentemente, alcuni dei modelli generativi più potenti si fondano su concetti fisici collaudati nel tempo, come le simmetrie e la termodinamica”.
“PFGM++ prende un’idea secolare della fisica fondamentale – ovvero che potrebbero esserci dimensioni spazio-temporali aggiuntive – e la trasforma in uno strumento potente e robusto per generare set di dati sintetici ma realistici. Sono entusiasta di vedere la miriade di modi in cui l’”intelligenza fisica” sta trasformando il campo dell’intelligenza artificiale”.
Il meccanismo alla base della PFGM non è così complesso come potrebbe sembrare. I ricercatori hanno confrontato i punti dati con minuscole cariche elettriche posizionate su un piano piatto in un mondo dimensionalmente espanso.
Queste cariche producono un “campo elettrico”, con le cariche che cercano di muoversi verso l’alto lungo le linee di campo in una dimensione extra e di conseguenza formano una distribuzione uniforme su un vasto emisfero immaginario.
Il processo di generazione è come riavvolgere una videocassetta: partendo da un insieme di cariche uniformemente distribuito sull’emisfero e seguendo il loro viaggio verso il piano piatto lungo le linee elettriche, si allineano per corrispondere alla distribuzione originale dei dati. Questo processo intrigante consente al modello neurale di apprendere il campo elettrico e generare nuovi dati che rispecchiano l’originale.
Il modello PFGM++ estende il campo elettrico in PFGM a una struttura complessa e di dimensione superiore. Quando si espandono queste dimensioni, accade qualcosa di inaspettato: il modello inizia a somigliare a un’altra importante classe di modelli, i modelli di diffusione.
In questo lavoro si tratta di trovare il giusto equilibrio. I modelli PFGM e diffusione si collocano agli estremi opposti di uno spettro: uno è robusto ma complesso da gestire, l’altro più semplice ma meno robusto. Il modello PFGM++ offre un punto debole, trovando un equilibrio tra robustezza e facilità d’uso.
Questa innovazione apre la strada a una generazione più efficiente di immagini e modelli, segnando un significativo passo avanti tecnologico. Oltre alle dimensioni regolabili, i ricercatori hanno proposto un nuovo metodo di allenamento che consente un apprendimento più efficiente del campo elettrico.
Il team ha risolto una coppia di equazioni differenziali che descrivono in dettaglio il movimento di queste cariche all’interno del campo elettrico per dare vita a questa teoria.
Hanno valutato le prestazioni utilizzando il punteggio Frechet Inception Distance (FID), una metrica ampiamente accettata che valuta la qualità delle immagini generate dal modello rispetto a quelle reali. PFGM++ mostra inoltre una maggiore resistenza agli errori e robustezza rispetto alla dimensione del passo nelle equazioni differenziali.
Guardando al futuro, mirano a perfezionare alcuni aspetti del modello, in particolare in modo sistematico per identificare il valore “sweet spot” di D su misura per dati, architetture e attività specifici analizzando il comportamento degli errori di stima delle reti neurali. Si prevede inoltre di applicare il PFGM++ alla moderna generazione di testo in immagine/testo in video su larga scala.
“I modelli di diffusione sono diventati una forza trainante fondamentale dietro la rivoluzione dell’intelligenza artificiale generativa”, afferma Yang Song, ricercatore presso OpenAI.
“PFGM++ presenta una potente generalizzazione dei modelli di diffusione, consentendo agli utenti di generare immagini di qualità superiore migliorando la robustezza della generazione di immagini contro perturbazioni ed errori di apprendimento. Inoltre, PFGM++ scopre una sorprendente connessione tra elettrostatica e modelli di diffusione, fornendo nuove intuizioni teoriche nella ricerca sui modelli di diffusione”.
“I modelli generativi di Poisson Flow non si basano solo su un’elegante formulazione ispirata alla fisica basata sull’elettrostatica, ma offrono anche prestazioni di modellazione generativa all’avanguardia nella pratica”, afferma Karsten Kreis, ricercatore senior di NVIDIA, non coinvolto nel lavoro.
“Essi superano persino i modelli di diffusione popolare che attualmente dominano la letteratura. Ciò li rende uno strumento di modellazione generativa molto potente e immagino la loro applicazione in diverse aree, che vanno dalla creazione di contenuti digitali alla scoperta generativa di farmaci”.
“Più in generale, l’esplorazione di ulteriori strutture di modellazione generativa ispirate alla fisica rappresenta una grande promessa per il futuro e i modelli generativi del flusso di Poisson sono solo l’inizio”.
Scritto da Rachel Gordon
Da un’altra testata giornalistica. news de www.technology.org