-5.9 C
Rome
sabato, Gennaio 11, 2025
- Pubblicità -
Scienze & AmbienteLe immagini sintetiche stabiliscono nuovi standard nell'efficienza dell'addestramento dell'IA

Le immagini sintetiche stabiliscono nuovi standard nell’efficienza dell’addestramento dell’IA

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.


I dati sono il nuovo terreno e i ricercatori del MIT stanno piantando molto più che semplici pixel in questo nuovo terreno fertile. Utilizzando immagini sintetiche per addestrare modelli di machine learning, gli scienziati hanno recentemente superato i risultati dei tradizionali metodi di formazione basati su “immagini reali”.

Un team del MIT studia il potenziale dell’apprendimento delle rappresentazioni visive utilizzando immagini sintetiche generate da modelli text-to-image. Sono i primi a dimostrare che i modelli addestrati esclusivamente con immagini sintetiche superano quelli addestrati con immagini reali in contesti su larga scala. Credito immagine: Alex Shipps/MIT CSAIL tramite il generatore di immagini AI di Midjourney

Al centro dell’approccio c’è un sistema chiamato Rappresentante stabile, che non utilizza solo immagini sintetiche; li genera attraverso modelli di testo in immagine ultra popolari come Stable Diffusion. È come creare mondi con le parole.

Allora cosa c’è nella salsa segreta di StableRep? Una strategia chiamata “apprendimento contrastivo multipositivo”.

“Stiamo insegnando al modello a imparare di più sui concetti di alto livello attraverso il contesto e la varianza, non solo fornendogli dati”, afferma Lijie Fan, studentessa di dottorato in ingegneria elettrica del MIT, affiliata al MIT Computer Science and Artificial Intelligence Laboratory (CSAIL ), ricercatore capo del lavoro. “Quando più immagini, tutte generate dallo stesso testo, tutte trattate come rappresentazioni della stessa cosa sottostante, il modello approfondisce i concetti dietro le immagini, ad esempio l’oggetto, non solo i loro pixel.”

Questo approccio considera più immagini generate da messaggi di testo identici come coppie positive, fornendo informazioni aggiuntive durante l’addestramento, non solo aggiungendo più diversità ma specificando al sistema di visione quali immagini sono simili e quali sono diverse. Sorprendentemente, StableRep ha superato l’abilità dei modelli di alto livello addestrati su immagini reali, come SimCLR e CLIP, in ampi set di dati.

“Mentre StableRep aiuta a mitigare le sfide dell’acquisizione dei dati nell’apprendimento automatico, inaugura anche un passo avanti verso una nuova era di tecniche di formazione AI. La capacità di produrre a comando immagini sintetiche diversificate e di alto livello potrebbe aiutare a ridurre spese e risorse ingombranti”, afferma Fan.

Il processo di raccolta dei dati non è mai stato semplice. Negli anni ’90, i ricercatori dovevano acquisire manualmente fotografie per assemblare set di dati per oggetti e volti. Gli anni 2000 hanno visto le persone cercare dati in Internet. Tuttavia, questi dati grezzi e non curati spesso contenevano discrepanze rispetto agli scenari del mondo reale e riflettevano pregiudizi sociali, presentando una visione distorta della realtà. Il compito di ripulire i set di dati attraverso l’intervento umano non è solo costoso, ma anche estremamente impegnativo. Immaginate, però, se questa ardua raccolta di dati potesse essere ridotta a qualcosa di semplice come impartire un comando in linguaggio naturale.

Un aspetto fondamentale del trionfo di StableRep è la regolazione della “scala guida” nel modello generativo, che garantisce un delicato equilibrio tra la diversità e la fedeltà delle immagini sintetiche. Una volta messe a punto con precisione, le immagini sintetiche utilizzate nell’addestramento di questi modelli autosupervisionati si sono rivelate altrettanto efficaci, se non di più, delle immagini reali.

Facendo un passo avanti, al mix è stata aggiunta la supervisione della lingua, creando una variante migliorata: StableRep+. Se addestrato con 20 milioni di immagini sintetiche, StableRep+ non solo ha raggiunto una precisione superiore, ma ha anche mostrato un’efficienza notevole rispetto ai modelli CLIP addestrati con l’incredibile cifra di 50 milioni di immagini reali.

Tuttavia, il percorso da percorrere non è privo di buche. I ricercatori affrontano apertamente diverse limitazioni, tra cui l’attuale lentezza della generazione delle immagini, le discrepanze semantiche tra i suggerimenti di testo e le immagini risultanti, la potenziale amplificazione dei pregiudizi e le complessità nell’attribuzione delle immagini, tutti aspetti imperativi da affrontare per i futuri progressi. Un altro problema è che StableRep richiede prima l’addestramento del modello generativo su dati reali su larga scala. Il team riconosce che iniziare con dati reali rimane una necessità; tuttavia, quando si dispone di un buon modello generativo, è possibile riutilizzarlo per nuove attività, come l’addestramento di modelli di riconoscimento e rappresentazioni visive.

Il team nota che non sono riusciti ad aggirare la necessità di iniziare con dati reali; è solo che una volta che hai un buon modello generativo puoi riutilizzarlo per nuovi compiti, come addestrare modelli di riconoscimento e rappresentazioni visive.

Sebbene StableRep offra una buona soluzione diminuendo la dipendenza da vaste raccolte di immagini reali, porta in primo piano le preoccupazioni relative ai pregiudizi nascosti nei dati non curati utilizzati per questi modelli testo-immagine. La scelta dei suggerimenti testuali, parte integrante del processo di sintesi delle immagini, non è del tutto esente da pregiudizi, “indicando il ruolo essenziale di una meticolosa selezione del testo o di una possibile cura umana”, afferma Fan.

“Utilizzando i più recenti modelli text-to-image, abbiamo ottenuto un controllo senza precedenti sulla generazione delle immagini, consentendo una vasta gamma di immagini da un singolo input di testo. Ciò supera la raccolta di immagini del mondo reale in termini di efficienza e versatilità. Si rivela particolarmente utile in compiti specializzati, come bilanciare la varietà delle immagini nel riconoscimento della coda lunga, presentando un supplemento pratico all’utilizzo di immagini reali per la formazione”, afferma Fan. “Il nostro lavoro rappresenta un passo avanti nell’apprendimento visivo, verso l’obiettivo di offrire alternative di formazione economicamente vantaggiose, evidenziando al contempo la necessità di miglioramenti continui nella qualità e nella sintesi dei dati”.

“Un sogno dell’apprendimento di modelli generativi è stato a lungo quello di essere in grado di generare dati utili per l’addestramento di modelli discriminativi”, afferma David Fleet, ricercatore di Google DeepMind e professore di informatica dell’Università di Toronto, che non è stato coinvolto nell’articolo. “Anche se abbiamo visto alcuni segni di vita, il sogno è stato sfuggente, soprattutto su ambiti complessi su larga scala come le immagini ad alta risoluzione. Questo articolo fornisce prove convincenti, per la prima volta che io sappia, che il sogno sta diventando realtà. Mostrano che l’apprendimento contrastivo da enormi quantità di dati di immagini sintetiche può produrre rappresentazioni che superano quelle apprese da dati reali su larga scala, con il potenziale di migliorare una miriade di compiti di visione a valle”.

Scritto da Rachel Gordon

Fonte: Istituto di Tecnologia del Massachussetts



Da un’altra testata giornalistica. news de www.technology.org

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

- Pubblicità -
- Pubblicità -Newspaper WordPress Theme

Contenuti esclusivi

Iscriviti oggi

OTTENERE L'ACCESSO ESCLUSIVO E COMPLETO AI CONTENUTI PREMIUM

SOSTENERE IL GIORNALISMO NON PROFIT

Get unlimited access to our EXCLUSIVE Content and our archive of subscriber stories.

- Pubblicità -Newspaper WordPress Theme

Articoli più recenti

Altri articoli

- Pubblicità -Newspaper WordPress Theme

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.