Aiutare la visione artificiale e i modelli linguistici a comprendere ciò che vedono

I ricercatori utilizzano dati sintetici per migliorare la capacità dei modelli di cogliere informazioni concettuali, il che potrebbe migliorare i sistemi di didascalia automatica e di risposta alle domande.

Potente algoritmi di apprendimento automatico noti come modelli di visione e linguaggio, che imparano ad abbinare il testo alle immagini, hanno mostrato risultati notevoli quando è stato chiesto loro di generare didascalie o riassumere video.

I ricercatori del MIT hanno creato un nuovo set di dati sintetici annotati di immagini che descrivono un’ampia gamma di scenari, che possono aiutare i modelli di apprendimento automatico a comprendere i concetti in una scena. Nella foto è raffigurata una scena dal set di dati sintetico e la descrizione testuale dettagliata dice: “Questa scena contiene una scatola e un essere umano. Sono in rovina di un castello con vecchie pietre. La scatola è a sinistra dell’umano. La scatola è di fronte all’umano. L’umano ruota il salto. L’umano è maschio. L’umano indossa una maglietta nera e jeans blu scuro”. Illustrazione dei ricercatori/MIT

Sebbene questi modelli eccellano nell’identificazione degli oggetti, spesso hanno difficoltà a comprendere concetti, come gli attributi degli oggetti o la disposizione degli elementi in una scena. Ad esempio, un modello visivo e linguistico potrebbe riconoscere la tazza e il tavolo in un’immagine, ma non riuscire a cogliere che la tazza è appoggiata sul tavolo.

Ricercatori del MIT, del MIT-IBM Watson AI Lab e di altri centri hanno dimostrato una nuova tecnica che utilizza dati generati dal computer per aiutare i modelli visivi e linguistici a superare questa lacuna.

I ricercatori hanno creato un set di dati sintetico di immagini che descrivono un’ampia gamma di scenari, disposizioni di oggetti e azioni umane, insieme a descrizioni testuali dettagliate. Hanno utilizzato questo set di dati annotato per “correggere” modelli visivi e linguistici in modo da poter apprendere i concetti in modo più efficace. La loro tecnica garantisce che questi modelli possano comunque fare previsioni accurate quando vedono immagini reali.

AI, robot – interpretazione artistica. Credito immagine: Kenny Eliason tramite Unsplash, licenza gratuita

Quando hanno testato i modelli sulla comprensione dei concetti, i ricercatori hanno scoperto che la loro tecnica aumentava la precisione fino al 10%. Ciò potrebbe migliorare i sistemi che didascalia automatica dei video o migliorare i modelli che forniscono risposte in linguaggio naturale a domande sulle immagini, con applicazioni in campi come l’e-commerce o l’assistenza sanitaria.

“Con questo lavoro andiamo oltre i sostantivi, nel senso che andiamo oltre i semplici nomi degli oggetti verso qualcosa di più del concetto semantico di un oggetto e di tutto ciò che lo circonda. La nostra idea era che, quando un modello di apprendimento automatico vede gli oggetti in molte disposizioni diverse, avrà un’idea migliore di come la disposizione conta in una scena”, afferma Khaled Shehada, uno studente laureato presso il Dipartimento di Ingegneria Elettrica e Informatica e coautore di a carta su questa tecnica.

Shehada ha scritto l’articolo con l’autrice principale Paola Cascante-Bonilla, una studentessa laureata in informatica alla Rice University; Aude Oliva, direttrice dell’impegno strategico del settore presso il MIT Schwarzman College of Computing, direttrice del MIT-IBM Watson AI Lab e ricercatrice senior presso il Computer Science and Artificial Intelligence Laboratory (CSAIL); l’autore senior Leonid Karlinsky, membro dello staff di ricerca del MIT-IBM Watson AI Lab; e altri al MIT, al MIT-IBM Watson AI Lab, alla Georgia Tech, alla Rice University, all’École des Ponts, al Weizmann Institute of Science e all’IBM Research.

Il documento sarà presentato alla Conferenza Internazionale sulla Visione Artificiale.

Visione artificiale – interpretazione artistica. Credito immagine: Merry Steward tramite pixy.org, CC0 Public Domain

Concentrarsi sugli oggetti

I modelli visivi e linguistici in genere imparano a identificare gli oggetti in una scena e possono finire per ignorare gli attributi degli oggetti, come il colore e le dimensioni, o le relazioni posizionali, come quale oggetto si trova sopra un altro oggetto.

Ciò è dovuto al metodo con cui questi modelli vengono spesso addestrati, noto come apprendimento contrastivo. Questo metodo di training prevede di forzare un modello a prevedere la corrispondenza tra immagini e testo. Quando si confrontano immagini naturali, gli oggetti in ciascuna scena tendono a causare le differenze più sorprendenti. (Forse un’immagine mostra un cavallo in un campo mentre la seconda mostra una barca a vela sull’acqua.)

“Ogni immagine potrebbe essere definita in modo univoco dagli oggetti nell’immagine. Quindi, quando esegui l’apprendimento contrastivo, concentrarti solo sui nomi e sugli oggetti risolverebbe il problema. Perché il modello dovrebbe fare qualcosa di diverso?” dice Karlinsky.

I ricercatori hanno cercato di mitigare questo problema utilizzando dati sintetici per mettere a punto un modello di visione e linguaggio. Il processo di messa a punto prevede la modifica di un modello che è già stato addestrato per migliorare le sue prestazioni su un compito specifico.

Hanno utilizzato un computer per creare automaticamente video sintetici con diversi ambienti e oggetti 3D, come mobili e valigie, e hanno aggiunto avatar umani che interagivano con gli oggetti.

Utilizzando singoli fotogrammi di questi video, hanno generato quasi 800.000 immagini fotorealistiche e poi hanno abbinato a ciascuna una didascalia dettagliata. I ricercatori hanno sviluppato una metodologia per annotare ogni aspetto dell’immagine per catturare gli attributi degli oggetti, le relazioni di posizione e le interazioni uomo-oggetto in modo chiaro e coerente in didascalie dense.

Poiché i ricercatori hanno creato le immagini, hanno potuto controllare l’aspetto e la posizione degli oggetti, nonché il genere, l’abbigliamento, le pose e le azioni degli avatar umani.

“I dati sintetici consentono molta diversità. Con le immagini reali, potresti non avere molti elefanti in una stanza, ma con i dati sintetici potresti effettivamente avere un elefante rosa in una stanza con un essere umano, se lo desideri”, afferma Cascante-Bonilla.

I dati sintetici presentano anche altri vantaggi. Sono più economici da generare rispetto ai dati reali, ma le immagini sono altamente fotorealistiche. Inoltre preservano la privacy perché nelle immagini non vengono mostrati esseri umani reali. Inoltre, poiché i dati vengono prodotti automaticamente da un computer, possono essere generati rapidamente in grandi quantità.

Utilizzando diversi punti di vista della telecamera o modificando leggermente le posizioni o gli attributi degli oggetti, i ricercatori hanno creato un set di dati con una varietà di scenari molto più ampia di quella che si troverebbe in un set di dati naturale.

Ottimizza, ma non dimenticare

Tuttavia, quando si mette a punto un modello con dati sintetici, c’è il rischio che il modello possa “dimenticare” ciò che ha appreso quando è stato originariamente addestrato con dati reali.

I ricercatori hanno utilizzato alcune tecniche per prevenire questo problema, come la regolazione dei dati sintetici in modo che i colori, l’illuminazione e le ombre corrispondano più fedelmente a quelli presenti nelle immagini naturali. Hanno anche apportato modifiche al funzionamento interno del modello dopo la messa a punto per ridurre ulteriormente eventuali dimenticanze.

Il loro set di dati sintetici e la strategia di perfezionamento hanno migliorato la capacità dei modelli visivi e linguistici più diffusi di riconoscere i concetti con una precisione fino al 10%. Allo stesso tempo, i modelli non hanno dimenticato ciò che avevano già imparato.

Ora che hanno dimostrato come i dati sintetici possono essere utilizzati per risolvere questo problema, i ricercatori vogliono identificare modi per migliorare la qualità visiva e la diversità di questi dati e la fisica sottostante che rende le scene sintetiche realistiche. Inoltre, intendono testare i limiti della scalabilità e indagare se il miglioramento del modello inizia a stabilizzarsi con set di dati sintetici più ampi e diversificati.

Scritto da Adam Zewe

Fonte: Istituto di Tecnologia del Massachussetts

Da un’altra testata giornalistica. news de www.technology.org

Aiutare la visione artificiale e i modelli linguistici a comprendere ciò che vedono

I ricercatori utilizzano dati sintetici per migliorare la capacità dei modelli di cogliere informazioni concettuali, il che potrebbe migliorare i sistemi di didascalia automatica e di risposta alle domande.

Concentrarsi sugli oggetti

Ottimizza, ma non dimenticare

LASCIA UN COMMENTO Cancella la risposta

Contenuti esclusivi

“Gli attacchi agli operatori dell’utenzione devono finire”, ha detto il Consiglio di sicurezza

Il riscaldamento dell’oceano meridionale significherà una costa occidentale più bagnata, gli Stati Uniti

Il mondo è “fallito” persone con disabilità: vice capo delle Nazioni Unite

Articoli più recenti

Populari

“Gli attacchi agli operatori dell’utenzione devono finire”, ha detto il Consiglio di sicurezza

Il riscaldamento dell’oceano meridionale significherà una costa occidentale più bagnata, gli Stati Uniti

Il mondo è “fallito” persone con disabilità: vice capo delle Nazioni Unite

Altri articoli

Di piu

25 anni di riconoscimento di Scientology in Svezia, una storia di resilienza e impatto

Sii giovane e musulmano a Bruxelles – tra tradizioni e modernità

Vivi la tua fede a Bruxelles – La vita quotidiana dei musulmani nella capitale belga

Vacanze e tradizioni – In che modo i musulmani celebrano il Ramadan ed Eid a Bruxelles?