Immagina di scorrere le foto sul tuo telefono e di imbatterti in un’immagine che all’inizio non puoi riconoscere. Sembra che ci sia qualcosa di confuso sul divano; potrebbe essere un cuscino o un cappotto? Dopo un paio di secondi, scatta: ovviamente! Quella palla di lanugine è il gatto del tuo amico, Mocha. Sebbene alcune delle tue foto siano comprensibili all’istante, perché questa foto di gatto è stata molto più difficile?
I ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) sono rimasti sorpresi nello scoprire che, nonostante l’importanza fondamentale della comprensione dei dati visivi in aree cruciali che vanno dall’assistenza sanitaria ai trasporti fino ai dispositivi domestici, il concetto di difficoltà di riconoscimento di un’immagine per gli esseri umani è stato quasi interamente ignorato. ignorato. Uno dei principali motori del progresso nell’intelligenza artificiale basata sul deep learning sono stati i set di dati, ma sappiamo poco su come i dati guidano il progresso nel deep learning su larga scala oltre al fatto che “più grande è meglio”.
Nelle applicazioni del mondo reale che richiedono la comprensione dei dati visivi, gli esseri umani hanno prestazioni migliori modelli di riconoscimento degli oggetti nonostante il fatto che i modelli funzionino bene sui set di dati attuali, compresi quelli esplicitamente progettati per sfidare le macchine con immagini distorte o cambiamenti di distribuzione. Questo problema persiste, in parte, perché non abbiamo indicazioni sulla difficoltà assoluta di un’immagine o di un set di dati. Senza controllare la difficoltà delle immagini utilizzate per la valutazione, è difficile valutare oggettivamente i progressi verso prestazioni a livello umano, coprire la gamma delle capacità umane e aumentare la sfida posta da un set di dati.
Per colmare questa lacuna di conoscenza, David Mayo, uno studente di dottorato in ingegneria elettrica e informatica del MIT e affiliato CSAIL, ha approfondito il mondo profondo dei set di dati di immagini, esplorando il motivo per cui alcune immagini sono più difficili da riconoscere per gli esseri umani e le macchine rispetto ad altre. “Alcune immagini richiedono intrinsecamente più tempo per essere riconosciute ed è essenziale comprendere l’attività del cervello durante questo processo e la sua relazione con i modelli di apprendimento automatico. Forse nei nostri modelli attuali mancano circuiti neurali complessi o meccanismi unici, visibili solo se testati con stimoli visivi stimolanti. Questa esplorazione è fondamentale per comprendere e migliorare i modelli di visione artificiale”, afferma Mayo, autore principale di un nuovo studio carta sul lavoro.
Ciò ha portato allo sviluppo di una nuova metrica, il “tempo minimo di visione” (MVT), che quantifica la difficoltà di riconoscere un’immagine in base al tempo necessario a una persona per visualizzarla prima di effettuare una corretta identificazione. Utilizzando un sottoinsieme di ImageNet, un set di dati popolare nell’apprendimento automatico, e ObjectNet, un set di dati progettato per testare la robustezza del riconoscimento degli oggetti, il team ha mostrato immagini ai partecipanti per durate variabili da un minimo di 17 millisecondi a un massimo di 10 secondi, e ha chiesto loro per scegliere l’oggetto corretto da una serie di 50 opzioni. Dopo oltre 200.000 prove di presentazione di immagini, il team ha scoperto che i set di test esistenti, incluso ObjectNet, apparivano sbilanciati verso immagini MVT più semplici e più brevi, con la stragrande maggioranza delle prestazioni di riferimento derivate da immagini facili per gli esseri umani.
Il progetto ha identificato tendenze interessanti nelle prestazioni del modello, in particolare in relazione al ridimensionamento. I modelli più grandi hanno mostrato notevoli miglioramenti sulle immagini più semplici, ma hanno fatto meno progressi sulle immagini più impegnative. I modelli CLIP, che incorporano sia il linguaggio che la visione, si sono distinti mentre si muovevano nella direzione di un riconoscimento più simile a quello umano.
“Tradizionalmente, i set di dati per il riconoscimento degli oggetti sono stati sbilanciati verso immagini meno complesse, una pratica che ha portato a un’inflazione dei parametri prestazionali del modello, che non riflette realmente la robustezza di un modello o la sua capacità di affrontare compiti visivi complessi. La nostra ricerca rivela che le immagini più dure rappresentano una sfida più grave, causando uno spostamento della distribuzione che spesso non viene preso in considerazione nelle valutazioni standard”, afferma Mayo. “Abbiamo rilasciato set di immagini contrassegnati in base alla difficoltà insieme a strumenti per calcolare automaticamente MVT, consentendo di aggiungere MVT ai benchmark esistenti ed estenderlo a varie applicazioni. Questi includono la misurazione della difficoltà dei set di test prima di implementare sistemi nel mondo reale, la scoperta dei correlati neurali della difficoltà dell’immagine e il progresso delle tecniche di riconoscimento degli oggetti per colmare il divario tra benchmark e prestazioni nel mondo reale”.
“Uno dei miei insegnamenti più importanti è che ora abbiamo un’altra dimensione su cui valutare i modelli. Vogliamo modelli in grado di riconoscere qualsiasi immagine anche se – forse soprattutto se – è difficile da riconoscere per un essere umano. Siamo i primi a quantificare cosa ciò significherebbe. I nostri risultati mostrano che non solo questo non è il caso con lo stato dell’arte odierno, ma anche che i nostri attuali metodi di valutazione non hanno la capacità di dirci quando è il caso perché i set di dati standard sono così sbilanciati verso immagini facili”, dice Jesse Cummings, uno studente laureato del MIT in ingegneria elettrica e informatica e co-autore insieme a Mayo dell’articolo.
Da ObjectNet a MVT
Alcuni anni fa, il team dietro questo progetto ha identificato una sfida significativa nel campo dell’apprendimento automatico: i modelli avevano difficoltà con immagini fuori distribuzione o immagini che non erano ben rappresentate nei dati di addestramento. Inserisci ObjectNet, un set di dati composto da immagini raccolte da impostazioni di vita reale. Il set di dati ha contribuito a chiarire il divario prestazionale tra i modelli di apprendimento automatico e le capacità di riconoscimento umano, eliminando le correlazioni spurie presenti in altri benchmark, ad esempio tra un oggetto e il suo sfondo. ObjectNet ha illuminato il divario tra le prestazioni dei modelli di visione artificiale sui set di dati e nelle applicazioni del mondo reale, incoraggiandone l’uso da parte di molti ricercatori e sviluppatori, il che ha successivamente migliorato le prestazioni del modello.
Avanti veloce fino al presente e il team ha fatto un ulteriore passo avanti nella ricerca con MVT. A differenza dei metodi tradizionali che si concentrano sulle prestazioni assolute, questo nuovo approccio valuta le prestazioni dei modelli confrontando le loro risposte alle immagini più facili e a quelle più difficili. Lo studio ha esplorato ulteriormente come spiegare la difficoltà dell’immagine e testare la somiglianza con l’elaborazione visiva umana. Utilizzando parametri come punteggio c, profondità di previsione e robustezza degli avversari, il team ha scoperto che le immagini più difficili vengono elaborate in modo diverso dalle reti. “Sebbene esistano tendenze osservabili, come ad esempio le immagini più semplici che diventano più prototipiche, una spiegazione semantica completa della difficoltà delle immagini continua a sfuggire alla comunità scientifica”, afferma Mayo.
Nel campo dell’assistenza sanitaria, ad esempio, l’importanza di comprendere la complessità visiva diventa ancora più pronunciata. La capacità dei modelli di intelligenza artificiale di interpretare immagini mediche, come i raggi X, è soggetta alla diversità e alla difficoltà di distribuzione delle immagini. I ricercatori sostengono un’analisi meticolosa della distribuzione delle difficoltà su misura per i professionisti, garantendo che i sistemi di intelligenza artificiale siano valutati sulla base di standard di esperti, piuttosto che di interpretazioni di profani.
Mayo e Cummings stanno attualmente esaminando anche le basi neurologiche del riconoscimento visivo, indagando se il cervello mostra un’attività differenziale quando elabora immagini facili o impegnative. Lo studio mira a svelare se le immagini complesse reclutano ulteriori aree cerebrali non tipicamente associate all’elaborazione visiva, nella speranza di aiutare a demistificare il modo in cui il nostro cervello decodifica in modo accurato ed efficiente il mondo visivo.
Verso prestazioni a livello umano
Guardando al futuro, i ricercatori non si concentrano solo sull’esplorazione di modi per migliorare le capacità predittive dell’intelligenza artificiale per quanto riguarda la difficoltà delle immagini. Il team sta lavorando per identificare le correlazioni con la difficoltà del tempo di visione al fine di generare versioni più difficili o più facili delle immagini.
Nonostante i progressi significativi dello studio, i ricercatori riconoscono i limiti, in particolare in termini di separazione del riconoscimento degli oggetti dai compiti di ricerca visiva. La metodologia attuale si concentra sul riconoscimento degli oggetti, tralasciando le complessità introdotte da immagini disordinate.
“Questo approccio globale affronta la sfida di lunga data di valutare oggettivamente i progressi verso le prestazioni a livello umano nel riconoscimento degli oggetti e apre nuove strade per comprendere e far avanzare il campo”, afferma Mayo. “Con la possibilità di adattare la metrica della difficoltà del tempo minimo di visione per una varietà di compiti visivi, questo lavoro apre la strada a prestazioni più robuste e simili a quelle umane nel riconoscimento degli oggetti, garantendo che i modelli siano veramente messi alla prova e siano pronti per il complessità della comprensione visiva del mondo reale”.
“Si tratta di uno studio affascinante su come la percezione umana può essere utilizzata per identificare i punti deboli nel modo in cui i modelli di visione dell’intelligenza artificiale vengono generalmente valutati, che sovrastimano le prestazioni dell’intelligenza artificiale concentrandosi su immagini facili”, afferma Alan L. Yuille, professore di scienze cognitive e professore di scienze cognitive a Bloomberg. Informatica presso la Johns Hopkins University, che non è stata coinvolta nell’articolo. “Ciò aiuterà a sviluppare parametri di riferimento più realistici che porteranno non solo a miglioramenti nell’intelligenza artificiale, ma anche a fare confronti più equi tra l’intelligenza artificiale e la percezione umana”.
“È opinione diffusa che i sistemi di visione artificiale ora superino gli esseri umani e, su alcuni set di dati di riferimento, è vero”, afferma Simon Kornblith PhD ’17, membro dello staff tecnico di Anthropic, anch’egli non coinvolto in questo lavoro. “Tuttavia, gran parte della difficoltà in questi benchmark deriva dall’oscurità di ciò che c’è nelle immagini; la persona media semplicemente non ne sa abbastanza per classificare le diverse razze di cani. Questo lavoro si concentra invece su immagini che le persone possono ottenere correttamente solo se gli viene concesso abbastanza tempo. Queste immagini sono generalmente molto più difficili per i sistemi di visione artificiale, ma i sistemi migliori sono solo leggermente peggiori di quelli umani”.
Scritto da Rachele Gordon
Da un’altra testata giornalistica. news de www.technology.org