Diversi modelli di intelligenza artificiale aiutano i robot a eseguire piani complessi in modo più trasparente

La tua lista quotidiana di cose da fare è probabilmente piuttosto semplice: lavare i piatti, fare la spesa e altre minuzie. È improbabile che tu abbia scritto “prendi il primo piatto sporco” o “lava quel piatto con una spugna”, perché ognuno di questi piccoli passaggi all’interno del lavoro sembra intuitivo. Sebbene possiamo normalmente completare ogni passaggio senza pensarci troppo, a robot richiede un piano complesso che prevede schemi più dettagliati.

Credito immagine: MIT CSAIL

L’Improbable AI Lab del MIT, un gruppo all’interno del Computer Science and Artificial Intelligence Laboratory (CSAIL), ha offerto a queste macchine un aiuto con un nuovo framework multimodale: Modelli di base compositivi per la pianificazione gerarchica (HiP), che sviluppa piani dettagliati e realizzabili con l’esperienza di tre diversi modelli di fondazione.

Come GPT-4 di OpenAI, il modello di base su cui sono stati costruiti ChatGPT e Bing Chat, questi modelli di base vengono addestrati su enormi quantità di dati per applicazioni come la generazione di immagini, la traduzione di testo e la robotica.

A differenza di RT2 e di altri modelli multimodali addestrati su dati accoppiati di visione, linguaggio e azione, HiP utilizza tre diversi modelli di base, ciascuno addestrato su diverse modalità di dati. Ciascun modello di base coglie una parte diversa del processo decisionale e poi lavora insieme quando arriva il momento di prendere decisioni. HiP elimina la necessità di accedere a dati accoppiati su visione, linguaggio e azione, che è difficile da ottenere. HiP rende anche il processo di ragionamento più trasparente.

Ciò che è considerato un compito quotidiano per un essere umano può essere un “obiettivo a lungo orizzonte” di un robot – un obiettivo generale che prevede il completamento prima di molti passaggi più piccoli – che richiede dati sufficienti per pianificare, comprendere ed eseguire gli obiettivi.

Sebbene i ricercatori della visione artificiale abbiano tentato di costruire modelli di base monolitici per questo problema, abbinare dati linguistici, visivi e di azione è costoso. HiP rappresenta invece una ricetta diversa e multimodale: un trio che incorpora a buon mercato l’intelligenza linguistica, fisica e ambientale in un robot.

“I modelli di base non devono essere monolitici”, afferma Jim Fan, ricercatore di NVIDIA AI, che non è stato coinvolto nell’articolo. “Questo lavoro scompone il complesso compito della pianificazione dell’agente incarnato in tre modelli costituenti: un ragionatore linguistico, un modello del mondo visivo e un pianificatore di azioni. Rende un difficile problema decisionale più trattabile e trasparente”.

Il team ritiene che il loro sistema potrebbe aiutare queste macchine a svolgere le faccende domestiche, come riporre un libro o mettere una ciotola nella lavastoviglie. Inoltre, HiP potrebbe aiutare con attività di costruzione e produzione in più fasi, come impilare e posizionare materiali diversi in sequenze specifiche.

Valutazione dell’HiP

Il team CSAIL ha testato l’acutezza di HiP su tre attività di manipolazione, superando le prestazioni di strutture comparabili. Il sistema ragiona sviluppando piani intelligenti che si adattano alle nuove informazioni.

Innanzitutto, i ricercatori hanno chiesto di impilare blocchi di colore diverso uno sull’altro e poi di posizionarne altri nelle vicinanze. Il problema: alcuni dei colori corretti non erano presenti, quindi il robot ha dovuto posizionare i blocchi bianchi in una ciotola colorata per dipingerli.

HiP spesso si adattava a questi cambiamenti in modo accurato, soprattutto rispetto ai sistemi di pianificazione delle attività all’avanguardia come Transformer BC e Action Diffuser, adattando i suoi piani per impilare e posizionare ogni quadrato secondo necessità.

Un altro test: disporre oggetti come caramelle e un martello in una scatola marrone ignorando gli altri oggetti. Alcuni degli oggetti che doveva spostare erano sporchi, quindi HiP ha modificato i suoi piani per metterli in una scatola per la pulizia e poi nel contenitore marrone.

In una terza dimostrazione, il bot è stato in grado di ignorare gli oggetti non necessari per completare gli obiettivi secondari della cucina, come aprire un forno a microonde, togliere di mezzo un bollitore e accendere una luce. Alcuni dei passaggi richiesti erano già stati completati, quindi il robot si è adattato saltando quelle indicazioni.

Una gerarchia tripartita

Il processo di pianificazione su tre fronti di HiP funziona come una gerarchia, con la capacità di pre-addestrare ciascuno dei suoi componenti su diversi set di dati, comprese le informazioni al di fuori della robotica. Alla base di quell’ordine c’è un modello linguistico di grandi dimensioni (LLM), che inizia a ideare catturando tutte le informazioni simboliche necessarie e sviluppando un piano di attività astratto.

Applicando la conoscenza del buon senso trovata su Internet, il modello suddivide il suo obiettivo in sotto-obiettivi. Ad esempio, “preparare una tazza di tè” si trasforma in “riempire una pentola con acqua”, “bollire la pentola” e le azioni successive richieste.

“Tutto quello che vogliamo fare è prendere i modelli pre-addestrati esistenti e farli interfacciare con successo tra loro”, afferma Anurag Ajay, uno studente di dottorato presso il Dipartimento di ingegneria elettrica e informatica (EECS) del MIT e affiliato CSAIL. “Invece di spingere affinché un modello faccia tutto, ne combiniamo più che sfruttano diverse modalità di dati Internet. Se utilizzati in tandem, aiutano nel processo decisionale robotico e possono potenzialmente aiutare nelle attività nelle case, nelle fabbriche e nei cantieri edili”.

Questi modelli necessitano anche di una qualche forma di “occhi” per comprendere l’ambiente in cui operano ed eseguire correttamente ciascun sotto-obiettivo. Il team ha utilizzato un modello di diffusione video di grandi dimensioni per aumentare la pianificazione iniziale completata dal LLM, che raccoglie informazioni geometriche e fisiche sul mondo da filmati su Internet.

A sua volta, il modello video genera un piano di traiettoria di osservazione, perfezionando il profilo del LLM per incorporare nuove conoscenze fisiche.

Questo processo, noto come perfezionamento iterativo, consente a HiP di ragionare sulle proprie idee, ricevendo feedback in ogni fase per generare uno schema più pratico. Il flusso di feedback è simile alla scrittura di un articolo, in cui un autore può inviare la propria bozza a un editore e, con le revisioni incorporate, l’editore esamina eventuali ultime modifiche e finalizza.

In questo caso, il vertice della gerarchia è un modello di azione egocentrico, ovvero una sequenza di immagini in prima persona che deducono quali azioni dovrebbero aver luogo in base all’ambiente circostante.

Durante questa fase, il piano di osservazione del modello video viene mappato sullo spazio visibile al robot, aiutando la macchina a decidere come eseguire ciascuna attività entro l’obiettivo a lungo orizzonte. Se un robot utilizza HiP per preparare il tè, significa che avrà mappato esattamente dove si trovano la pentola, il lavandino e altri elementi visivi chiave e inizierà a completare ogni sotto-obiettivo.

Tuttavia, il lavoro multimodale è limitato dalla mancanza di modelli di base video di alta qualità. Una volta disponibili, potrebbero interfacciarsi con i modelli video su piccola scala di HiP per migliorare ulteriormente la previsione della sequenza visiva e la generazione di azioni del robot. Una versione di qualità superiore ridurrebbe anche l’attuale fabbisogno di dati dei modelli video.

Detto questo, l’approccio del team CSAIL ha utilizzato nel complesso solo una piccola quantità di dati. Inoltre, l’addestramento di HiP era economico e ha dimostrato il potenziale dell’utilizzo di modelli di base facilmente disponibili per completare compiti a lungo orizzonte.

“Ciò che Anurag ha dimostrato è una prova di concetto di come possiamo prendere modelli addestrati su compiti e modalità di dati separati e combinarli in modelli per la pianificazione robotica. In futuro, HiP potrebbe essere potenziato con modelli pre-addestrati in grado di elaborare il tocco e il suono per fare piani migliori”, afferma l’autore senior Pulkit Agrawal, assistente professore del MIT in EECS e direttore dell’Improbable AI Lab. Il gruppo sta anche valutando l’applicazione dell’HiP per risolvere compiti a lungo orizzonte nel mondo reale nel campo della robotica.

Scritto da Alex Shipps

Fonte: Istituto di Tecnologia del Massachussetts

Da un’altra testata giornalistica. news de www.technology.org

Diversi modelli di intelligenza artificiale aiutano i robot a eseguire piani complessi in modo più trasparente

Valutazione dell’HiP

Una gerarchia tripartita

LASCIA UN COMMENTO Cancella la risposta

Contenuti esclusivi

Rendere l’Europa più sicura: Europol lancia il concorso fotografico per le forze dell’ordine 2025

Il capo dei diritti delle Nazioni Unite richiede una sondaggio su omicidi di operatori medici

Gaza: il capo dei diritti delle Nazioni Unite richiede una sondaggio su omicidi di operatori medici

Articoli più recenti

Populari

Rendere l’Europa più sicura: Europol lancia il concorso fotografico per le forze dell’ordine 2025

Il capo dei diritti delle Nazioni Unite richiede una sondaggio su omicidi di operatori medici

Gaza: il capo dei diritti delle Nazioni Unite richiede una sondaggio su omicidi di operatori medici

Altri articoli

Di piu

25 anni di riconoscimento di Scientology in Svezia, una storia di resilienza e impatto

Sii giovane e musulmano a Bruxelles – tra tradizioni e modernità

Vivi la tua fede a Bruxelles – La vita quotidiana dei musulmani nella capitale belga

Vacanze e tradizioni – In che modo i musulmani celebrano il Ramadan ed Eid a Bruxelles?