5.7 C
Rome
domenica, Novembre 24, 2024
- Pubblicità -
Scienze & AmbienteIl nuovo approccio addestra i modelli linguistici di grandi dimensioni due volte...

Il nuovo approccio addestra i modelli linguistici di grandi dimensioni due volte più velocemente

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.


Un team di Stanford ha sviluppato Sophia, un nuovo modo per ottimizzare il pre-addestramento di modelli linguistici di grandi dimensioni che è due volte più veloce rispetto agli approcci attuali.

ChatGPT e altre applicazioni che si basano su modelli linguistici di grandi dimensioni (LLM) stanno guadagnando un uso diffuso e attirano un’abbondante attenzione da parte dei media.

Ma una manciata di grandi aziende tecnologiche ben finanziate domina lo spazio LLM perché la pre-formazione di questi modelli è estremamente costosa, con stime dei costi che partono da $ 10 milioni e potenzialmente raggiungono decine o centinaia di volte tanto.

Un cronometro - foto illustrativa.

Un cronometro – foto illustrativa. Credito immagine: Agê Barros tramite Unsplash, licenza gratuita

“I modelli linguistici di grandi dimensioni non sono molto accessibili alle organizzazioni più piccole o ai gruppi accademici”, afferma Hong Liu, uno studente laureato in informatica presso la Stanford University.

Per cambiare la situazione, Liu ei suoi colleghi hanno deciso di migliorare gli attuali metodi di ottimizzazione LLM. Il risultato: un approccio chiamato Sophia che dimezza il tempo di pre-allenamento.

Ottimizzazione Ottimizzazione

Per ottimizzare al meglio la preformazione LLM, Liu e i suoi colleghi, tra cui il collega postdottorato di Stanford Zhiyuan Li, l’ingegnere di ricerca di Stanford David Hall, professore assistente di informatica Tengyu Mae professore associato Percy Liang, ha usato due trucchi. La prima, nota come stima della curvatura, non è nuova, ma il team di Stanford ha trovato un modo per renderla più efficiente.

Per comprendere il loro approccio, si consideri una catena di montaggio in fabbrica. Per funzionare in modo efficiente, il direttore di fabbrica deve ottimizzare il numero di passaggi per trasformare le materie prime in un prodotto finale e comprendere e dotarsi adeguatamente del carico di lavoro in ogni fase lungo la linea.

Intelligenza artificiale, machine learning, grandi modelli linguistici - interpretazione artistica.

Intelligenza artificiale, machine learning, grandi modelli linguistici – interpretazione artistica. Credito immagine: Gerd Altmann tramite Pixabay, licenza gratuita

Lo stesso vale per la preformazione di un LLM. Questi modelli hanno milioni o addirittura miliardi di parametri che Liu paragona agli operai che si sforzano di raggiungere gli stessi obiettivi. Una proprietà di questi parametri è la loro curvatura, che Liu pensa come la massima velocità raggiungibile che raggiungono mentre procedono verso l’obiettivo finale di un LLM pre-addestrato. Nella metafora della fabbrica, la curvatura è simile al carico di lavoro di un operaio.

Se un programma di ottimizzazione può stimare quella curvatura (carico di lavoro), può rendere più efficiente il pre-addestramento LLM. Il problema è questo: la stima della curvatura con i metodi esistenti è notevolmente difficile e costosa.

“In effetti, è più costoso che svolgere il lavoro effettivo senza fare previsioni sulla curvatura”, afferma Liu. Questo è in parte il motivo per cui gli attuali approcci all’avanguardia per l’ottimizzazione del pretraining LLM (Adam e le sue varianti) rinunciano alla fase di stima della curvatura.

Tuttavia, Liu e i suoi colleghi hanno notato una possibile inefficienza nei metodi precedenti che utilizzavano la stima parametrica della curvatura: i ricercatori precedenti hanno aggiornato le loro stime di curvatura in ogni fase dell’ottimizzazione. Il team di Stanford si è chiesto se fosse possibile rendere il processo più efficiente diminuendo il numero di aggiornamenti.

Per testare questa idea, il team di Stanford ha progettato Sophia per stimare la curvatura dei parametri solo circa ogni 10 passi. “Si è rivelata una grande vittoria”, dice Liu.

Il secondo trucco di ottimizzazione del team, chiamato clipping, risolve un problema correlato: il problema della stima imprecisa della curvatura. “Se la stima è sbagliata, è come dare alle persone con lavori pesanti ancora più lavoro da fare. Rende le cose peggiori che se non ci fosse alcuna stima.

Il ritaglio lo impedisce impostando una soglia o una stima della curvatura massima. “Nella nostra metafora della fabbrica, è come impostare un limite al carico di lavoro per tutti i dipendenti”, afferma Liu.

Un’altra metafora spesso applicata all’ottimizzazione è un paesaggio di colline e valli dove l’obiettivo è quello di finire nella valle più bassa. Senza clipping, dice Liu, è possibile atterrare su una sella tra due montagne. “Nell’ottimizzazione, non è qui che vorresti essere”, afferma.

Logo ChatGPT sullo schermo di uno smartphone.  Il logo OpenAI è visibile sullo sfondo.

Logo ChatGPT sullo schermo di uno smartphone. Il logo OpenAI è visibile sullo sfondo. Credito immagine: Mojahid Mottakin tramite Unsplash, licenza gratuita

Test Sophia e aumento di scala

Liu e i suoi colleghi hanno utilizzato Sophia per preaddestrare un LLM relativamente piccolo utilizzando le stesse dimensioni e configurazione del modello utilizzate per creare GPT-2 di OpenAI.

La combinazione di stima della curvatura e ritaglio di Sophia ha consentito all’ottimizzazione del pretraining LLM di procedere agevolmente verso la valle più bassa in metà del numero di passaggi e metà del tempo richiesto da Adam.

“L’adattabilità di Sophia la distingue da Adam”, dice Liu. “È più difficile per Adam gestire parametri con curvature eterogenee perché non può prevederli in anticipo.”

È anche la prima volta in nove anni che qualcuno ha mostrato miglioramenti sostanziali rispetto ad Adam nella formazione preliminare del modello linguistico, afferma Liu. “Ciò potrebbe significare un’enorme riduzione del costo di addestramento di modelli di grandi dimensioni del mondo reale”. E man mano che i modelli crescono, i vantaggi di Sophia dovrebbero solo aumentare, dice.

Successivamente, Liu ei suoi colleghi sperano di sviluppare un LLM più grande utilizzando Sophia. Spera anche di vedere Sophia applicata ad altre aree dell’apprendimento automatico come modelli di visione artificiale o modelli multimodali. “Ci vorrebbero tempo e risorse per spostare Sophia in un nuovo dominio, ma poiché è open source, la comunità potrebbe certamente farlo”.

Fonte: Università di Stanford



Da un’altra testata giornalistica. news de www.technology.org

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

- Pubblicità -
- Pubblicità -Newspaper WordPress Theme

Contenuti esclusivi

Iscriviti oggi

OTTENERE L'ACCESSO ESCLUSIVO E COMPLETO AI CONTENUTI PREMIUM

SOSTENERE IL GIORNALISMO NON PROFIT

Get unlimited access to our EXCLUSIVE Content and our archive of subscriber stories.

- Pubblicità -Newspaper WordPress Theme

Articoli più recenti

Altri articoli

- Pubblicità -Newspaper WordPress Theme

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.