Nel 2012, il migliore i modelli linguistici erano piccole reti ricorrenti che faticavano a formare frasi coerenti. Avanti veloce fino ad oggi e modelli linguistici di grandi dimensioni come GPT-4 superano la maggior parte degli studenti del SAT. Come è stato possibile questo rapido progresso?
In un nuova carta, i ricercatori di Epoch, MIT FutureTech e Northeastern University hanno deciso di far luce su questa domanda. La loro ricerca suddivide i fattori trainanti del progresso nei modelli linguistici in due fattori: l’aumento della quantità di calcolo utilizzato per addestrare i modelli linguistici e le innovazioni algoritmiche. In tal modo, eseguono l’analisi più ampia fino ad oggi del progresso algoritmico nei modelli linguistici.
I loro risultati mostrano che, a causa dei miglioramenti algoritmici, il calcolo necessario per addestrare un modello linguistico a un certo livello di prestazioni si è dimezzato all’incirca ogni 8 mesi. “Questo risultato è fondamentale per comprendere i progressi storici e futuri nei modelli linguistici”, afferma Anson Ho, uno dei due autori principali dell’articolo. “Sebbene la scalabilità dell’elaborazione sia stata cruciale, è solo una parte del puzzle. Per avere un quadro completo è necessario considerare anche il progresso algoritmico”.
La metodologia dell’articolo si ispira alle “leggi di scala neurale”: relazioni matematiche che prevedono le prestazioni del modello linguistico date determinate quantità di calcoli, dati di addestramento o parametri del modello linguistico. Compilando un set di dati di oltre 200 modelli linguistici a partire dal 2012, gli autori hanno adattato una legge di ridimensionamento neurale modificata che tiene conto dei miglioramenti algoritmici nel tempo.
Sulla base di questo modello adattato, gli autori eseguono un’analisi di attribuzione delle prestazioni, scoprendo che la scalabilità del calcolo è stata più importante delle innovazioni algoritmiche per migliorare le prestazioni nella modellazione del linguaggio. In effetti, scoprono che l’importanza relativa dei miglioramenti algoritmici è diminuita nel tempo. “Ciò non implica necessariamente che le innovazioni algoritmiche abbiano subito un rallentamento”, afferma Tamay Besiroglu, che ha anche co-diretto lo studio.
“La nostra spiegazione preferita è che il progresso algoritmico è rimasto a un ritmo più o meno costante, ma il calcolo è stato notevolmente ampliato, facendo sembrare il primo relativamente meno importante.” I calcoli degli autori supportano questo quadro, dove trovano un’accelerazione nella crescita del calcolo, ma nessuna prova di un’accelerazione o di un rallentamento nei miglioramenti algoritmici.
Modificando leggermente il modello, hanno anche quantificato il significato di un’innovazione chiave nella storia dell’apprendimento automatico: il Transformer, che è diventato l’architettura del modello linguistico dominante sin dalla sua introduzione nel 2017. Gli autori scoprono che i guadagni di efficienza offerti dal Transformer corrispondono a quasi due anni di progresso algoritmico nel campo, sottolineando l’importanza della sua invenzione.
Sebbene ampio, lo studio presenta diverse limitazioni. “Un problema ricorrente che abbiamo riscontrato è stata la mancanza di dati di qualità, che può rendere difficile l’adattamento del modello”, afferma Ho. “Il nostro approccio inoltre non misura il progresso algoritmico su attività a valle come la codifica e i problemi di matematica, per cui i modelli linguistici possono essere ottimizzati.”
Nonostante queste carenze, il loro lavoro rappresenta un importante passo avanti nella comprensione dei fattori trainanti del progresso nel campo dell’intelligenza artificiale. I loro risultati aiutano a far luce su come potrebbero svolgersi gli sviluppi futuri dell’intelligenza artificiale, con importanti implicazioni per la politica sull’intelligenza artificiale. “Questo lavoro, condotto da Anson e Tamay, ha importanti implicazioni per la democratizzazione dell’intelligenza artificiale”, ha affermato Neil Thompson, coautore e direttore del MIT FutureTech. “Questi miglioramenti in termini di efficienza significano che ogni anno livelli di prestazioni dell’IA che erano fuori portata diventano accessibili a più utenti”.
“I LLM sono migliorati a un ritmo vertiginoso negli ultimi anni. Questo articolo presenta l’analisi più approfondita fino ad oggi dei contributi relativi delle innovazioni hardware e algoritmiche al progresso delle prestazioni LLM”, afferma Lukas Finnveden, ricercatore di Open Philanthropy, che non è stato coinvolto nell’articolo.
“Questa è una questione a cui tengo moltissimo, poiché informa direttamente sul ritmo di ulteriori progressi che dovremmo aspettarci in futuro, il che aiuterà la società a prepararsi per questi progressi. Gli autori adattano una serie di modelli statistici a un ampio set di dati di valutazioni LLM storiche e utilizzano un’ampia convalida incrociata per selezionare un modello con forti prestazioni predittive. Forniscono inoltre un’idea chiara di come i risultati varierebbero in base a diverse ipotesi ragionevoli, eseguendo numerosi controlli di robustezza. Nel complesso, i risultati suggeriscono che gli aumenti nell’elaborazione sono stati e continueranno a essere responsabili della maggior parte dei progressi nell’LLM finché i budget di elaborazione continueranno ad aumentare di ≥ 4 volte all’anno. Tuttavia, il progresso algoritmico è significativo e potrebbe costituire la maggior parte dei progressi se il ritmo dell’aumento degli investimenti rallentasse”.
Scritto da Rachele Gordon
Da un’altra testata giornalistica. news de www.technology.org