1.3 C
Rome
giovedì, Novembre 28, 2024
- Pubblicità -
Scienze & AmbienteI ricercatori rendono i modelli linguistici autodidatti scalabili

I ricercatori rendono i modelli linguistici autodidatti scalabili

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.


Socrate una volta disse: “Non è la dimensione di una cosa, ma la qualità che conta veramente. Perché è come la sostanza, non il suo volume, che si trova il vero valore.

Dillo alla grande modelli linguistici.

Intelligenza artificiale, machine learning, grandi modelli linguistici - interpretazione artistica.

Intelligenza artificiale, machine learning, grandi modelli linguistici – interpretazione artistica. Credito immagine: Gerd Altmann tramite Pixabay, licenza gratuita

Ma le dimensioni contano sempre? Questa è una domanda stimolante. In un panorama tecnologico abbagliato da grandi modelli linguistici al centro dell’attenzione, i ricercatori del MIT CSAIL ritengono che i modelli più piccoli non debbano essere trascurati, soprattutto per i prodotti in linguaggio naturale ampiamente diffusi nel settore.

A tal fine, hanno escogitato un approccio ai problemi di lunga data di inefficienza e privacy associati a grandi modelli di intelligenza artificiale basati su testo.

Un modello con riconoscimento della logica che supera le controparti 500 volte più grandi in alcune attività di comprensione del linguaggio senza annotazioni generate dall’uomo, preservando la privacy e la robustezza con prestazioni elevate.

I modelli di linguaggio di grandi dimensioni, che hanno mostrato alcune capacità promettenti nella generazione di linguaggio, arte e codice, sono computazionalmente costosi e i loro requisiti di dati possono rischiare perdite di privacy quando si utilizzano le API per il caricamento dei dati.

I modelli più piccoli sono stati storicamente meno capaci, in particolare nelle attività multitasking e con una supervisione debole rispetto alle loro controparti più grandi.

"Ciao" parola in sfondo nero - foto illustrativa.

Parola “Ciao” su sfondo nero – foto illustrativa. Credito immagine: Drew Beamer tramite Unsplash, licenza gratuita

Il potere dei piccoli modelli linguistici

Quindi cosa aiuta questi modelli più piccoli ad agire in modo così potente allora? Qualcosa chiamato “implicazione testuale”, un modo per aiutare questi modelli a comprendere una varietà di compiti linguistici, dove se una frase (la premessa) è vera, è probabile che anche l’altra frase (l’ipotesi) sia vera.

Ad esempio, se la premessa è “tutti i gatti hanno la coda”, allora l’ipotesi “un gatto soriano ha la coda” sarebbe implicata dalla premessa.

Questo concetto viene utilizzato per addestrare un “modello di coinvolgimento” che si è rivelato meno distorto rispetto ad altri modelli linguistici, dalla precedente ricerca del team. Hanno quindi creato dei “suggerimenti” che i modelli possono utilizzare per determinare se una determinata frase o frase comporta determinate informazioni in base a diversi compiti.

Questo metodo, noto come adattamento a colpo zero, ha migliorato la capacità del modello di adattarsi a diversi compiti senza ulteriore formazione.

Nel regno di “Linguaggio naturale Comprensione”, varie applicazioni si basano sulla determinazione della relazione tra due parti di testo. Ad esempio, nella classificazione dei sentimenti, un’affermazione come “Penso che il film sia buono” può essere dedotta da una recensione di un film che dice “Mi piace la storia e la recitazione è fantastica”, indicando un sentimento positivo.

Codifica di un chatbot - foto illustrativa.

Codifica di un chatbot – foto illustrativa. Credito immagine: James Harrison tramite Unsplash, licenza gratuita

Un altro è la classificazione delle notizie, in cui l’argomento di un articolo di notizie può essere dedotto dal suo contenuto. Ad esempio, un’affermazione come “L’articolo di notizie riguarda lo sport” può essere implicita in un articolo se il contenuto principale dell’articolo riporta una partita NBA.

L’intuizione chiave era che molti compiti di comprensione del linguaggio naturale esistenti potevano essere riformulati come un compito di implicazione (cioè, inferenza logica nel linguaggio naturale).

“La nostra ricerca riguarda il miglioramento della capacità dei programmi per computer di comprendere ed elaborare il linguaggio naturale, il modo in cui gli esseri umani parlano e scrivono. I nostri modelli di implicazione da 350 milioni di parametri autoaddestrati, senza etichette generate dall’uomo, superano i modelli linguistici supervisionati con parametri da 137 a 175 miliardi”, afferma Hongyin Luo, associato postdottorato al MIT CSAIL, autore principale.

“Questo ha il potenziale per rimodellare il panorama dell’intelligenza artificiale e dell’apprendimento automatico, fornendo una soluzione più scalabile, affidabile ed economica per la modellazione del linguaggio”, afferma Luo. “Dimostrando che i modelli più piccoli possono funzionare allo stesso livello di quelli più grandi per la comprensione del linguaggio, questo lavoro apre la strada a tecnologie di IA più sostenibili e che tutelino la privacy”.

Il team ha scoperto di poter migliorare ulteriormente le prestazioni del modello utilizzando una tecnica chiamata “autoapprendimento”, in cui il modello utilizza le proprie previsioni per autoinsegnarsi, apprendendo efficacemente senza supervisione umana e ulteriori dati di addestramento annotati.

Il metodo di autoapprendimento ha migliorato significativamente le prestazioni su una serie di attività a valle, tra cui l’analisi del sentiment, la risposta alle domande e la classificazione delle notizie. Ha superato LaMDA e FLAN di Google in termini di capacità zero-shot, modelli GPT e altri algoritmi supervisionati.

Tuttavia, una sfida con l’autoapprendimento è che il modello a volte può generare etichette errate o rumorose che danneggiano le prestazioni. Per ovviare a questo, hanno sviluppato un nuovo algoritmo chiamato “SimPLE” (Simple Pseudo-Label Editing), un processo per rivedere e modificare le pseudo-etichette fatte nei cicli iniziali di apprendimento.

Correggendo eventuali istanze con etichette errate, ha migliorato la qualità complessiva delle etichette autogenerate. Ciò non solo ha reso i modelli più efficaci nella comprensione del linguaggio, ma anche più robusti di fronte a dati contraddittori.

Come con la maggior parte delle ricerche, ci sono alcune limitazioni. L’autoformazione sui compiti di classificazione multi-classe non ha funzionato bene come sui compiti di NLU binari, indicando la sfida dell’applicazione dei modelli di implicazione ai compiti a scelta multipla.

“Questa ricerca presenta un modo efficiente ed efficace per addestrare modelli linguistici di grandi dimensioni (LLM) formulando compiti di comprensione del linguaggio naturale come problemi di implicazione contestuale e impiegando un meccanismo di autoapprendimento con pseudo-etichettatura per incorporare grandi quantità di dati di testo non etichettati nel processo di formazione, ” aggiunge il professore del MIT e ricercatore principale del CSAIL James Glass, che è anche un autore del documento.

“Mentre il campo degli LLM sta subendo cambiamenti rapidi e drammatici, questa ricerca mostra che è possibile produrre modelli linguistici relativamente compatti che si comportano molto bene su compiti di comprensione del benchmark rispetto ai loro pari di circa le stesse dimensioni, o anche modelli linguistici molto più grandi .”

“Il compito di coinvolgimento è un proxy popolare per valutare la” comprensione “di un determinato contesto da parte di un modello di intelligenza artificiale”, afferma Leonid Karlinsky, membro dello staff di ricerca presso il MIT-IBM Watson AI Lab.

“È utilizzato in molte aree analizzando modelli con input unimodali, come LLM, e multimodali, come VLM, semplificando il compito di rispondere a domande su un dato contesto di input a un problema di classificazione binaria: questo contesto comporta un certo (ad es. testo) conclusione o no?”

“Questo documento fornisce due contributi in questo spazio. In primo luogo, propone un modo per migliorare le prestazioni e la robustezza dell’NLU zero-shot (senza messa a punto aggiuntiva) agli attacchi avversari tramite l’ottimizzazione con attività di implicazione sintetizzate (specializzate) generate per l’attività NLU primaria. In secondo luogo, offre un metodo SimPLE auto-supervisionato che include pseudo-etichettatura e filtraggio basato sulla confidenza per migliorare ulteriormente le prestazioni NLU di grandi LLM.

“L’NLU è un modulo cruciale per sistemi di intelligenza artificiale industriali efficaci”, afferma Daniel Li, responsabile della ricerca sull’intelligenza artificiale di Facebook. “I modelli NLU tradizionali dipendono dalle attività e vengono addestrati con una quantità significativa di dati annotati dall’uomo. Questo lavoro mostra risultati entusiasmanti e promettenti per un modello efficiente in termini di calcolo, autoapprendimento e robusto che è versatile in un’ampia gamma di attività NLU”.

Scritto da Rachel Gordon

Fonte: Istituto di Tecnologia del Massachussetts



Da un’altra testata giornalistica. news de www.technology.org

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

- Pubblicità -
- Pubblicità -Newspaper WordPress Theme

Contenuti esclusivi

Iscriviti oggi

OTTENERE L'ACCESSO ESCLUSIVO E COMPLETO AI CONTENUTI PREMIUM

SOSTENERE IL GIORNALISMO NON PROFIT

Get unlimited access to our EXCLUSIVE Content and our archive of subscriber stories.

- Pubblicità -Newspaper WordPress Theme

Articoli più recenti

Altri articoli

- Pubblicità -Newspaper WordPress Theme

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.