La tecnologia linguistica multilingue va oltre ChatGPT

Il Language and Technology Lab di UvA aiuta a creare tecnologie linguistiche per le lingue per le quali sono disponibili pochi dati e che non sono servite dalle grandi aziende tecnologiche.

Intelligenza artificiale, ChatGPT – immagine concettuale artistica. Credito fotografico: Pexels / Cottonbro Studio, licenza gratuita

Negli ultimi mesi, generatore di testo ChatGPT ha stupito il mondo con la scrittura automatica di testi umani in tutti i tipi di stili. Sulla base delle istruzioni digitate, ChatGPT può generare articoli di notizie, lunghe letture, saggi, poesie, dialoghi, sceneggiature e persino barzellette o codici informatici. Può anche rispondere a domande e tradurre.

Ingrandisci

Le tecniche fondamentali di ChatGPT risalgono al 2017, ma da allora OpenAI, la società che ha sviluppato il generatore di testo commerciale, ha aumentato il modello da 200 milioni di parametri a 175 miliardi di parametri l’anno scorso. Inoltre, ha aumentato la potenza di calcolo ei dati di addestramento a tal punto che i risultati di quest’anno hanno stupito anche gli esperti del settore.

“Gli scienziati potrebbero vedere l’arrivo di ChatGPT”, afferma il professore di UvA Christof Monz, “ma sono rimasto comunque sorpreso dal modo in cui funziona. È bello vedere quanto interesse c’è ora per la tecnologia del linguaggio. Ciò dimostra quanto siano vicine le capacità di pensiero umano e il linguaggio e anche quanto sia importante il linguaggio per dare l’impressione di un sistema intelligente’.

ChatGPT cambia il modo in cui lavoriamo con i documenti. Credito immagine: Stanley Dai tramite Unsplash, licenza gratuita

Detto questo, ChatGPT non ha risolto tutto nell’elaborazione e generazione del linguaggio naturale. Monz: ‘Può, ad esempio, generare un testo dall’aspetto plausibile che è di fatto errato, logicamente incoerente o che contiene pregiudizi dannosi. Dovresti essere ben consapevole che non puoi fidarti completamente dei testi di ChatGPT.’

All’Istituto di informatica Monz dirige il Laboratorio di lingue e tecnologie, che va oltre il punto in cui finisce ChatGPT. Uno dei difetti di ChatGPT è che ha bisogno di enormi quantità di dati.

Il generatore di testo è addestrato su così tanto testo, tutto raschiato da Internet, Wikipedia, biblioteche online e altre fonti, che se un singolo essere umano leggesse otto ore al giorno e sette giorni alla settimana, avrebbe bisogno di 22.000 anni per leggere ciò che ChatGPT ha elaborato durante la sua formazione.

Lingue “piccole”.

Delle oltre settemila lingue parlate in tutto il mondo, tuttavia, la maggior parte dispone di così pochi dati digitali che ChatGPT non è in grado di comprendere, generare o tradurre queste lingue “più piccole”, molte delle quali hanno ancora molti milioni di parlanti.

“Google Translate funziona per qualcosa come 140 lingue”, afferma Monz, “e l’equivalente europeo DeepL per qualcosa come venti lingue. Dal punto di vista dell’inclusività, tuttavia, vuoi offrire tecnologia linguistica anche per quelle lingue più piccole. C’è molto da guadagnare lì, e questa è una parte importante di ciò che facciamo nel nostro laboratorio.’

Lingua - impressione artistica. Credito immagine: geralt tramite Pixabay, dominio pubblico CC0

Lingua – impressione artistica. Credito immagine: geralt via PixabayCC0 Dominio pubblico

IL Laboratorio di lingue e tecnologie che Monz dirige si concentra sulla traduzione automatica, sui sistemi di risposta alle domande, sulla sintesi di documenti e sulla generazione di linguaggi non tossici. Gli aspetti multilingue delle tecnologie linguistiche sono un filo conduttore.

Monz: ‘Vogliamo essere in grado di tradurre lingue per le quali esistono pochi o nessun dato. Prendiamo l’esempio della traduzione dall’arabo all’olandese. Sorprendentemente, sono disponibili pochi testi tradotti dall’arabo all’olandese, troppo pochi per addestrare i nostri modelli di deep learning. Pertanto, addestriamo i nostri sistemi su altre combinazioni linguistiche per le quali disponiamo di molti dati, ad esempio arabo-inglese, inglese-cinese e olandese-inglese. Cerchiamo di sviluppare un sistema in grado di trovare rappresentazioni indipendenti dalla lingua per frasi multilingue con lo stesso significato.’

Reti neurali

I sistemi di deep learning sono essenzialmente reti neurali in cui i neuroni artificiali sono ordinati in decine o centinaia di strati che collegano tra loro da migliaia a miliardi di neuroni. Il numero di connessioni tra i neuroni è il numero di parametri del modello. Due frasi in due lingue diverse hanno la stessa rappresentazione se tutti i parametri sono uguali o approssimativamente uguali.

“Stiamo cercando di inventare tecniche che diano la stessa rappresentazione per frasi multilingue con lo stesso significato”, afferma Monz. “Non ci siamo ancora, ma idealmente, se una frase araba ha la stessa rappresentazione di una frase olandese, hai trovato la traduzione olandese della frase araba senza che siano disponibili dati espliciti di traduzione dall’arabo all’olandese.”

Fonte: Università di Amsterdam

Da un’altra testata giornalistica. news de www.technology.org

La tecnologia linguistica multilingue va oltre ChatGPT

Il Language and Technology Lab di UvA aiuta a creare tecnologie linguistiche per le lingue per le quali sono disponibili pochi dati e che non sono servite dalle grandi aziende tecnologiche.

Ingrandisci

Lingue “piccole”.

Reti neurali

LASCIA UN COMMENTO Cancella la risposta

Contenuti esclusivi

Rendere l’Europa più sicura: Europol lancia il concorso fotografico per le forze dell’ordine 2025

Il capo dei diritti delle Nazioni Unite richiede una sondaggio su omicidi di operatori medici

Gaza: il capo dei diritti delle Nazioni Unite richiede una sondaggio su omicidi di operatori medici

Articoli più recenti

Populari

Rendere l’Europa più sicura: Europol lancia il concorso fotografico per le forze dell’ordine 2025

Il capo dei diritti delle Nazioni Unite richiede una sondaggio su omicidi di operatori medici

Gaza: il capo dei diritti delle Nazioni Unite richiede una sondaggio su omicidi di operatori medici

Altri articoli

Di piu

25 anni di riconoscimento di Scientology in Svezia, una storia di resilienza e impatto

Sii giovane e musulmano a Bruxelles – tra tradizioni e modernità

Vivi la tua fede a Bruxelles – La vita quotidiana dei musulmani nella capitale belga

Vacanze e tradizioni – In che modo i musulmani celebrano il Ramadan ed Eid a Bruxelles?