Il Language and Technology Lab di UvA aiuta a creare tecnologie linguistiche per le lingue per le quali sono disponibili pochi dati e che non sono servite dalle grandi aziende tecnologiche.
Negli ultimi mesi, generatore di testo ChatGPT ha stupito il mondo con la scrittura automatica di testi umani in tutti i tipi di stili. Sulla base delle istruzioni digitate, ChatGPT può generare articoli di notizie, lunghe letture, saggi, poesie, dialoghi, sceneggiature e persino barzellette o codici informatici. Può anche rispondere a domande e tradurre.
Ingrandisci
Le tecniche fondamentali di ChatGPT risalgono al 2017, ma da allora OpenAI, la società che ha sviluppato il generatore di testo commerciale, ha aumentato il modello da 200 milioni di parametri a 175 miliardi di parametri l’anno scorso. Inoltre, ha aumentato la potenza di calcolo ei dati di addestramento a tal punto che i risultati di quest’anno hanno stupito anche gli esperti del settore.
“Gli scienziati potrebbero vedere l’arrivo di ChatGPT”, afferma il professore di UvA Christof Monz, “ma sono rimasto comunque sorpreso dal modo in cui funziona. È bello vedere quanto interesse c’è ora per la tecnologia del linguaggio. Ciò dimostra quanto siano vicine le capacità di pensiero umano e il linguaggio e anche quanto sia importante il linguaggio per dare l’impressione di un sistema intelligente’.
Detto questo, ChatGPT non ha risolto tutto nell’elaborazione e generazione del linguaggio naturale. Monz: ‘Può, ad esempio, generare un testo dall’aspetto plausibile che è di fatto errato, logicamente incoerente o che contiene pregiudizi dannosi. Dovresti essere ben consapevole che non puoi fidarti completamente dei testi di ChatGPT.’
All’Istituto di informatica Monz dirige il Laboratorio di lingue e tecnologie, che va oltre il punto in cui finisce ChatGPT. Uno dei difetti di ChatGPT è che ha bisogno di enormi quantità di dati.
Il generatore di testo è addestrato su così tanto testo, tutto raschiato da Internet, Wikipedia, biblioteche online e altre fonti, che se un singolo essere umano leggesse otto ore al giorno e sette giorni alla settimana, avrebbe bisogno di 22.000 anni per leggere ciò che ChatGPT ha elaborato durante la sua formazione.
Lingue “piccole”.
Delle oltre settemila lingue parlate in tutto il mondo, tuttavia, la maggior parte dispone di così pochi dati digitali che ChatGPT non è in grado di comprendere, generare o tradurre queste lingue “più piccole”, molte delle quali hanno ancora molti milioni di parlanti.
“Google Translate funziona per qualcosa come 140 lingue”, afferma Monz, “e l’equivalente europeo DeepL per qualcosa come venti lingue. Dal punto di vista dell’inclusività, tuttavia, vuoi offrire tecnologia linguistica anche per quelle lingue più piccole. C’è molto da guadagnare lì, e questa è una parte importante di ciò che facciamo nel nostro laboratorio.’
IL Laboratorio di lingue e tecnologie che Monz dirige si concentra sulla traduzione automatica, sui sistemi di risposta alle domande, sulla sintesi di documenti e sulla generazione di linguaggi non tossici. Gli aspetti multilingue delle tecnologie linguistiche sono un filo conduttore.
Monz: ‘Vogliamo essere in grado di tradurre lingue per le quali esistono pochi o nessun dato. Prendiamo l’esempio della traduzione dall’arabo all’olandese. Sorprendentemente, sono disponibili pochi testi tradotti dall’arabo all’olandese, troppo pochi per addestrare i nostri modelli di deep learning. Pertanto, addestriamo i nostri sistemi su altre combinazioni linguistiche per le quali disponiamo di molti dati, ad esempio arabo-inglese, inglese-cinese e olandese-inglese. Cerchiamo di sviluppare un sistema in grado di trovare rappresentazioni indipendenti dalla lingua per frasi multilingue con lo stesso significato.’
Reti neurali
I sistemi di deep learning sono essenzialmente reti neurali in cui i neuroni artificiali sono ordinati in decine o centinaia di strati che collegano tra loro da migliaia a miliardi di neuroni. Il numero di connessioni tra i neuroni è il numero di parametri del modello. Due frasi in due lingue diverse hanno la stessa rappresentazione se tutti i parametri sono uguali o approssimativamente uguali.
“Stiamo cercando di inventare tecniche che diano la stessa rappresentazione per frasi multilingue con lo stesso significato”, afferma Monz. “Non ci siamo ancora, ma idealmente, se una frase araba ha la stessa rappresentazione di una frase olandese, hai trovato la traduzione olandese della frase araba senza che siano disponibili dati espliciti di traduzione dall’arabo all’olandese.”
Fonte: Università di Amsterdam
Da un’altra testata giornalistica. news de www.technology.org