Il 30 agosto, l’Ufficio del copyright della Biblioteca del Congresso ha avviato un appello pubblico per commenti sull’intersezione tra legge sul copyright e intelligenza artificiale (AI).
Questa discussione include: (1) l’utilizzo di opere protette da copyright per addestrare modelli di intelligenza artificiale, (2) il grado di trasparenza e divulgazione relativo all’uso di materiali protetti da copyright e (3) i diritti associati ai contenuti generati dall’intelligenza artificiale. Le parti interessate hanno una scadenza del 18 ottobre 2023 per presentare le loro opinioni scritte, mentre i commenti di confutazione sono dovuti entro il 15 novembre 2023.
Il discorso sulle prime due questioni, riguardanti l’uso di materiali protetti da copyright nell’addestramento dei sistemi di intelligenza artificiale, è ben documentato.
Più intrigante, tuttavia, è il territorio relativamente inesplorato della terza questione: i materiali generati dall’intelligenza artificiale possiedono qualche diritto? In termini pratici, i contenuti generati dai sistemi di intelligenza artificiale possono beneficiare della protezione del diritto d’autore?
Ci sono stati più casi in cui il Copyright Office ha ricevuto richieste di registrazione di opere con contenuti generati dall’intelligenza artificiale, a volte persino nominando i sistemi di intelligenza artificiale come autori o coautori. Con la legge attuale che impone la paternità umana per l’ammissibilità del copyright, il confine tra la creazione umana e i contenuti generati dall’intelligenza artificiale appare sempre più sfumato.
Indubbiamente, quando la legge statunitense sul copyright fu istituita dalla Costituzione degli Stati Uniti nel 1790, il concetto di macchine che emulassero la creatività umana era inimmaginabile. Le nuove tecnologie spesso mettono in discussione i limiti delle leggi vigenti.
Questa potrebbe essere la rivoluzione tecnologica più importante dall’inizio della Costituzione, e il periodo di due mesi concesso per affrontare questa questione senza precedenti potrebbe sembrare insufficiente.
Nonostante i vincoli di tempo, è fondamentale riconoscere che il copyright è fondamentalmente legato alla paternità. Se la paternità non può essere comprovata, la protezione del copyright diventa irrilevante.
Secondo la Costituzione, il diritto d’autore esiste per “promuovere il progresso delle scienze e delle arti utili, garantendo per tempi limitati agli autori e agli inventori il diritto esclusivo sui rispettivi scritti e scoperte” (Articolo I, Sezione 8, Comma 8). Pertanto, se l’autore rimane completamente anonimo, non esiste alcun diritto di tutela.
Anche se questo può essere un problema legale impegnativo, affrontarlo significa mettere il carro legale davanti al cavallo tecnologico. Il copyright non può essere stabilito in modo efficace senza la paternità definitiva.
Attualmente, una parte significativa dei contenuti generati dall’intelligenza artificiale è praticamente indistinguibile dal lavoro creato dall’uomo. Ciò porta a un dilemma in cui gli individui potrebbero rivendicare come propri i contenuti prodotti dall’intelligenza artificiale (o parzialmente prodotti dall’intelligenza artificiale), spesso traendo vantaggi finanziari da tali azioni.
Prendiamo, ad esempio, l’impennata dei libri generati dall’intelligenza artificiale pubblicati tramite la piattaforma di autopubblicazione di Amazon, o il recente sciopero della Writer’s Guild of America, che ha sottolineato la minaccia esistenziale percepita che l’intelligenza artificiale rappresenta per l’industria.
Fino a quando non saremo in grado di accertare in modo incontrovertibile che un contenuto è generato dall’intelligenza artificiale, i dibattiti sui diritti ad esso associati potrebbero essere prematuri e inconcludenti.
Filigrana
Da quando è esistita la necessità di verificare l’autenticità, esiste il concetto di filigrana. In sostanza, la filigrana implica l’inserimento di un “marchio” unico e difficile da replicare in un’opera. Questa strategia è più comunemente osservata nelle valute nazionali, che presentano vari tipi di filigrane per contrastare i tentativi di contraffazione.
Questo è fondamentale perché quando le contraffazioni proliferano, gli oggetti che imitano perdono fiducia. Con la perdita della fede si perde valore.
Partendo da questa comprensione, se affermiamo l’importanza, il valore e la necessità di protezione e compenso dei creatori di contenuti, la nostra attenzione dovrebbe concentrarsi principalmente sui mezzi tecnologici per autenticare l’identità del creatore.
Molti sostengono che il watermarking dei contenuti generati dall’intelligenza artificiale sia una soluzione cruciale al problema dell’imitazione o delle opere “contraffatte”. La tecnologia necessaria per filigranare i contenuti generati dall’intelligenza artificiale esiste già; abbiamo semplicemente bisogno di un consenso tra le parti interessate e di un’attuazione diffusa.
Sono stati proposti diversi metodi per la filigrana, ciascuno variabile a seconda del tipo di contenuto. Il compito diventa particolarmente impegnativo quando si tratta di filigranare testo generativo da sistemi come ChatGPT di OpenAI, Bard di Google o Claude di Anthropic.
Tuttavia, emergono due metodi promettenti con ricerche pubblicate, come descritto di seguito.
Metodo Unicode
Un metodo proposto per filigranare i contenuti generati dall’intelligenza artificiale è il metodo Unicode, recentemente suggerito da Alistair Croll. Sebbene le radici di questo concetto possano essere fatte risalire a un articolo scientifico del 2002 sul potenziale rischio di un “attacco omografo”.
In poche parole, questo metodo prevede la sostituzione di lettere casuali nel testo generato dall’intelligenza artificiale con controparti visivamente identiche che un computer interpreta in modo diverso. Per comprendere questa strategia, è essenziale comprendere i fondamenti dello standard Unicode.
Lo standard Unicode (attualmente UTF-8) è stato stabilito per garantire una rappresentazione e una gestione coerenti del testo in diverse lingue e piattaforme. Assegna un punto di codice univoco a ciascun carattere praticamente da tutti i sistemi di scrittura conosciuti, siano essi lettere, numeri, simboli o emoji.
Unicode funziona utilizzando da due a quattro byte per rappresentare ciascun carattere. Quando si digita una lettera, il computer la percepisce non come un simbolo grafico ma come un punto di codice univoco. Unicode, in sostanza, è un vasto insieme di indirizzi (più di 1,1 milioni) che i computer interpretano e visualizzano come caratteri sui nostri schermi.
Grazie alla sua adozione globale, Unicode garantisce che il testo possa essere trasferito, manipolato o visualizzato su diversi dispositivi o sistemi operativi senza perdite o danneggiamenti. Questa universalità è ciò che rende attraente il metodo Unicode di filigrana.
Ecco un esempio pratico, secondo un articolo intitolato “A Watermark for Large Language Models” di Kirchenbauer et al., 2023. Quando si digita la lettera “i”, il computer la interpreta come U+0069, l’indirizzo UTF-8 per la lettera latina.
Tuttavia, se il computer visualizza la lettera cirillica “і”, indistinguibile dall’occhio umano, utilizza un indirizzo diverso, U+0456. Sostituendo sporadicamente i caratteri con alternative apparentemente identiche, il testo potrebbe essere contrassegnato come generato dall’intelligenza artificiale. È probabile che non ti sia nemmeno accorto che ogni “i” in questo paragrafo è stato sostituito con il carattere cirillico.
Tuttavia, la soluzione non è infallibile. Ad esempio, i correttori ortografici e grammaticali potrebbero contrassegnare le parole come errate a causa dell’inclusione di caratteri alternativi.
Questo problema potrebbe essere affrontato in modo simile al modo in cui scanner e fotocopiatrici si rifiutano di duplicare la valuta. I produttori avevano il compito di adottare uno standard che rendesse la contraffazione più impegnativa. Allo stesso modo, alle società di software potrebbe essere richiesto di integrare perfettamente l’uso di caratteri alternativi nei loro algoritmi.
Un’altra preoccupazione è il software che identifica e sostituisce questi caratteri alternativi, che anche un programmatore principiante potrebbe creare. Una soluzione imperfetta potrebbe comportare la modifica dei compilatori per rilevare questo codice. Alla fine, ciò potrebbe rappresentare solo un inconveniente per chiunque sia disposto a utilizzare un software di reindirizzamento automatico dei caratteri per aggirare questa filigrana.
Tuttavia, nell’articolo precedentemente citato di Kirchenbauer et al. è stata proposta un’altra soluzione più solida, che prevede la tokenizzazione casuale e selettiva dell’output di testo generato dall’intelligenza artificiale.
Il metodo di selezione dei token
Comprendere questo metodo richiede una conoscenza di base di come funzionano i Large Language Models (LLM) come ChatGPT.
Essenzialmente, gli LLM sono modelli di previsione altamente avanzati. Valutano i modelli nascosti e applicano determinate regole alla selezione del testo, generando testo che anticipa ciò che probabilmente seguirà. In una certa misura, questo è ciò che facciamo come esseri umani.
Prendiamo in considerazione i modelli e indoviniamo quale sarà il prossimo risultato probabile. Se dovessi scrivere “Noi, il popolo di…”, la vostra mente probabilmente andrebbe automaticamente a “gli Stati Uniti”. Conosci lo schema; l’hai già visto prima. Gli LLM hanno analizzato miliardi di modelli testuali, rendendoli predittori eccezionalmente abili.
Il metodo di selezione dei token sfrutta questa capacità predittiva per scopi di watermarking. Poiché un LLM può anticipare diverse potenziali parole da seguire in un testo, ha più opzioni tra cui scegliere.
Ad esempio, considera il LLM che completa la frase: “Ogni mattina, indipendentemente dal tempo, John si mette le scarpe da ginnastica, apre la porta di casa e inizia a…”. Il modello potrebbe proporre diverse opzioni (corsa, jogging, esercizio, camminata o stretching).
A scopo illustrativo, supponiamo che questi siano elencati dal più probabile al meno probabile. Se “correre” e “fare jogging” sono praticamente indistinguibili in termini di probabilità, il LLM potrebbe selezionarli senza influire in modo significativo sul tono o sulla qualità del testo.
In qualsiasi testo generato dall’intelligenza artificiale si presentano numerose opportunità di questo tipo. Dividendo il vocabolario (o, più precisamente, “gettoni”) in elenchi di parole consentite e proibite, la generazione del testo potrebbe aderire a una regola secondo la quale l’uso di parole consentite rispetto a parole proibite è statisticamente significativo, anche in un piccolo campione di testo.
Di conseguenza, un testo scritto da esseri umani conterrebbe una percentuale maggiore di parole proibite. Come spiegato nel documento, ecco come un algoritmo progettato per identificare questa filigrana potrebbe interpretarla:
Anche con questo piccolo campione di testo, l’algoritmo può identificare il testo con filigrana, generato dall’intelligenza artificiale, con un livello di certezza “estremo”. Questo metodo potrebbe essere più semplice da implementare rispetto al metodo Unicode fornendo al contempo una filigrana molto più difficile da aggirare.
Conclusione
Mentre attraversiamo questa nuova era, caratterizzata dal rapido progresso dell’intelligenza artificiale, ci troviamo di fronte a sfide nuove e complesse. Tra le più urgenti c’è la questione della legge sul diritto d’autore, originariamente redatta più di due secoli fa, senza alcuna disposizione per la paternità non umana.
L’applicazione di questa legge si basa sull’accurata attribuzione della paternità, una linea che diventa sfumata quando introduciamo l’IA generativa avanzata. In mezzo a ferventi dibattiti e scadenze incombenti, ci troviamo a un bivio, dove le discussioni sui diritti dell’IA diventano ridondanti senza un metodo affidabile per determinare l’origine.
Come abbiamo esplorato, una soluzione praticabile risiede nella pratica secolare del watermarking, adattata alla nostra era digitale. Sebbene queste tecniche di watermarking proposte non siano perfette, offrono una luce guida nella navigazione in questo territorio inesplorato.
Potrebbero, con un elevato grado di certezza, garantire la corretta designazione dei contenuti generati dall’intelligenza artificiale, aprendo la strada a un dialogo significativo sulla legge sul diritto d’autore.
Con l’avvicinarsi della scadenza del Copyright Office, la necessità di implementare questi metodi di watermarking è più urgente che mai. Senza di essi, rischiamo di entrare in un’era in cui la nostra economia della conoscenza è minata da creazioni contraffatte, che svalutano la paternità e mettono a repentaglio l’integrità della conoscenza.
Gli autori della Costituzione capirono che la protezione del diritto d’autore non era solo un vantaggio economico, ma fondamentale per il progresso della scienza e delle arti. Mentre combattiamo con le profonde implicazioni dell’intelligenza artificiale, dovremmo prestare ascolto alla loro saggezza e garantire che le nostre risposte mantengano lo spirito di progresso che intendevano coltivare.
Biografia dell’autore
AG Elrod è un Ph.D. candidato in Digital Humanities presso l’Università di Vrije e docente di inglese presso l’Università di Scienze Applicate HZ nei Paesi Bassi.
Fonte della storia (citazione bibliografica)
Da un’altra testata giornalistica. news de www.technology.org