Un modello di linguaggio naturale ha dato il via al processo di progettazione delle proteine creando enzimi attivi.
I ricercatori hanno sviluppato un sistema di intelligenza artificiale in grado di generare enzimi artificiali da zero. In esperimenti di laboratorio, alcuni di questi enzimi hanno dimostrato un’efficacia paragonabile agli enzimi naturali, anche quando i loro aminoacidi creati artificialmente acido sequenze notevolmente deviate da qualsiasi proteina naturale conosciuta.
L’esperimento dimostra che l’elaborazione del linguaggio naturale, inizialmente creata per la lettura e la scrittura di testi linguistici, può cogliere alcuni concetti fondamentali della biologia. Il programma AI, noto come ProGen, è stato sviluppato da Salesforce Research e utilizza la previsione del token successivo per costruire proteine artificiali da sequenze di amminoacidi.
Gli scienziati hanno affermato che la nuova tecnologia potrebbe diventare più potente dell’evoluzione diretta, la tecnologia di progettazione proteica vincitrice del premio Nobel, e darà energia al campo dell’ingegneria proteica di 50 anni accelerando lo sviluppo di nuove proteine che possono essere utilizzate per quasi qualsiasi cosa, dalla terapia alla plastica degradante.
“I progetti artificiali funzionano molto meglio dei progetti ispirati al processo evolutivo”, ha affermato James Fraser, Ph.D., professore di bioingegneria e scienze terapeutiche presso il Scuola di Farmacia UCSFe autore dell’opera, recentemente pubblicata in Biotecnologie naturali. Una versione precedente del documento è disponibile sul server di prestampa Bior Xiv dal luglio del 2021, dove ha raccolto diverse dozzine di citazioni prima di essere pubblicato in una rivista peer-reviewed.
“Il modello linguistico sta imparando aspetti dell’evoluzione, ma è diverso dal normale processo evolutivo”, ha detto Fraser. “Ora abbiamo la possibilità di ottimizzare la generazione di queste proprietà per effetti specifici. Ad esempio, un enzima che è incredibilmente termostabile o ama gli ambienti acidi o non interagisce con altre proteine.
Per creare il modello, gli scienziati hanno semplicemente inserito le sequenze di aminoacidi di 280 milioni di diverse proteine di tutti i tipi nel apprendimento automatico modello e lasciare che digerisca le informazioni per un paio di settimane. Quindi, hanno messo a punto il modello innescandolo con 56.000 sequenze di cinque famiglie di lisozimi, insieme ad alcune informazioni contestuali su queste proteine.
Il modello ha generato rapidamente un milione di sequenze e il team di ricerca ne ha selezionate 100 da testare, in base a quanto assomigliavano alle sequenze delle proteine naturali, nonché a quanto fossero naturalistiche la “grammatica” e la “semantica” degli amminoacidi sottostanti alle proteine AI.
Da questo primo lotto di 100 proteine, che sono state vagliate in vitro da Tierra Biosciences, il team ha prodotto cinque proteine artificiali da testare nelle cellule e ha confrontato la loro attività con un enzima presente nel bianco delle uova di gallina, noto come lisozima dell’albume di gallina. (HEWL). Lisozimi simili si trovano nelle lacrime umane, nella saliva e nel latte, dove difendono da batteri e funghi.
Due degli enzimi artificiali sono stati in grado di abbattere le pareti cellulari dei batteri con un’attività paragonabile a HEWL, ma le loro sequenze erano identiche tra loro solo per il 18% circa. Le due sequenze erano circa il 90% e il 70% identiche a qualsiasi proteina nota.
Solo una mutazione in una proteina naturale può farla smettere di funzionare, ma in un diverso ciclo di screening, il team ha scoperto che gli enzimi generati dall’intelligenza artificiale mostravano attività anche quando solo il 31,4% della loro sequenza assomigliava a qualsiasi proteina naturale conosciuta.
L’intelligenza artificiale è stata persino in grado di apprendere come dovrebbero essere modellati gli enzimi, semplicemente studiando i dati grezzi della sequenza. Misurate con la cristallografia a raggi X, le strutture atomiche delle proteine artificiali sembravano esattamente come dovrebbero, anche se le sequenze non erano mai state viste prima.
Salesforce Research ha sviluppato ProGen nel 2020, sulla base di una sorta di programmazione in linguaggio naturale che i loro ricercatori avevano originariamente sviluppato per generare testo in lingua inglese.
Sapevano dal loro lavoro precedente che il sistema di intelligenza artificiale poteva insegnare da solo la grammatica e il significato delle parole, insieme ad altre regole sottostanti che rendono la scrittura ben composta.
“Quando si addestrano modelli basati su sequenza con molti dati, sono davvero potenti nell’apprendimento della struttura e delle regole”, ha affermato Nikhil Naik, Ph.D., direttore della ricerca AI presso Salesforce Research e autore senior dell’articolo. “Imparano quali parole possono coesistere e anche la composizionalità”.
Con le proteine, le scelte progettuali erano quasi illimitate. I lisozimi sono piccoli come le proteine, fino a circa 300 aminoacidi. Ma con 20 amminoacidi possibili, esiste un numero enorme (20300) di possibili combinazioni. È più grande che prendere tutti gli umani vissuti nel tempo, moltiplicati per il numero di granelli di sabbia sulla Terra, moltiplicati per il numero di atomi nell’universo.
Date le possibilità illimitate, è straordinario che il modello possa generare così facilmente enzimi funzionanti.
“La capacità di generare proteine funzionali da zero e fuori dagli schemi dimostra che stiamo entrando in una nuova era della progettazione delle proteine”, ha affermato Ali Madani, Ph.D., fondatore di Profluent Bio, ex ricercatore presso Salesforce Research , e il primo autore dell’articolo. “Questo è un nuovo strumento versatile a disposizione degli ingegneri proteici e non vediamo l’ora di vedere le applicazioni terapeutiche”.
Riferimento: “I modelli di linguaggio di grandi dimensioni generano sequenze proteiche funzionali in diverse famiglie” di Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, Jose Luis Olmos Jr., Caiming Xiong, Zachary Z Sun, Richard Socher, James S. Fraser e Nikhil Naik, 26 gennaio 2023, Biotecnologie naturali.
DOI: 10.1038/s41587-022-01618-2
Si prega di consultare il documento per un elenco completo degli autori e dei finanziamenti. Una base di codice completa per i metodi descritti nel documento è pubblicamente disponibile all’indirizzo https://github.com/salesforce/progen.
Da un’altra testata giornalistica news de www.europeantimes.news