La biologia è un arazzo meraviglioso ma delicato. Al centro c’è il DNA, il maestro tessitore che codifica le proteine, responsabile dell’orchestrazione delle numerose funzioni biologiche che sostengono la vita all’interno del corpo umano. Tuttavia, il nostro corpo è simile a uno strumento finemente accordato, suscettibile di perdere l’armonia. Dopotutto, affrontiamo un mondo naturale in continua evoluzione e inesorabile: agenti patogeni, virus, malattie e cancro.
Immagina se potessimo accelerare il processo di creazione di vaccini o farmaci per agenti patogeni appena emersi. E se avessimo una tecnologia di editing genetico in grado di produrre automaticamente proteine per correggere gli errori del DNA che provocano il cancro?
L’identificazione di proteine che possono legarsi fortemente a bersagli o accelerare le reazioni chimiche è vitale per lo sviluppo di farmaci, la diagnostica e numerose applicazioni industriali. Eppure, è spesso uno sforzo lungo e costoso.
Per migliorare le nostre capacità nell’ingegneria delle proteine, i ricercatori del MIT CSAIL hanno sviluppato “FrameDiff”, uno strumento computazionale per creare nuove strutture proteiche al di là di ciò che la natura ha prodotto.
L’approccio dell’apprendimento automatico genera “frame” che si allineano con le proprietà intrinseche delle strutture proteiche, consentendogli di costruire nuove proteine indipendentemente da progetti preesistenti, facilitando strutture proteiche senza precedenti.
“In natura, la progettazione delle proteine è un processo a combustione lenta che richiede milioni di anni. La nostra tecnica mira a fornire una risposta per affrontare i problemi creati dall’uomo che si evolvono molto più velocemente del ritmo della natura “, afferma Jason Yim, studente di dottorato del MIT CSAIL, autore principale di un nuovo articolo sul lavoro.
“L’obiettivo, rispetto a questa nuova capacità di generare strutture proteiche sintetiche, apre una miriade di capacità potenziate, come leganti migliori. Ciò significa progettare proteine che possono legarsi ad altre molecole in modo più efficiente e selettivo, con implicazioni diffuse relative alla somministrazione mirata di farmaci e alla biotecnologia, dove potrebbe portare allo sviluppo di biosensori migliori».
“Potrebbe anche avere implicazioni per il campo della biomedicina e oltre, offrendo possibilità come lo sviluppo di proteine di fotosintesi più efficienti, la creazione di anticorpi più efficaci e l’ingegnerizzazione di nanoparticelle per la terapia genica”.
Inquadratura FrameDiff
Le proteine hanno strutture complesse, costituite da molti atomi collegati da legami chimici. Gli atomi più importanti che determinano la forma 3D della proteina sono chiamati “spina dorsale”, un po’ come la spina dorsale della proteina. Ogni tripletta di atomi lungo la spina dorsale condivide lo stesso modello di legami e tipi di atomi.
I ricercatori hanno notato che questo modello può essere sfruttato per costruire algoritmi di apprendimento automatico utilizzando idee dalla geometria differenziale e dalla probabilità. È qui che entrano in gioco i frame: Matematicamente, queste triplette possono essere modellate come corpi rigidi chiamati “frame” (comuni in fisica) che hanno una posizione e una rotazione in 3D.
Questi frame forniscono a ciascuna terzina informazioni sufficienti per conoscere il suo ambiente spaziale. Il compito è quindi che un algoritmo di apprendimento automatico impari come spostare ogni fotogramma per costruire una spina dorsale proteica.
Imparando a costruire proteine esistenti, si spera che l’algoritmo si generalizzi e sia in grado di creare nuove proteine mai viste prima in natura.
Addestrare un modello per costruire proteine tramite “diffusione” comporta l’iniezione di rumore che sposta in modo casuale tutti i fotogrammi e offusca l’aspetto della proteina originale. Il compito dell’algoritmo è spostare e ruotare ogni fotogramma finché non assomiglia alla proteina originale.
Sebbene semplice, lo sviluppo della diffusione su frame richiede tecniche di calcolo stocastico su varietà Riemanniane. Dal punto di vista teorico, i ricercatori hanno sviluppato la “diffusione SE(3)” per l’apprendimento delle distribuzioni di probabilità che collegano in modo non banale le componenti di traslazione e rotazione di ciascun fotogramma.
La sottile arte della diffusione
Nel 2021, DeepMind ha introdotto AlphaFold2, un algoritmo di deep learning per prevedere le strutture proteiche 3D dalle loro sequenze.
Quando si creano proteine sintetiche, ci sono due passaggi essenziali: generazione e previsione. Generazione significa la creazione di nuove strutture e sequenze proteiche, mentre “previsione” significa capire qual è la struttura 3D di una sequenza.
Non è un caso che anche AlphaFold2 abbia utilizzato i frame per modellare le proteine. SE(3) diffusion e FrameDiff sono stati ispirati a portare avanti l’idea dei frame incorporandoli nei modelli di diffusione, una tecnica di intelligenza artificiale generativa che è diventata immensamente popolare nella generazione di immagini, come Midjourney, ad esempio.
I frame e i principi condivisi tra la generazione e la previsione della struttura proteica significavano che i migliori modelli da entrambe le parti erano compatibili. In collaborazione con l’Institute for Protein Design dell’Università di Washington, la diffusione SE(3) è già utilizzata per creare e convalidare sperimentalmente nuove proteine.
Nello specifico, hanno combinato la diffusione SE(3) con RosettaFold2, uno strumento di previsione della struttura proteica molto simile ad AlphaFold2, che ha portato alla “diffusione RF”.
Questo nuovo strumento ha avvicinato i progettisti di proteine alla risoluzione di problemi cruciali nella biotecnologia, compreso lo sviluppo di leganti proteici altamente specifici per la progettazione accelerata di vaccini, l’ingegnerizzazione di proteine simmetriche per la consegna genica e robuste impalcature di motivi per la progettazione precisa di enzimi.
Gli sforzi futuri per FrameDiff comportano il miglioramento della generalità dei problemi che combinano molteplici requisiti per prodotti biologici come i farmaci. Un’altra estensione consiste nel generalizzare i modelli a tutte le modalità biologiche, compreso il DNA e le piccole molecole.
Il team ipotizza che ampliando la formazione di FrameDiff su dati più sostanziali e migliorando il suo processo di ottimizzazione, potrebbe generare strutture fondamentali che vantano capacità di progettazione pari a RFdiffusion, il tutto preservando la semplicità intrinseca di FrameDiff.
“Eliminare un modello di previsione della struttura preaddestrato [in FrameDiff] apre possibilità per la generazione rapida di strutture che si estendono a grandi lunghezze”, afferma il biologo computazionale dell’Università di Harvard Sergey Ovchinnikov.
L’approccio innovativo dei ricercatori offre un passo promettente verso il superamento dei limiti degli attuali modelli di previsione della struttura. Anche se è ancora un lavoro preliminare, è un passo incoraggiante nella giusta direzione.
Pertanto, la visione della progettazione delle proteine, che svolge un ruolo fondamentale nell’affrontare le sfide più urgenti dell’umanità, sembra sempre più a portata di mano, grazie al lavoro pionieristico di questo team di ricerca del MIT.
Scritto da Rachel Gordon
Da un’altra testata giornalistica. news de www.technology.org