4.6 C
Rome
domenica, Novembre 24, 2024
- Pubblicità -
Scienze & AmbienteImparare il linguaggio delle molecole per prevedere le loro proprietà

Imparare il linguaggio delle molecole per prevedere le loro proprietà

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.


Questo sistema di intelligenza artificiale necessita solo di una piccola quantità di dati per prevedere le proprietà molecolari, il che potrebbe accelerare la scoperta di farmaci e lo sviluppo di materiali.

La scoperta di nuovi materiali e farmaci in genere comporta un processo manuale, per tentativi ed errori, che può richiedere decenni e costare milioni di dollari. Per semplificare questo processo, gli scienziati usano spesso apprendimento automatico per prevedere le proprietà molecolari e restringere il campo delle molecole di cui hanno bisogno per sintetizzare e testare in laboratorio.

I ricercatori del MIT e del MIT-Watson AI Lab hanno sviluppato un framework unificato che utilizza l'apprendimento automatico per prevedere simultaneamente le proprietà molecolari e generare nuove molecole utilizzando solo una piccola quantità di dati per l'addestramento.

I ricercatori del MIT e del MIT-Watson AI Lab hanno sviluppato un framework unificato che utilizza l’apprendimento automatico per prevedere simultaneamente le proprietà molecolari e generare nuove molecole utilizzando solo una piccola quantità di dati per l’addestramento. Credito immagine: Jose-Luis Olivares/MIT

Il MIT e il MIT-Watson AI Lab hanno sviluppato un quadro nuovo e unificato che possono simultaneamente prevedere le proprietà molecolari e generare nuove molecole in modo molto più efficiente rispetto a questi popolari approcci di apprendimento profondo.

Per insegnare a un modello di apprendimento automatico a prevedere le proprietà biologiche o meccaniche di una molecola, i ricercatori devono mostrargli milioni di strutture molecolari etichettate, un processo noto come addestramento.

A causa della spesa per la scoperta di molecole e delle sfide dell’etichettatura manuale di milioni di strutture, è spesso difficile ottenere grandi set di dati di addestramento, il che limita l’efficacia degli approcci di apprendimento automatico.

Al contrario, il sistema creato dai ricercatori del MIT può prevedere efficacemente le proprietà molecolari utilizzando solo una piccola quantità di dati. Il loro sistema ha una comprensione di base delle regole che dettano il modo in cui i blocchi di costruzione si combinano per produrre molecole valide.

Queste regole catturano le somiglianze tra le strutture molecolari, il che aiuta il sistema a generare nuove molecole e a prevedere le loro proprietà in modo efficiente dai dati.

Un modello fisico 3D di una molecola.

Un modello fisico 3D di una molecola. Credito immagine: Nayuki via FlickrCC BY 2.0

Questo metodo ha superato altri approcci di apprendimento automatico su set di dati sia piccoli che grandi ed è stato in grado di prevedere con precisione le proprietà molecolari e generare molecole vitali quando è stato fornito un set di dati con meno di 100 campioni.

«Il nostro obiettivo con questo progetto è utilizzare alcuni metodi basati sui dati per accelerare la scoperta di nuove molecole, in modo da poter addestrare un modello per fare la previsione senza tutti questi costosi esperimenti», afferma l’autore principale Minghao Guo, un laureato in informatica ed ingegneria elettrica (EECS).

I coautori di Guo includono i membri dello staff di ricerca del MIT-IBM Watson AI Lab Veronika Thost, Payel Das e Jie Chen; i neolaureati del MIT Samuel Song ’23 e Adithya Balachandran ’23; e l’autore senior Wojciech Matusik, professore di ingegneria elettrica e informatica e membro del MIT-IBM Watson AI Lab, che guida il Computational Design and Fabrication Group all’interno del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL).

La ricerca sarà presentata alla International Conference for Machine Learning.

Questo è un microscopio elettronico a trasmissione (TEM).  Dispositivi di questo tipo sono in grado di "vedendo" cose fino alla scala di un singolo atomo, almeno il migliore di loro.  Ma non guardano gli atomi nella gamma di frequenze della luce visibile, ma piuttosto usano un diverso metodo di imaging.

Questo è un microscopio elettronico a trasmissione (TEM). Dispositivi di questo tipo sono in grado di “vedere” le cose fino alla scala di un singolo atomo, almeno il migliore di loro. Ma non guardano gli atomi nella gamma di frequenze della luce visibile, ma piuttosto usano un diverso metodo di imaging. Credito fotografico: Deshi tramite Wikimedia

Imparare il linguaggio delle molecole

Per ottenere i migliori risultati con i modelli di apprendimento automatico, gli scienziati devono addestrare set di dati con milioni di molecole che hanno proprietà simili a quelle che sperano di scoprire. In realtà, questi set di dati specifici del dominio sono generalmente molto piccoli.

Pertanto, i ricercatori utilizzano modelli che sono stati preaddestrati su grandi set di dati di molecole generali, che applicano a un set di dati mirato molto più piccolo. Tuttavia, poiché questi modelli non hanno acquisito molte conoscenze specifiche del dominio, tendono a funzionare male.

Il team del MIT ha adottato un approccio diverso. Hanno creato un sistema di apprendimento automatico che apprende automaticamente il “linguaggio” delle molecole – ciò che è noto come grammatica molecolare – utilizzando solo un piccolo set di dati specifico del dominio. Usa questa grammatica per costruire molecole vitali e prevedere le loro proprietà.

Nella teoria del linguaggio, si generano parole, frasi o paragrafi sulla base di un insieme di regole grammaticali. Puoi pensare a una grammatica molecolare allo stesso modo. È un insieme di regole di produzione che dettano come generare molecole o polimeri combinando atomi e sottostrutture.

Proprio come una grammatica linguistica, che può generare una pletora di frasi utilizzando le stesse regole, una grammatica molecolare può rappresentare un vasto numero di molecole. Le molecole con strutture simili usano le stesse regole di produzione grammaticale e il sistema impara a comprendere queste somiglianze.

Poiché le molecole strutturalmente simili hanno spesso proprietà simili, il sistema utilizza la sua conoscenza sottostante della somiglianza molecolare per prevedere le proprietà di nuove molecole in modo più efficiente.

“Una volta che abbiamo questa grammatica come rappresentazione per tutte le diverse molecole, possiamo usarla per potenziare il processo di previsione delle proprietà”, dice Guo.

Il sistema apprende le regole di produzione per una grammatica molecolare utilizzando l’apprendimento per rinforzo, un processo per tentativi ed errori in cui il modello viene premiato per il comportamento che lo avvicina al raggiungimento di un obiettivo.

Ma poiché potrebbero esserci miliardi di modi per combinare atomi e sottostrutture, il processo per apprendere le regole di produzione grammaticale sarebbe troppo costoso dal punto di vista computazionale per qualsiasi cosa che non sia il più piccolo set di dati.

I ricercatori hanno disaccoppiato la grammatica molecolare in due parti. La prima parte, chiamata metagrammatica, è una grammatica generale e ampiamente applicabile che progettano manualmente e danno al sistema all’inizio. Quindi deve solo imparare una grammatica molto più piccola e specifica per le molecole dal set di dati del dominio. Questo approccio gerarchico accelera il processo di apprendimento.

Grandi risultati, piccoli set di dati

Negli esperimenti, il nuovo sistema dei ricercatori ha generato simultaneamente molecole e polimeri vitali e ha previsto le loro proprietà in modo più accurato rispetto a diversi approcci popolari di apprendimento automatico, anche quando i set di dati specifici del dominio avevano solo poche centinaia di campioni.

Alcuni altri metodi richiedevano anche una costosa fase di pre-addestramento che il nuovo sistema evita.

La tecnica è risultata particolarmente efficace nel prevedere le proprietà fisiche dei polimeri, come la temperatura di transizione vetrosa, che è la temperatura richiesta affinché un materiale passi da solido a liquido. Ottenere queste informazioni manualmente è spesso estremamente costoso perché gli esperimenti richiedono temperature e pressioni estremamente elevate.

Per spingere ulteriormente il loro approccio, i ricercatori hanno ridotto di oltre la metà un set di allenamento, a soli 94 campioni. Il loro modello ha comunque ottenuto risultati alla pari con i metodi addestrati utilizzando l’intero set di dati.

“Questa rappresentazione basata sulla grammatica è molto potente. E poiché la grammatica stessa è una rappresentazione molto generale, può essere distribuita a diversi tipi di dati sotto forma di grafico. Stiamo cercando di identificare altre applicazioni oltre alla chimica o alla scienza dei materiali”, afferma Guo.

In futuro, vogliono anche estendere la loro attuale grammatica molecolare per includere la geometria 3D di molecole e polimeri, che è la chiave per comprendere le interazioni tra le catene polimeriche. Stanno inoltre sviluppando un’interfaccia che mostri a un utente le regole di produzione grammaticale apprese e solleciti feedback per correggere regole che potrebbero essere errate, aumentando la precisione del sistema.

Scritto da

Fonte: Istituto di Tecnologia del Massachussetts



Da un’altra testata giornalistica. news de www.technology.org

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

- Pubblicità -
- Pubblicità -Newspaper WordPress Theme

Contenuti esclusivi

Iscriviti oggi

OTTENERE L'ACCESSO ESCLUSIVO E COMPLETO AI CONTENUTI PREMIUM

SOSTENERE IL GIORNALISMO NON PROFIT

Get unlimited access to our EXCLUSIVE Content and our archive of subscriber stories.

- Pubblicità -Newspaper WordPress Theme

Articoli più recenti

Altri articoli

- Pubblicità -Newspaper WordPress Theme

INFORMATIVA: Alcuni degli articoli che pubblichiamo provengono da fonti non in lingua italiana e vengono tradotti automaticamente per facilitarne la lettura. Se vedete che non corrispondono o non sono scritti bene, potete sempre fare riferimento all'articolo originale, il cui link è solitamente in fondo all'articolo. Grazie per la vostra comprensione.