BioAutoMATED, una piattaforma di machine learning automatizzata e open source, mira a contribuire a democratizzare l’intelligenza artificiale per i laboratori di ricerca.
È possibile costruire modelli di apprendimento automatico senza competenze di apprendimento automatico?
Jim Collins, Professore Termeer di Ingegneria e Scienze Mediche presso il Dipartimento di Ingegneria Biologica del MIT e capo della facoltà di scienze della vita presso la Abdul Latif Jameel Clinic for Machine Learning in Health (Jameel Clinic), insieme a un certo numero di colleghi, ha deciso di affrontare questo problema quando si affronta un enigma simile.
Un documento ad accesso aperto sulla loro soluzione proposta, chiamato BioAutoMATED, era pubblicato in Sistemi cellulari.
Il reclutamento di ricercatori di machine learning può essere un processo lungo e finanziariamente costoso per i laboratori scientifici e di ingegneria. Anche con un esperto di machine learning, selezionare il modello appropriato, formattare il set di dati per il modello, quindi perfezionarlo può cambiare drasticamente le prestazioni del modello e richiede molto lavoro.
“Nel tuo progetto di machine learning, quanto tempo dedicherai in genere alla preparazione e trasformazione dei dati?” chiede un Google del 2022 corso sui fondamenti dell’apprendimento automatico (ML). Le due scelte offerte sono “Meno della metà del tempo del progetto” o “Più della metà del tempo del progetto”.
Se hai indovinato quest’ultimo, avresti ragione; Google afferma che ci vuole oltre l’80% del tempo del progetto per formattare i dati, e questo non considera nemmeno il tempo necessario per inquadrare il problema in termini di apprendimento automatico.
“Ci vorrebbero molte settimane di sforzi per capire il modello appropriato per il nostro set di dati, e questo è un passaggio davvero proibitivo per molte persone che vogliono utilizzare l’apprendimento automatico o la biologia”, afferma Jacqueline Valeri, una studentessa di dottorato del quinto anno di ingegneria biologica nel laboratorio di Collins che è il primo coautore dell’articolo.
BioAutoMATED è un sistema automatizzato di apprendimento automatico in grado di selezionare e creare un modello appropriato per un determinato set di dati e persino gestire la laboriosa attività di preelaborazione dei dati, riducendo un processo di mesi a poche ore.
I sistemi di apprendimento automatico automatico (AutoML) sono ancora in una fase di sviluppo relativamente nascente, con l’uso corrente principalmente incentrato sul riconoscimento di immagini e testo, ma in gran parte inutilizzato nei sottocampi della biologia, sottolinea il primo coautore e postdoc della Jameel Clinic Luis Soenksen PhD ‘ 20.
“Il linguaggio fondamentale della biologia si basa sulle sequenze”, spiega Soenksen, che ha conseguito il dottorato in ingegneria meccanica presso il Dipartimento di ingegneria meccanica del MIT.
“Sequenze biologiche come DNA, RNA, proteine e glicani hanno la straordinaria proprietà informativa di essere intrinsecamente standardizzate, come un alfabeto. Molti strumenti AutoML sono sviluppati per il testo, quindi aveva senso estenderlo a [biological] sequenze”.
Inoltre, la maggior parte degli strumenti AutoML può solo esplorare e creare tipi di modelli ridotti. “Ma non puoi davvero sapere dall’inizio di un progetto quale modello sarà il migliore per il tuo set di dati”, afferma Valeri. “Incorporando più strumenti sotto un unico strumento ombrello, consentiamo davvero uno spazio di ricerca molto più ampio di quello che qualsiasi singolo strumento AutoML potrebbe ottenere da solo.”
Il repertorio di modelli ML supervisionati di BioAutoMATED comprende tre tipi: modelli di classificazione binaria (che dividono i dati in due classi), modelli di classificazione multiclasse (che dividono i dati in più classi) e modelli di regressione (che adattano valori numerici continui o misurano la forza delle relazioni chiave tra variabili).
BioAutoMATED è persino in grado di aiutare a determinare quanti dati sono necessari per addestrare in modo appropriato il modello scelto.
«Il nostro strumento esplora modelli che sono più adatti per set di dati biologici più piccoli e più radi, nonché reti neurali più complesse», afferma Valeri. Questo è un vantaggio per i gruppi di ricerca con nuovi dati che possono o meno essere adatti a un problema di apprendimento automatico.
“Condurre esperimenti nuovi e di successo all’intersezione tra biologia e apprendimento automatico può costare un sacco di soldi”, spiega Soenksen.
“Attualmente, i laboratori incentrati sulla biologia devono investire in un’infrastruttura digitale significativa e in risorse umane addestrate all’AI-ML prima ancora di poter vedere se le loro idee sono pronte per avere successo. Vogliamo abbassare queste barriere per gli esperti di dominio in biologia”.
Con BioAutoMATED, i ricercatori hanno la libertà di eseguire esperimenti iniziali per valutare se valga la pena assumere un esperto di machine learning per costruire un modello diverso per ulteriori sperimentazioni.
L’open source codice è pubblicamente disponibile e, sottolineano i ricercatori, è facile da eseguire. “Quello che ci piacerebbe vedere è che le persone prendano il nostro codice, lo migliorino e collaborino con comunità più grandi per renderlo uno strumento per tutti”, afferma Soenksen.
“Vogliamo promuovere la comunità di ricerca biologica e generare consapevolezza relativa alle tecniche AutoML, come un percorso molto utile che potrebbe fondere una pratica biologica rigorosa con una pratica AI-ML frenetica meglio di quanto non si ottenga oggi”.
Scritto da Abdul Latif Jamel
E
Da un’altra testata giornalistica. news de www.technology.org