L’apprendimento automatico è diventato una tendenza importante nella ricerca medica. Ma perché non vediamo alcuna applicazione pratica dell’apprendimento automatico e dell’intelligenza artificiale negli studi dei nostri medici?
Il machine learning (ML) programma i computer per imparare come facciamo noi, attraverso la valutazione continua dei dati e l’identificazione di modelli basati sui risultati passati. ML può individuare rapidamente le tendenze in grandi set di dati, operano con poca o nessuna interazione umana e migliorano le sue previsioni col tempo. A causa di queste capacità, trova rapidamente la sua strada nella ricerca medica.
Le persone con cancro al seno potrebbero presto essere diagnosticate attraverso l’apprendimento automatico più velocemente che attraverso una biopsia. Coloro che soffrono di depressione potrebbero essere in grado di prevedere i cambiamenti di umore attraverso registrazioni su smartphone di attività quotidiane come l’ora in cui si svegliano e la quantità di tempo che trascorrono nell’esercizio.
L’apprendimento automatico può anche aiutare le persone paralizzate a ritrovare l’autonomia utilizzando protesi controllate da schemi identificati nei dati della scansione cerebrale. La ricerca sul riciclaggio promette queste e molte altre possibilità per aiutare le persone a condurre una vita più sana.
Ma mentre il numero di studi sull’apprendimento automatico cresce, il suo uso effettivo negli studi medici non si è esteso molto oltre le semplici funzioni come la conversione della voce in testo per prendere appunti.
I limiti risiedono nelle piccole dimensioni del campione della ricerca medica e nei set di dati unici. Questi piccoli dati rendono difficile per le macchine identificare modelli significativi. Maggiore è il numero di dati, maggiore è l’accuratezza nelle diagnosi e nelle previsioni di ML.
Per molti usi diagnostici, sarebbe necessario un numero enorme di soggetti nell’ordine delle migliaia, ma la maggior parte degli studi utilizza numeri più piccoli nelle decine di soggetti.
Ma ci sono modi per trovare risultati significativi da piccoli set di dati se sai come manipolare i numeri. L’esecuzione ripetuta di test statistici con diversi sottoinsiemi di dati può indicare un significato in un set di dati che in realtà potrebbe essere solo valori anomali casuali.
Questa tattica, nota come P-hacking o feature hacking nell’apprendimento automatico, porta alla creazione di modelli predittivi troppo limitati per essere utili nel mondo reale. Ciò che sembra buono sulla carta non si traduce nella capacità di un medico di diagnosticare o curarci.
Questi errori statistici, spesso commessi inconsapevolmente, possono portare a conclusioni pericolose.
Per aiutare gli scienziati a evitare questi errori e portare avanti le applicazioni ML, Konrad KordingNathan Francis Mossell University Professor con incarichi nei Dipartimenti di Bioingegneria e Informatica e Scienze dell’Informazione presso la Penn Engineering e il Dipartimento di Neuroscienze presso la Penn’s Perelman School of Medicine, sta conducendo un aspetto di un vasto programma finanziato dal NIH noto come CENTRO – Creazione di un nesso educativo per la formazione nel rigore sperimentale.
Kording guiderà la coorte di Penn creando la Community for Rigor che fornirà risorse ad accesso aperto sulla conduzione di una solida scienza. I membri di questa comunità scientifica inclusiva saranno in grado di impegnarsi con simulazioni ML e corsi basati sulla discussione.
“Il motivo della mancanza di machine learning negli scenari del mondo reale è dovuto a un uso improprio delle statistiche piuttosto che ai limiti dello strumento stesso”, afferma Kording. “Se uno studio pubblica un’affermazione che sembra troppo bella per essere vera, di solito lo è, e molte volte possiamo risalire al loro uso delle statistiche”.
Tali studi che si fanno strada nelle riviste sottoposte a revisione paritaria contribuiscono alla disinformazione e alla sfiducia nella scienza e sono più comuni di quanto ci si potrebbe aspettare.
Una recente pubblicazione ha attirato l’attenzione di Kording. Lo studio, che ha utilizzato l’apprendimento automatico sui dati delle scansioni MRI del cervello, ha affermato di aver creato un modello in grado di rilevare l’ideazione suicidaria con una precisione del 91%, un modello che sicuramente trasformerebbe alcune procedure diagnostiche.
Ma dopo aver ripetuto l’analisi dei dati di questo studio, Kording e il collega Tim Verstynen, professore associato di psicologia presso il Neuroscience Institute della Carnegie Mellon University, hanno trovato molti casi di hacking delle funzionalità che avrebbero portato i ricercatori a selezionare punti dati per creare un altamente specifico modello predittivo.
“Con solo 34 pazienti, il loro studio è iniziato con una dimensione del campione troppo piccola per portare a una scienza solida”, afferma Kording.
“I dati che hanno utilizzato erano una combinazione di parole relative alla mortalità e alle corrispondenti regioni del cervello che si illuminavano nelle scansioni MRI. Invece di utilizzare tutti i dati di ciascun paziente, hanno scelto parole e regioni specifiche.
Queste scelte hanno portato alla creazione di un modello dalle prestazioni molto elevate quando utilizzato e testato rispetto a quello specifico set di dati. Ma, se usato per prevedere l’ideazione suicidaria in pazienti reali, non sarebbe accurato.
La ricerca basata sui punti dati manipolati di 34 persone non servirà ai professionisti della salute mentale alla ricerca di strumenti diagnostici. Dopo La rianalisi di Kordinglo studio è stato ritirato dalla rivista.
Per fare progressi significativi nel campo del ML nella ricerca biomedica, sarà necessario aumentare la consapevolezza di questi problemi, aiutare i ricercatori a capire come identificarli e limitarli e creare una cultura più forte attorno al rigore scientifico nella comunità di ricerca.
Kording mira a comunicare che solo perché incorporare l’apprendimento automatico nella ricerca biomedica può introdurre spazio per pregiudizi non significa che gli scienziati dovrebbero evitarlo. Devono solo capire come usarlo in modo significativo.
La Community for Rigor mira ad affrontare le sfide del campo con piani specifici per creare un modulo sull’apprendimento automatico nella ricerca biomedica che guiderà i partecipanti attraverso set di dati e test statistici e individuerà le posizioni esatte in cui viene comunemente introdotto il pregiudizio.
La Comunità è ancora agli inizi, ma Kording e colleghi hanno in programma di pubblicare le risorse non appena l’autunno. Uno dei primi modi per essere coinvolti in questo sforzo è seguire La comunità per il rigore su Twitter e Unisciti alla conversazione condividendo in modo anonimo i propri errori e sfide di rigore scientifico.
“Sebbene sarebbe estremamente utile disporre di metodi semplici e accurati per diagnosticare e trattare le condizioni mediche, il nostro pregiudizio umano può intralciare ciò che i dati dicono o non dicono”, avverte Kording. “Questo è ciò che questa comunità mira a migliorare.”
Da un’altra testata giornalistica. news de www.technology.org