Il software di intelligenza artificiale è stato in grado di ottenere punteggi positivi per l’esame, che di solito richiede anni di formazione medica.
ChatGPT di OpenAI può ottenere un punteggio pari o intorno alla soglia di superamento di circa il 60% per l’esame di licenza medica degli Stati Uniti (USMLE), con risposte che hanno un senso interno coerente e contengono approfondimenti frequenti. Questo è secondo uno studio di Tiffany Kung, Victor Tseng e colleghi di AnsibleHealth, pubblicato il 9 febbraio 2023 sulla rivista ad accesso aperto PLOS Salute Digitale.
ChatGPT è un nuovo sistema di intelligenza artificiale (AI), noto come modello di linguaggio di grandi dimensioni (LLM), progettato per generare una scrittura simile a quella umana prevedendo le sequenze di parole imminenti. A differenza della maggior parte dei chatbot, ChatGPT non può eseguire ricerche in Internet. Al contrario, genera testo utilizzando relazioni di parole previste dai suoi processi interni.
Kung e colleghi hanno testato le prestazioni di ChatGPT sull’USMLE, una serie altamente standardizzata e regolamentata di tre esami (Fasi 1, 2CK e 3) richiesti per la licenza medica negli Stati Uniti. Preso da studenti di medicina e medici in formazione, l’USMLE valuta le conoscenze che abbracciano la maggior parte delle discipline mediche, dalla biochimica, al ragionamento diagnostico, alla bioetica.
Dopo lo screening per rimuovere le domande basate su immagini, gli autori hanno testato il software su 350 delle 376 domande pubbliche disponibili dalla versione USMLE di giugno 2022.
Dopo la rimozione delle risposte indeterminate, ChatGPT ha ottenuto un punteggio compreso tra il 52,4% e il 75,0% nei tre esami USMLE. La soglia di superamento ogni anno è di circa il 60%. ChatGPT ha anche dimostrato una concordanza del 94,6% in tutte le sue risposte e ha prodotto almeno un’intuizione significativa (qualcosa di nuovo, non ovvio e clinicamente valido) per l’88,9% delle sue risposte. In particolare, ChatGPT ha superato le prestazioni di PubMedGPT, un modello di controparte addestrato esclusivamente sulla letteratura di dominio biomedico, che ha ottenuto il 50,8% su un set di dati più vecchio di domande in stile USMLE.
Mentre la dimensione relativamente piccola dell’input limitava la profondità e la gamma di analisi, gli autori notano che i loro risultati forniscono un assaggio del potenziale di ChatGPT per migliorare l’educazione medica e, infine, la pratica clinica. Ad esempio, aggiungono, i medici di AnsibleHealth utilizzano già ChatGPT per riscrivere rapporti pesanti in gergo per una più facile comprensione da parte del paziente.
“Raggiungere il punteggio minimo per questo esame esperto notoriamente difficile, e farlo senza alcun rinforzo umano, segna una pietra miliare notevole nella maturazione clinica dell’IA”, affermano gli autori.
L’autore Dr. Tiffany Kung ha aggiunto che il ruolo di ChatGPT in questa ricerca è andato oltre l’essere oggetto di studio: “ChatGPT ha contribuito in modo sostanziale alla scrittura di [our] manoscritto… Abbiamo interagito con ChatGPT proprio come un collega, chiedendogli di sintetizzare, semplificare e offrire contrappunti alle bozze in corso… Tutti i coautori hanno apprezzato l’input di ChatGPT.”
Riferimento: “Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models” di Tiffany H. Kung, Morgan Cheatham, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo e Victor Tseng, 9 febbraio 2023, PLOS Salute Digitale.
DOI: 10.1371/journal.pdig.0000198
Come test, abbiamo chiesto a ChatGPT di riassumere questo articolo. Ecco i risultati inediti:
Uno studio di Tiffany Kung, Victor Tseng e colleghi di AnsibleHealth ha dimostrato che il ChatGPT di OpenAI può superare il livello del 60% nell’esame di licenza medica degli Stati Uniti (USMLE). ChatGPT è un modello di linguaggio di intelligenza artificiale che genera testo prevedendo sequenze di parole, ma non ha la capacità di cercare in Internet. I ricercatori hanno testato le prestazioni di ChatGPT su 350 delle 376 domande pubbliche della versione USMLE di giugno 2022 e hanno scoperto che ha ottenuto un punteggio compreso tra il 52,4% e il 75,0% nei tre esami. Lo studio ha mostrato che ChatGPT ha prodotto almeno un’intuizione significativa per l’88,9% delle sue risposte e ha superato PubMedGPT, un modello addestrato esclusivamente sulla letteratura biomedica. Gli autori ritengono che ChatGPT abbia il potenziale per migliorare l’educazione medica e, infine, la pratica clinica.
Da un’altra testata giornalistica news de www.europeantimes.news