Sembra fantascienza, ma è realtà: ChatGPT-4, l’ultima versione del chatbot di OpenAI, ha superato il test medico britannico UKMLA, lo stesso esame che devono affrontare i medici in carne ed ossa. Un gruppo di ricercatori ha deciso di mettere alla prova le capacità dell’intelligenza artificiale con risultati sorprendenti.
Il test ha rivelato che l’IA eccelle nella formulazione di diagnosi, ma mostra evidenti difficoltà quando si tratta di proporre cure o gestire situazioni cliniche complesse, sollevando interrogativi sul suo potenziale ruolo nel futuro della medicina.
Cos’è l’UKMLA e perché è importante
Nel Regno Unito, per ottenere la licenza in medicina è necessario superare il Medical Licensing Assessment (MLA), conosciuto anche come United Kingdom Medical Licensing Assessment (UKMLA). Si tratta di un test standardizzato che valuta le conoscenze cliniche sia dei futuri medici che dei professionisti stranieri che desiderano esercitare nel paese.
Questo esame rappresenta uno standard rigoroso di competenza medica richiesto a tutti i praticanti.
Come si è svolto il test
Il nuovo modello di intelligenza artificiale di OpenAI ha dovuto rispondere a 191 domande, di cui 9 sono state annullate perché ChatGPT non è riuscito a fornire risposte. Le domande coprivano 24 aree cliniche differenti, tra cui cardiologia, pediatria, medicina d’urgenza e salute mentale.
I quesiti sono stati proposti in due versioni: scelta multipla e risposta aperta. ChatGPT ha dimostrato una notevole precisione in entrambi i formati, raggiungendo un’accuratezza dell’86,3% e 89,6% nei test a scelta multipla, mentre le performance sono diminuite con risposte libere, scendendo al 61,5% e 74,7% rispettivamente.
Risultati del test
I risultati hanno evidenziato prestazioni impressionanti ma disomogenee di ChatGPT. Nella diagnosi, il chatbot ha raggiunto un’eccellente accuratezza del 91,2% nelle domande con opzioni multiple e dell’84,2% in quelle a risposta libera.
Tuttavia, quando si è trattato di gestione clinica, le performance sono crollate drasticamente al 51,2% nei quesiti senza opzioni. Questo divario significativo suggerisce che, sebbene l’IA possa identificare efficacemente patologie, presenta ancora notevoli limiti nell’elaborare terapie appropriate, confermando l’idea che ChatGPT sia più adatto come strumento di supporto che come sostituto del medico.
Il ruolo di ChatGPT nella medicina
I risultati del test rivelano che l’intelligenza artificiale può servire come valido strumento di supporto per i professionisti sanitari. ChatGPT potrebbe affiancare i medici nell’analisi dei sintomi e nella formulazione di diagnosi preliminari, dove ha dimostrato particolare efficacia.
Le carenze riscontrate nella gestione clinica confermano che l’IA non è pronta a sostituire il giudizio medico umano. Il suo vero valore risiede nell’essere un assistente didattico per studenti di medicina, uno strumento di consultazione rapida per professionisti e un supporto per il monitoraggio continuo dei pazienti, sempre sotto la supervisione di personale qualificato.