Chatbot medici e IA: 7 volte su 10 sbagliano
I chatbot medici basati su intelligenza artificiale sono potentissimi, sanno processare quantità di enormi di dati, ma sulle diagnosi 7 vuole su 10 sbagliano. Un’analisi recente, premiata dall’Ordine dei Medici di Milano nell’ambito dei riconoscimenti dedicati a Roberto Anzalone, mette sotto la lente l’affidabilità dei chatbot medici basati su intelligenza artificiale. Il messaggio centrale è netto: l’IA può supportare, ma non sostituire, l’occhio clinico del patologo.
Come è stato condotto il test
Il gruppo di ricerca guidato da Vincenzo Guastafierro (Istituto Clinico Humanitas, Humanitas University, Rozzano) ha creato cinque scenari clinici realistici, allineati alle linee guida e validati da patologi esperti. Sono state poste 200 domande a un chatbot (ChatGPT) su diverse sottospecialità, in parte a risposta aperta, in parte a scelta multipla, con e senza richiesta di riferimenti scientifici.
I numeri che fanno riflettere
Dall’analisi, pubblicata sull’European Journal of Pathology, emerge che:
- il chatbot ha fornito risposte utili nel 62,2% dei casi;
- solo il 32,1% degli output era privo di errori;
- circa il 70% delle risposte conteneva almeno un errore;
- tra i 214 riferimenti bibliografici generati, il 70,1% era corretto, il 12,1% inaccurato e il 17,8% inesistente (costruito dall’IA in modo verosimile ma non reale).
Quando i chatbot con IA sbagliano
Tra gli esempi più critici figurano una diagnosi errata di carcinoma cutaneo e la classificazione sbagliata di un tumore della mammella, accompagnate da citazioni bibliografiche inesatte o inventate. Errori di questo tipo, se non intercettati da uno specialista, possono orientare verso percorsi diagnostici e terapeutici inappropriati.
Le implicazioni per clinici e pazienti
Lo studio invita alla massima cautela nell’uso dei chatbot in ambito diagnostico di routine e come strumento di autoapprendimento. L’IA può accelerare il reperimento di informazioni e ampliare il confronto, ma la responsabilità clinica e l’interpretazione restano insostituibili. Per i pazienti, affidarsi ai chatbot per autodiagnosi è rischioso: senza la supervisione medica si rischiano interpretazioni fuorvianti.
Cosa dicono i ricercatori
“Abbiamo voluto stimare i rischi dell’IA nella pratica reale – spiega Guastafierro – e i dati indicano che queste tecnologie vanno usate come supporto, non come sostituto della competenza umana. L’imprecisione dei riferimenti suggerisce prudenza anche in ambito formativo”.
Il team proseguirà testando versioni più aggiornate dei modelli per misurarne l’evoluzione. L’obiettivo è capire se e quanto l’affidabilità crescerà, definendo standard di validazione più rigorosi e procedure di verifica delle fonti direttamente integrate negli strumenti.
Leggi anche:

it freepik

