Intelligenza artificiale in medicina: eccellente nei test, ma non nei colloqui
L’intelligenza artificiale ha fatto enormi progressi nel campo medico. I modelli linguistici di grandi dimensioni, come ChatGPT, Claude e Gemini, sono ormai in grado di risolvere i test di medicina. Tuttavia, quando si tratta di simulare le dinamiche complesse di un colloquio clinico con un paziente, le loro prestazioni non sono altrettanto soddisfacenti. A sottolinearlo è un nuovo studio, pubblicato su Nature Medicine, che analizza le lacune dei cosiddetti Large Language Models (LLM) nella gestione di colloqui medici.
La promessa della AI in medicina
Negli ultimi anni, l’adozione dell’intelligenza artificiale in ambito sanitario ha suscitato grandi aspettative. ChatGPT e altri modelli di linguaggio, infatti, sono in grado di raccogliere anamnesi, rispondere a domande, in alcuni casi, formulare diagnosi preliminari. Questi strumenti, sebbene non possano ancora sostituire del tutto i medici, sono visti come alleati per alleggerire il carico di lavoro. Anche gli utenti si rivolgono a queste tecnologie per comprendere i sintomi o interpretare i risultati di esami.
Tuttavia, la realtà è più complessa. Nonostante i buoni risultati nei test medici standardizzati, come quelli somministrati agli studenti di medicina o ai medici specializzandi, queste tecnologie non sono ancora in grado di sostenere interazioni più naturali e complesse, come quelle tipiche di una visita medica.
I limiti dei modelli di AI
Uno studio condotto dalla Harvard Medical School e dalla Stanford University ha messo in luce le difficoltà che questi modelli incontrano durante le conversazioni simulate con i pazienti. Utilizzando un framework di valutazione denominato CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine), i ricercatori hanno testato quattro modelli di AI in circa 2.000 casistiche cliniche. I risultati hanno rivelato che, pur eccellendo nei test medici tradizionali, i modelli hanno mostrato prestazioni deludenti durante le simulazioni di colloqui clinici, dove le informazioni non sono sempre chiare o complete.
Le sfide del colloquio medico-paziente
Il colloquio medico richiede abilità specifiche nell’interazione con il paziente, per raccogliere informazioni frammentate e per formulare domande al momento giusto. Queste interazioni sono particolarmente difficili per l’intelligenza artificiale, che trova arduo sintetizzare le informazioni disorganizzate fornite dai pazienti. I modelli di AI hanno mostrato carenze nel porre domande pertinenti, raccogliere informazioni cruciali e ragionare sui sintomi.
Il professor Pranav Rajpurkar, uno degli autori principali dello studio, ha spiegato che «mentre questi modelli eccellono negli esami standard, hanno difficoltà nel semplice “botta e risposta” di una visita medica». La natura dinamica di una conversazione clinica, che richiede un flusso continuo di informazioni e domande, rende difficile per l’AI gestire questi colloqui in modo accurato.
Bias cognitivi nei modelli di intelligenza artificiale
Un altro problema sollevato dallo studio è la presenza di bias cognitivi nei modelli di intelligenza artificiale. Questi bias sono simili a quelli che si possono osservare nei medici umani, ma in alcuni casi sono anche più evidenti. Uno studio pubblicato su NEJM AI a fine novembre ha rilevato che i modelli AI possono replicare o addirittura amplificare i pregiudizi cognitivi umani, con possibili implicazioni negative sulla qualità delle diagnosi.
L’importanza di test più realistici
CRAFT-MD, sviluppato per simulare interazioni realistiche tra medici e pazienti, ha mostrato che gli LLM soffrono nel raccogliere informazioni rilevanti su sintomi, farmaci e storia familiare. A differenza dei test a risposta multipla, in cui le informazioni sono chiare e ben strutturate, le conversazioni reali presentano una quantità maggiore di variabili da gestire. Come sottolineato da Shreya Johri, co-autrice dello studio, «abbiamo bisogno di un framework di test che rifletta meglio la realtà».
CRAFT-MD, infatti, ha permesso di valutare l’efficacia dei modelli di AI in condizioni che imitano più fedelmente le situazioni del mondo reale, fornendo un quadro migliore per ottimizzare le prestazioni dei modelli in futuro.
I problemi nei colloqui clinici
I modelli AI, durante i colloqui clinici simulati, hanno avuto difficoltà a mantenere la coerenza nelle domande e nel raccogliere l’anamnesi completa. Hanno anche incontrato problemi nel ragionare sulla base di informazioni parziali o frammentate, elemento che è particolarmente comune nelle situazioni mediche reali. Questo ha compromesso la loro capacità di formulare diagnosi accurate, riducendo l’affidabilità degli strumenti AI nelle interazioni complesse con i pazienti.
I modelli AI hanno mostrato, inoltre, una scarsa capacità di adattarsi a un colloquio di tipo “botta e risposta”, ovvero quello che caratterizza la maggior parte delle conversazioni mediche reali, rispetto a scenari più rigidi e strutturati.
L’approccio futuro
Gli esperti suggeriscono che, per garantire l’adozione efficace dell’AI nella pratica clinica, sia essenziale continuare a perfezionare strumenti come CRAFT-MD, che potrebbero anche contribuire a ridurre i costi sanitari.
Nel lungo periodo, i ricercatori si aspettano che i modelli di intelligenza artificiale diventino più sofisticati, in grado di raccogliere informazioni mediche in modo più accurato e di rispondere alle esigenze pratiche del contesto sanitario. Tuttavia, l’interazione diretta con i pazienti richiede un approccio che vada oltre i test teorici, mettendo in risalto l’importanza di un’integrazione graduale della AI nelle pratiche quotidiane.
L’intelligenza artificiale può certamente migliorare l’efficienza del sistema sanitario, ma, al momento, è chiaro che per affrontare le sfide della medicina del futuro, i modelli di AI devono evolversi. Come affermato da Roxana Daneshjou, co-autrice dello studio, «CRAFT-MD crea un quadro che rispecchia più da vicino le interazioni del mondo reale e aiuta a far progredire il settore nel testare le prestazioni del modello di intelligenza artificiale nell’assistenza sanitaria».