ChatGPT e Med-PaLM: l’Intelligenza Artificiale Generativa per la Medicina

Di Riccardo Bugliosi
Data di pubblicazione: 15 dicembre 2023

Alla base di una delle profonde trasformazioni che sta attraversando la nostra società c’è l’Intelligenza Artificiale Generativa (IAG). Si tratta di un tipo di Intelligenza Artificiale che è in grado di generare contenuti in maniera autonoma siano essi testi, immagini, voce, musica, suoni ed altro ancora. I modelli di IAG utilizzano sia complessi algoritmi di comprensione del linguaggio che tecniche di apprendimento automatico al fine di creare una conoscenza che, inizialmente basata su immense base dati utilizzati per il loro addestramento, sia in grado di ‘generare’ contenuti originali che risultino essere coerenti e contestuali.

I colossi della tecnologia digitale Meta (Facebook, Instagram, WhatsApp), Alphabet (Google), Microsoft stanno investendo grandi cifre per potersi assicurare fette di un mercato che non sembra avere limiti. Microsoft, per fare un esempio, ha investito dieci miliardi di dollari in Open AI, la casa produttrice di ChatGPT.

Chatbot

I chatbot sono software che sono in grado di interagire con l’utente parlando e scrivendo in modo tale da emulare in maniera molto sofisticata un essere umano. Alla base dei loro modelli più avanzati ci sono algoritmi di IAG. Ovviamente ci si chiede quanto questi nuovi software abbiano capacità di astrazione e di comprensione. Sino a poco tempo fa per valutare questo aspetto ci si riferiva al test di Touring nel quale è previsto uno scenario in cui dei giudici umani hanno delle conversazioni testuali con due differenti interlocutori nascosti dei quali uno è un computer. Se il computer riesce ad ingannare i giudici e riuscire a far credere di essere un umano ha superato il test.

Di recente, nel maggio 2023, alcuni ricercatori della società AI21 Labs di Tel Aviv hanno pubblicato uno studio nel quale è stato descritto un esperimento chiamato “Human or Not?” che ha coinvolto più di 1,5 milioni di persone. Gli utenti dell’esperimento hanno potuto accedere online ad un gioco basato sul test di Turing. Ai giocatori è stato assegnato il compito di chattare per due minuti con un altro giocatore il quale poteva essere un umano oppure un chatbot basato su IAG che i ricercatori avevano programmato per comportarsi come un essere umano. I partecipanti all’esperimento hanno identificato correttamente i robot solo il 60% delle volte e questo, a detta dei ricercatori, non è molto migliore del caso.

Molti ricercatori sono convinti che, allo stato attuale delle tecnologie testare i software di IAG secondo modalità tipo il test di Touring porti a conclusioni che fanno pensare a prestazioni eccezionali per l’IA. Al contrario utilizzando modalità di test più stringenti ed aggiornate gli stessi software possono mostrare evidenti limiti spesso correlati ad un’incapacità di ragionare su concetti astratti.

Date queste premesse ora si tende a valutare i sistemi di IAG utilizzando parametri di riferimento (benchmark) intesi a valutare le prestazioni su capacità specifiche, come l’abilità linguistica, il ragionamento basato sul buon senso e la capacità matematica (ostica per i sistemi di cui stiamo parlando). Come vedremo nel seguito sempre più spesso i gruppi di sviluppo utilizzano esami accademici e professionali molto stringenti pensati per le persone.

IAG in medicina

Lo sviluppo di un’IAG in grado di rispondere in modo accurato a domande mediche è una sfida imponente e, data la vastità dell’argomento, è fondamentale l’identificazione di un test in grado di fornire un benchmark che permetta di valutare i risultati raggiunti. A tal fine la capacità di rispondere alle domande secondo i modelli dell’USMLE è emersa come punto di riferimento accettato per valutare le prestazioni in campo medico.

L’USMLE (United States Medical Licensing Examination) è un esame standardizzato finalizzato ad ottenere la licenza medica per poter praticare la medicina negli Stati Uniti. È composto da una serie di esami strutturati su più livelli studiati per valutare le competenze e le conoscenze dei medici in formazione o laureati che desiderano esercitare negli Stati Uniti. L’USMLE valuta la capacità di un medico di applicare conoscenze, concetti e principi e di dimostrare competenze fondamentali.

L’esame è strutturato su tre livelli (step) e, giusto per fare un esempio, il primo livello consiste in un esame multiple-choice, circa 300 domande, cui si deve rispondere in 7 ore. È costruito in modo tale da non poter essere superato solo “tentando” le risposte, non è pensabile poter ‘provare’ senza uno studio approfondito e mirato.

Al momento in cui scrivo i chatbot più conosciuti sono stati realizzati da Open AI e da Google. La prima in particolare ha fatto scalpore alla fine del 2022 rendendo pubblico e disponibile ChatGPT, assurto subito all’apice delle cronache per le sue grandi capacità.

ChatGPT

ChatGPT (Generative Pre-training Transformer) è un sofisticato chatbot sviluppato da Open AI, software house fondata nel 2015 con scopi ‘etici’ (Open) di sviluppo di IA ed attualmente divenuta una delle principali realtà nel campo. Ad oggi è probabile sia avvenuto un sostanziale cambiamento della filosofia della società che è divenuta più sensibile alle necessità del mercato piuttosto che alle originali spinte etiche. ChatGPT è in grado di catturare le sfumature e le complessità del linguaggio umano ed è in grado di generare risposte frutto dell’immenso data base di informazioni sui quali inferisce.

Per farvi un esempio a dicembre 2023 ho chiesto a ChatGPT 4:

“Ciao, volevo sapere cosa sei”

ChatGPT: “Ciao! Sono un assistente virtuale basato su un modello di intelligenza artificiale chiamato ChatGPT. Sono stato creato per rispondere alle domande e aiutarti nelle tue richieste. Come posso assisterti oggi?”

“Secondo te dovrei chiederti chi sei o cosa sei?”

ChatGPT: “Buona domanda! Potresti chiedermi sia chi sono che cosa sono, ma la risposta dipende dal tuo punto di vista. Dal punto di vista funzionale, sono un assistente virtuale creato per fornire supporto e rispondere alle tue domande. Sono programmato per comprendere il linguaggio naturale e fornire risposte basate sulle informazioni di cui dispongo. Tuttavia, da un punto di vista più filosofico, potresti considerarmi come un’intelligenza artificiale che simula una conversazione umana. Sono un’entità digitale senza coscienza o emozioni, ma sono qui per aiutarti nel modo migliore possibile. Spero che questa risposta ti sia stata utile!”

Avendo dimostrato ChatGPT sin dal suo esordio delle caratteristiche estremamente performanti nel contesto dell’IAG è risultato ovvio pensare di verificarne le prestazioni in campo medico. Le sue potenziali applicazioni vanno dall’identificazione di nuovi settori di ricerca all’assistenza ai medici nella diagnosi clinica, alla valutazione di immagini biomediche e di dati strumentali. Può essere inoltre utilizzato per aiutare gli studenti di medicina, i medici e tutti i componenti del settore sanitario ad aggiornarsi nei rispettivi campi.

Oltre ai settori della conoscenza medica pura per i quali esistono un numero crescente di pubblicazioni che valutano le sue prestazioni ChatGPT-4, in uno specifico studio su Nature, è stato testato su 80 domande in stile USMLE che coinvolgono capacità di comunicazione, etica, empatia e professionalità. Il software ha risposto correttamente al 90% di queste ed ha mostrato capacità di empatia, suggerendo un forte potenziale dell’IAG nel soddisfare le complesse esigenze richieste.

Gemini

Google nel dicembre 2023 ha lanciato Gemini un nuovo tipo di chatbot che è il primo modello di IAG in grado di superare gli esperti umani nel MMLU (Massive Multitask Language Understanding). Introdotto dalla Cornell University questo test esprime un punteggio che permette di valutare le conoscenze acquisite da un modello cognitivo producendo test basati su 57 materie tra cui discipline umanistiche, scienze sociali, matematica, informatica, diritto. Per ottenere un alto punteggio in questo test i chatbot debbono possedere un’ampia conoscenza del mondo e dimostrare una capacità di risoluzione dei problemi (Problem Solving). Il tutto avviene in un contesto nel quale l’apprendimento del sistema si basa su pochi o nessun elemento utilizzati per istruirlo e quindi su grandi capacità di inferenza. Questo tipo di apprendimento, se eseguito con successo, consente all’IAG di essere più flessibile, adattabile ed efficace una volta utilizzata nel mondo reale. Il modello di IAG utilizzato in Gemini presto verrà implementato nel progetto Med-PaLM.

Med-PaLM 2

In campo medico Google ha sviluppato e sta testando uno specifico progetto chiamato Med-PaLM (Medical Pathways Language Model) che è giunto alla versione 2. Secondo i suoi creatori “Med-PaLM è un modello linguistico di grandi dimensioni (LLM, Large Language Model) progettato per fornire risposte di alta qualità a domande mediche.” Il primo articolo scientifico su Med-PaLM 2 (MP2) è stato pubblicato su Nature nel luglio 2023.

I veloci progressi compiuti dall’IAG negli ultimi anni hanno introdotto innovazioni come il Transformer (architettura di Deep Learning associata all’attenzione, di cui vi ho parlato in un precedente articolo) che hanno consentito ai modelli di apprendimento linguistico di grandi dimensioni di gestire miliardi di parametri – come avviene con MP2 – consentendo a questi software di andare oltre la limitata individuazione di modelli cognitivi e permettere loro di creare nuovi contenuti significativi e pertinenti.

Questo modello di IAG nel marzo 2023 ha raggiunto una precisione dell’86% in un vasto test con domande tipo USMLE ottenendo il punteggio più alto mai registrato da un modello di IA, secondo i risultati pubblicati da Google Health. MP2 ha risposto sia a domande a scelta multipla che a domande aperte ed ha inoltre fornito spiegazioni scritte per le sue risposte. Questo risultato permette di stabilire che questo modello di IAG ha raggiunto una precisione ed un’efficienza quasi umane in un test pratico USMLE.

È importante sottolineare che MP2 è stato il primo sistema di IA a superare il punteggio minimo nelle domande secondo i modelli USMLE.

In un ulteriore studio in via di pubblicazione i ricercatori di Google hanno nuovamente testato le prestazioni di MP2 ed hanno potuto constatare che le risposte del software sono state in linea con il consenso medico e scientifico nel 92,6% dei casi. In questo contesto i medici umani hanno ottenuto un punteggio complessivo del 92,9%. Va sottolineato che le risposte del chatbot si sono dimostrate più povere di contenuti rispetto a quelle fornite dai medici.

Forte di queste premesse Google ha iniziato a testare MP2 in una serie di progetti che coinvolgono il mondo reale:

Ecografie: vengono sperimentati modelli di IA che possano aiutare a semplificare l’acquisizione e l’interpretazione delle immagini ecografiche allo scopo, per esempio, di identificare l’età gestazionale nelle gestanti oppure di diagnosticare precocemente il cancro al seno.
Ultrasuoni: in collaborazione con il Chang Gung Memorial Hospital di Taiwan per la diagnosi precoce del cancro al seno utilizzando gli ultrasuoni.
Radioterapie: con la Mayo Clinic è in corso uno studio per aiutare i radiologi nel processo di ‘contouring’ delle radioterapie al fine di ridurre i tempi di tale processo che può durare ore.
Radiologia e tubercolosi: in collaborazione con ‘Right to Care’, un’organizzazione no-profit, è in corso un progetto che ha come obiettivo quello di permettere di sfruttare l’IAG per rendere più facilmente disponibili gli screening delle radiografie del torace in tutta l’Africa sub-sahariana.

Uno sguardo al futuro

Visti i risultati sempre più promettenti di questi test, è plausibile che i modelli di IAG, come ChatGPT-4 ed MP2, potrebbero in futuro raggiungere un livello di accuratezza e capacità cognitive che consentirebbe ai medici di utilizzarli nella loro pratica quotidiana affiancandoli al fine di migliorare i percorsi diagnostici e terapeutici offerti ai pazienti.

Lo sviluppo di chatbot per supportare i pazienti nella gestione della propria salute è un’altra importante frontiera di questo sviluppo dell’IAG.

Fatte queste premesse risulta evidente che l’uso di strumenti di IAG in medicina pone grandi problematiche etiche, legali ed umane che dovremo affrontare.

A presto.

Per contattare l’autore potete scrivere una mail a: comunicazione@cassagaleno.it

Riccardo Bugliosi è medico, specialista in Medicina Interna. Ha pregressi studi universitari in Fisica ed Ingegneria Elettronica. Esperto di Intelligenza Artificiale lavora nell’ICT. Le sue pubblicazioni sono facilmente reperibili sul web.

L'UNICA CASSA MUTUA COOPERATIVA
CREATA DAI MEDICI PER I MEDICI