L'UNICA CASSA MUTUA COOPERATIVA
CREATA DAI MEDICI PER I MEDICI

Alpha Missense. L’Intelligenza Artificiale per lo studio delle mutazioni genetiche

Alpha Missense. L’Intelligenza Artificiale per lo studio delle mutazioni genetiche

Di Riccardo Bugliosi
Data di pubblicazione: 18 ottobre 2023

Sentiamo spesso parlare delle mutazioni genetiche e cioè di quei cambiamenti nelle sequenze di nucleotidi che compongono il DNA. Sappiamo che una mutazione del DNA di una cellula può avvenire casualmente oppure come conseguenza dell’esposizione ad agenti mutageni fisici, chimici o biologici.

In relazione alle conseguenze che produce definiamo una mutazione neutra, benefica o dannosa. Nel primo caso essa non influenza significativamente la funzione della proteina codificata, questo perché l’aminoacido sostituito è simile a quello originale e quindi la funzione della proteina prodotta risulta conservata. Nel secondo caso si definisce benefica in quanto può far produrre una proteina con una funzione migliorata o con nuove capacità che sono vantaggiose per l’organismo. Si tratta di un tipo piuttosto raro. Infine una mutazione è definita dannosa se genera un aminoacido che compromette la struttura o la funzione della proteina codificata causando un suo mutato o scarso funzionamento. In questo caso si possono manifestare patologie genetiche o predisposizioni verso malattie. Chiaramente le mutazioni possono essere trasmesse alle generazioni successive se coinvolgono le cellule germinali (ovociti o spermatozoi).

L’accumulo graduale di piccole mutazioni nel corso delle generazioni è alla base dell’evoluzione delle specie in quanto apportando un qualche vantaggio adattativo all’ambiente, diviene un agente evolutivo. Al contrario i tipi di mutazioni non evolutive possono favorire la comparsa di numerose patologie tra le quali le neoplasie.

Esistono vari tipi di mutazioni ma quella che ci interessa in questo articolo è chiamata Missense (in italiano Missenso): con Mutazione Missense (MM) si intende una mutazione nella quale una singola base del DNA è sostituita da un’altra generando la produzione di un codone alterato. Ricordiamo che il codone è l’unità di informazione del codice genetico ed è costituito da una sequenza di tre nucleotidi (tripletta).  La gravità degli effetti di una MM dipende dalla posizione dell’aminoacido da essa codificato nella proteina, dalla sua importanza funzionale e dalla natura chimica dell’aminoacido sostituito.

Anemia falciforme

La condizione più conosciuta associata ad una MM è l’anemia falciforme o drepanocitosi. In questa patologia la proteina dell’emoglobina presenta una mutazione che modifica l’aminoacido glutammato, che è idrofilo, in valina, che è idrofoba. Ne risulta che a causa delle alterazioni dell’emoglobina prodotta i globuli rossi divengono rigidi, la loro superficie si fa irregolare ed assumono la caratteristica forma di una falce. Si tratta di una patologia autosomica recessiva, questo significa che i pazienti con anemia falciforme sono omozigoti per la mutazione. Gli individui eterozigoti, che ricevono un gene mutato da un genitore ed il suo allele sano dall’altro, sono invece asintomatici. L’anemia falciforme è particolarmente diffusa nelle regioni mediterranee (soprattutto africane) e più in generale in quelle aree dove la malaria è endemica e questa diffusione si spiega con il fatto che essa garantisce un effetto protettivo contro questa malattia. Le modificazioni nella struttura dell’emoglobina indotte dall’ anemia falciforme impediscono al Plasmodium Falciparum, il parassita che veicola la malaria, lo sfruttamento delle risorse cellulari.

 

In generale lo studio delle MM è fondamentale nel campo delle malattie rare. Tra le patologie nelle quali sono presenti tra l’altro mutazioni missenso annoveriamo tra le molte la fibrosi cistica, la Sindrome di Marfan (che ha colpito famosi personaggi storici come Niccolò Paganini, Charles de Gaulle, Abramo Lincoln e forse il faraone Akhenaton), le Sindromi di Ehlers-Danlos e la malattia di Huntington. Quest’ultima è piuttosto conosciuta anche al grande pubblico perché è stata inserita nella trama di serie televisive molto famose (Remy “Thirteen” Hadley in ‘Dr. House’, John Davenport in ‘Diavoli’, Chris in ‘ZeroZeroZero’). È una malattia neurodegenerativa ereditaria causata da una MM del gene HTT. Questa provoca la produzione di una forma anomala della proteina huntingtina che danneggia alcune cellule nervose del cervello. Questo produce la degenerazione delle aree deputate a rendere fluidi e coordinati i movimenti: questi ultimi diventano convulsi e scoordinati, inoltre, nel tempo, si deteriorano le capacità di autocontrollo e di memoria. L’Huntington è devastante. Ad oggi per i pazienti esiste solo l’accettazione della diagnosi in quanto la guarigione è impossibile: l’unica terapia esistente è sintomatica.

Sin qui abbiamo parlato di patologie per le quali conosciamo almeno in parte le conseguenze delle MM ma purtroppo, in generale, sino ad ora non siamo stati in grado di prevedere o quantomeno ipotizzare le conseguenze di una MM e questo nonostante il fatto che tale capacità sarebbe fondamentale per lo studio di un vasto numero di patologie, sia rare sia comuni come il diabete. Sino ad oggi per affrontare lo studio delle singole MM occorrevano mesi di duro lavoro e costi elevati ma dal settembre 2023 le prospettive stanno cambiando radicalmente con l’entrata in campo dell’Intelligenza Artificiale (IA).

L’avvento dell’Intelligenza Artificiale

Nel genoma umano sono presenti decine di milioni di possibili MM e in media ogni persona ne presenta più di 9000, è ovvio che la stragrande maggioranza di esse non siano in grado di produrre alterazioni genetiche rilevanti. Per capire come si esprime una MM abbiamo bisogno in primo luogo di uno strumento che sia in grado di ricostruire la struttura 3D delle proteine espresse con la MM. Questo obiettivo è stato raggiunto con Alpha Fold.  Questo software è stato il ‘game changer’.

AlphaFold

Nel 2018 è stato presentato AlphaFold, un software di IA che è in grado di ricostruire con grande attendibilità la struttura 3D di quasi tutte le proteine conosciute dalla scienza a partire dalla loro codifica DNA e che ha permesso a Deep Mind (Google, Alphabet), la casa che lo produce, di rendere pubblico nel 2022, con la versione AlphaFold 2, un database di 214 milioni di strutture proteiche 3D.

Nello stesso periodo anche Meta, la società proprietaria di Facebook, Instagram e WhatsApp, ha realizzato un software di IA con lo stesso obiettivo noto come ESMFold mediante il quale ha poi pubblicato e reso disponibile un database di 617 milioni di strutture proteiche 3D. Meta afferma che ESMfold è 60 volte più veloce di AlphaFold 2 ma è al contempo meno preciso. Il database creato da ESMFold è di maggiori dimensioni rispetto a quello di Alpha Fold 2 perché ha fatto previsioni a partire da sequenze genetiche che non erano precedentemente state studiate.

Gli scienziati di tutto il mondo utilizzano intensivamente questi due data base. Secondo Meta, il modello ESMfold ha circa 250.000 download mensili a partire dal suo rilascio nel 2022, con 1.000 strutture proteiche previste ogni ora. Sono numeri da capogiro.

D’altra parte, secondo Deep Mind, da quando AlphaFold (nella versione 1) è stato rilasciato, più di un milione di ricercatori e biologi in oltre 190 paesi hanno utilizzato il database per visualizzare tre milioni di strutture proteiche.

Algoritmi di ‘Attenzione’ nel Deep Learning

AlphaFold 2, evoluzione di AlphaFold, ha introdotto nei suoi algoritmi di Deep Learning dei meccanismi di apprensione che sono molto utilizzati nella traduzione e comprensione del linguaggio scritto e parlato (Natural Language Processing, NLP). Vi ricordo che ho già affrontato il tema del Deep Learning in un mio precedente articolo.

Selettività

Sappiamo che il linguaggio umano può essere ambiguo ma anche poco strutturato oppure incompleto: alcune parole sono essenziali per la comprensione dei concetti espressi, altre, invece, possono essere superflue oppure ridondanti. In casi particolari all’interno di una frase posso mancare del tutto delle parole. Tipico può essere il caso di un testo incompleto che si presenta ad un archeologo nello studio dell’epigrafia che è piena di testi frammentari. Da qui nasce l’importanza del riconoscimento delle parole chiave che è alla base del meccanismo di attenzione (Attention).

La chiave alla base degli algoritmi di attenzione è la selettività: essi possono scegliere le parole o le frasi più importanti in un contesto e questo possono farlo sulla base di confronti con modelli di parole che hanno già incontrato ed imparato a riconoscere nella fase di addestramento.

Sia Bard di Google che ChatGPT di OpenAI si servono estesamente degli algoritmi di attenzione.

Potete approcciare il meccanismo dell’attenzione nel seguente video di Google, molto semplice ma efficace.

Possiamo pensare alle basi del concetto di attenzione con questo esempio: se vi dovessero chiedere in quale serie TV troviamo la frase

Un Lannister paga sempre i sui debiti” oppure

Signor Spitaleri, mi sono scassato i cabasisi a vederla rispondere così

per rispondere la vostra mente non presterà la stessa attenzione alle singole parole delle singole frasi ma, sicuramente, “Lannister” e “cabasisi” avranno attirato la vostra attenzione, questo perché sono facilmente associabili a Game of Thrones ed al Commissario Montalbano.

Gli algoritmi di attenzione nel contesto di una frase invece di analizzare ogni singola parola dandole la stessa importanza si concentrano sulle parole chiave dando un ‘peso’ minore alle altre. In questo modo si migliorano nettamente le prestazioni del Natural Language Processing.

AlphaMissense

Dopo gli spettacolari risultati di AlphaFold 2 (di cui vi ho parlato in un precedente articolo), alcuni ricercatori di Deep Mind hanno pensato di estrapolare  le sue capacità per realizzare un nuovo software al fine di studiare le MM: è nato così Alpha Missense che è stato presentato nel settembre 2023 con un articolo su Science. Nonostante sia basato su AlphaFold 2 Alpha Missense introduce delle innovazioni che sono funzionali alla specifica problematica.  Nello specifico AM lavora utilizzando un modello linguistico di grandi dimensioni simile a quello che si trova alla base di ChatGPT di OpenAI e di Bard di Google. “È un modello linguistico, ma addestrato sulle sequenze proteiche”, secondo uno dei suoi autori. Il sistema ha imparato come dovrebbero apparire le normali sequenze di amminoacidi nelle proteine, quando in seguito analizza una sequenza errata se ne accorge nello stesso modo in cui noi notiamo una parola incoerente nel contesto di una frase.

Allo stesso tempo, il programma ha familiarizzato con il ‘linguaggio’ delle proteine studiando milioni di sequenze in modo da poter dedurre l’aspetto di una proteina ‘sana’. Una volta pronto, l’algoritmo si è rivelato in grado di valutare le MM generando un punteggio che descrive la probabilità che causino malattie. Questo ha permesso ai ricercatori di pubblicare un data base e, citando il sito di Deep Mind:

Abbiamo reso le previsioni di AlphaMissense liberamente disponibili alla comunità scientifica. Insieme all’EMBL-EBI, li stiamo anche rendendo più utilizzabili per i ricercatori attraverso l’Ensembl Variant Effect Predictor“  inoltre

Abbiamo incluso anche la previsione media per ciascun gene, che è simile alla misurazione del vincolo evolutivo di un gene: ciò indica quanto il gene sia essenziale per la sopravvivenza dell’organismo.

Le previsioni prodotte potrebbero migliorare la nostra capacità di comprensione delle malattie rare ed aiutare a trovare nuovi geni coinvolti in dette patologie.

Data l’ovvia importanza di queste ricerche per la produzione di nuovi farmaci, numerosi centri di ricerca ed aziende farmaceutiche hanno cominciato ad utilizzare l’IA per lo sviluppo di nuovi farmaci. Nel prossimo futuro l’uso dell’IA sia la previsione della struttura 3D delle proteine sia la capacità di capire le conseguenze delle mutazioni porteranno a progettare farmaci sempre più efficaci ed aiuteranno ad affrontare patologie per le quali al momento non abbiamo cure efficaci.

AlphaMissense è disponibile online su GitHub che è una piattaforma basata su cloud finalizzata allo sviluppo di software ed al suo successivo debug e controllo.

In ultimo mi piace sottolineare che un giovane ingegnere italiano, Guido Novati, è il secondo autore dell’articolo su Science che ha presentato Alpha Missence al mondo.  

A presto.

Per contattare l’autore potete scrivere una mail a: comunicazione@cassagaleno.it

Riccardo Bugliosi è medico, specialista in Medicina Interna. Ha pregressi studi universitari in Fisica ed Ingegneria Elettronica. Esperto di Intelligenza Artificiale lavora nell’ICT. Le sue pubblicazioni sono facilmente reperibili sul web.

Riccardo Bugliosi è medico, specialista in Medicina Interna. Ha pregressi studi universitari in Fisica ed Ingegneria Elettronica. Esperto di Intelligenza Artificiale lavora nell’ICT. Le sue pubblicazioni sono facilmente reperibili sul web.