Con un grande balzo in avanti nel campo della genomica, mercoledì Google ha presentato un potente modello di intelligenza artificiale in grado di prevedere come le singole mutazioni del DNA influenzano il complesso meccanismo che regola l’attività genica.

Chiamato AlphaGenome, lo strumento copre sia le regioni codificanti che quelle non codificanti del genoma, offrendo una visione unificata degli effetti delle varianti come mai prima d’ora.

Fornisce informazioni dettagliate a livello di base per l’analisi genomica a lungo raggio, decodificando l’impatto delle mutazioni con velocità, scala e profondità senza precedenti.

Il modello elabora fino a 1 milione di coppie di basi in un unico passaggio e prevede migliaia di proprietà molecolari, tra cui l’espressione genica, i modelli di splicing, i siti di legame delle proteine e l’accessibilità della cromatina in diversi tipi di cellule.

È la prima volta che una gamma così ampia di caratteristiche regolatorie può essere modellata congiuntamente utilizzando un unico sistema di intelligenza artificiale.

L’architettura di AlphaGenome utilizza innanzitutto livelli convoluzionali per individuare modelli brevi nella sequenza del DNA, quindi applica dei trasformatori per condividere le informazioni lungo l’intero tratto di codice genetico. Una serie finale di livelli converte questi modelli appresi in previsioni relative a varie caratteristiche genomiche.

Durante l’addestramento, tutti i calcoli per una singola sequenza sono distribuiti su più unità di elaborazione tensoriale (TPU) interconnesse, consentendo un’elaborazione efficiente su larga scala.

Un singolo modello è stato addestrato in sole quattro ore, utilizzando la metà del budget di calcolo richiesto dal suo predecessore, Enformer.

Costruito come successore di Enformer e complementare ad AlphaMissense, AlphaGenome è l’unico modello in grado di prevedere congiuntamente tutte le modalità molecolari valutate, superando o eguagliando i modelli specializzati in 24 dei 26 test di benchmark.

È stato addestrato su enormi set di dati pubblici, tra cui ENCODE, GTEx, 4D Nucleome e FANTOM5.

API singola, informazioni più approfondite

A differenza dei modelli precedenti che sacrificavano la risoluzione a favore della lunghezza della sequenza, AlphaGenome gestisce entrambi con precisione. Cattura il contesto genomico a lungo raggio e offre previsioni a livello di base, svelando informazioni sulla biologia delle malattie, la ricerca sulle varianti rare, la progettazione di DNA sintetico e altro ancora.

Una caratteristica distintiva del nuovo modello è il suo sistema di punteggio delle varianti, che contrappone in modo efficiente il DNA mutato e non mutato per valutare l’impatto attraverso diverse modalità.

È inoltre dotato di modellazione delle giunzioni di splicing, un approccio unico nel suo genere per prevedere le interruzioni dello splicing dell’RNA legate a malattie come la fibrosi cistica e l’atrofia muscolare spinale.

Nella biologia sintetica, AlphaGenome potrebbe aiutare a progettare sequenze regolatorie che attivano i geni in modo selettivo, ad esempio nelle cellule nervose ma non in quelle muscolari.

Il modello potrebbe anche rivelarsi utile nello studio di varianti rare con effetti biologici di grande portata, come quelle responsabili delle malattie mendeliane.

In un caso di prova, AlphaGenome ha previsto con precisione come una mutazione legata alla leucemia introduca un motivo di legame del DNA MYB che attiva il gene TAL1, rispecchiando i meccanismi noti nella leucemia linfoblastica acuta a cellule T e dimostrando la sua capacità di collegare varianti non codificanti a geni di malattie.

Non perfetto, ma fondamentale

Sebbene AlphaGenome rappresenti un importante passo avanti, non è progettato né convalidato per l’interpretazione del genoma personale o per uso clinico. Inoltre, presenta alcune difficoltà nella modellizzazione di interazioni regolatorie molto distanti, in particolare quelle che superano le 100.000 lettere del DNA , e nella cattura completa dei modelli specifici delle cellule e dei tessuti.

Ciononostante, i ricercatori affermano che getta solide basi per un’espansione futura, con il potenziale per essere adattato ad altre specie, modalità e set di dati specifici di laboratorio.

AlphaGenome è ora disponibile in anteprima per uso non commerciale tramite l’API AlphaGenome. Google invita i ricercatori di tutto il mondo a esplorarne i casi d’uso, porre domande e condividere feedback. Le previsioni dello strumento basato sull’intelligenza artificiale sono destinate esclusivamente a scopi di ricerca.

“Ci auguriamo che AlphaGenome contribuisca ad approfondire la nostra comprensione dei complessi processi cellulari codificati nel DNA”, ha affermato Google, “e a promuovere nuove scoperte nel campo della genomica e dell’assistenza sanitaria”.