SCOLORINA

Algoritmi di machine learning per la genomica a singola cellula da tecnologie di sequenziamento long-read

Settore:Data science, Scienze della vita

Tipologia:Nazionale

Programma:PRIN 2022 PNRR

Durata del progetto:01/12/2023 - 30/11/2025

Il progetto è dedicato allo sviluppo di nuovi algoritmi di machine learning e intelligenza artificiale per l’analisi di dati genomici generati da tecnologie di sequenziamento di nuova generazione, con particolare riferimento al sequenziamento a singola cellula e long-read. L’iniziativa nasce dalla convergenza di due importanti frontiere della genomica contemporanea: la possibilità di analizzare il contenuto molecolare delle singole cellule e la capacità di leggere sequenze di DNA o RNA molto più estese rispetto alle tecniche tradizionali. Questa combinazione apre prospettive molto promettenti per la comprensione dei meccanismi biologici e patologici, ma richiede anche strumenti computazionali del tutto nuovi.

Il progetto si concentra in particolare sul paradigma emergente del single-cell long-reads sequencing, un ambito tecnologico estremamente recente per il quale non sono ancora disponibili metodi di analisi specifici. Per rispondere a questa esigenza, il progetto SCOLORINA punta a sviluppare una prima generazione di strumenti avanzati per l’inferenza da dati single-cell long-read prodotti su piattaforme Oxford Nanopore. L’obiettivo è trasformare dati genomici altamente complessi in informazioni utili per la ricerca biomedica, contribuendo allo sviluppo di nuove metodologie per la biologia computazionale e la medicina di precisione.

Una parte centrale delle attività riguarda la generazione e l’analisi di nuovi dati RNA single-cell long-read provenienti da campioni di leucemia linfatica cronica. Su questa base, il progetto prevede lo sviluppo di algoritmi capaci di identificare pattern di trascrizione allele-specifica e alterazioni del numero di copie a livello di singola cellula, con l’obiettivo di cogliere segnali biologici difficilmente osservabili con approcci convenzionali. I metodi sviluppati integreranno modelli probabilistici bayesiani, tecniche di deep learning e strumenti software implementati in R e Python, che saranno resi disponibili in modalità open source per favorirne il riuso da parte della comunità scientifica.

Nel suo complesso, il progetto mira a rafforzare il ruolo delle tecnologie digitali e dell’intelligenza artificiale nelle scienze della vita, mettendo a disposizione nuovi framework di analisi e strumenti software avanzati a supporto di ricercatori, infrastrutture di ricerca e realtà cliniche impegnate nello studio di patologie complesse. L’iniziativa contribuisce così allo sviluppo di tecnologie per la salute più evolute, con possibili ricadute sulla comprensione delle malattie e sulla definizione di approcci sempre più precisi nell’ambito della medicina personalizzata.

OBIETTIVI

Il progetto mira a sviluppare nuovi algoritmi di machine learning e intelligenza artificiale per l’analisi di dati single-cell long-read, a generare nuovi dataset genomici su campioni di leucemia linfatica cronica e a realizzare strumenti software open source per l’inferenza di trascrizione allele-specifica e alterazioni del numero di copie. Tra gli obiettivi rientrano anche la validazione dei metodi su dati reali e la diffusione di framework computazionali avanzati a supporto della ricerca biomedica e della medicina di precisione. Il risultato atteso è la disponibilità di nuovi strumenti digitali per interpretare dati genomici ad alta complessità e favorire una comprensione più accurata dei meccanismi biologici alla base delle malattie.

partner

Università degli Studi di Trieste (Laboratorio di Cancer Data Science, Prof. Giulio Caravagna)

Referente

Alberto Cazzaniga
Laboratorio di Data Engineering, Area Science Park
alberto.cazzaniga@areasciencepark.it