Vai direttamente ai contenuti della pagina

Distributed data management for Genomics in the EOSC Federation

Settore:Data science
Tipologia:Internazionale
Programma:Horizon Europe
Durata del progetto:06/05/2026 - 30/11/2026

Il progetto FORGE implementa e valida un caso d’uso scientifico nell’ambito della genomica, distribuito tra più nodi della Federazione EOSC, dimostrando il valore aggiunto concreto derivante dall’integrazione interoperabile di dati e servizi tra diversi nodi. Coordinata da Area Science Park, l’iniziativa integra l’infrastruttura HPC/AI ORFEO con il Nodo EOSC del CERN e il Nodo EOSC italiano, facendo leva su infrastrutture mature, di livello produttivo, già progettate per la scalabilità, l’allineamento ai principi FAIR e la sostenibilità a lungo termine.

Due le tecnologie chiave sono al centro del workflow:

  • ORFEO è il data centre HPC/AI di Area Science Park, a supporto di workflow di genomica su larga scala, multi-omici e ad alta intensità di dati, all’interno di un ecosistema FAIR-by-design, ed è in fase di posizionamento come infrastruttura nazionale pronta per la Federazione attraverso la collaborazione con Fondazione ICSC.
  • Rucio è un sistema open source di gestione dei dati sviluppato al CERN per orchestrare dati distribuiti su infrastrutture di storage eterogenee; attualmente è proposto come una delle possibili dorsali per la Federazione dei dati a livello EOSC anche oltre il dominio della fisica delle alte energie.

Il progetto pilota valida un flusso di lavoro end-to-end basato sul paradigma “find–access–process”: dataset genomici open vengono acquisiti e arricchiti all’interno di ORFEO, registrati nel catalogo del Nodo italiano, resi accessibili tramite meccanismi policy-aware attraverso Rucio e analizzati in ambienti integrati con EOSC, quali REANA, Galaxy e Jupyter, senza trasferimenti manuali dei dati.

PRINCIPALI RISULTATI

Il principale risultato atteso è un modello di integrazione riutilizzabile (National Catalog + Rucio + Federated Analysis Environment) che potrà essere adottato da altre infrastrutture di ricerca e dai futuri Nodi EOSC. Rafforzando i workflow intra-node e cross-node e allineando gli standard relativi ai metadati, il progetto contribuisce al portfolio EOSC Build-Up e sostiene lo sviluppo di un modello scalabile di dati, allineato ai principi FAIR, a beneficio della ricerca nelle scienze della vita.

partner

Area Science Park

EOSC NODE CERN
EOSC NODE ITALY

Referente