LADE – Laboratorio di Data Engineering
Il Laboratorio di Data Engineering gestisce e analizza i dati prodotti nei laboratori di genomica e di microscopia (LAGE e LAME), e svolge ricerca e sviluppo nel campo dell’Intelligenza Artificiale e del Data Management per estrarre conoscenza e valore dai dati. Il LADE gestisce la strumentazione IT a servizio dell’Istituto Ricerca e innovazione Tecnologica e dell’Ente e il suo elemento fondante è ORFEO, un datacenter che gestisce e analizza i dati scientifici in un’ottica open source.
Data center – ORFEO
ORFEO (Open Research Facilty for Epigenomics and Other) è un moderno data center ospitato in un container che fornisce servizi avanzati di calcolo e data analisi. Il sistema è in grado di erogare oltre 4 milioni di ore di calcolo all’anno nelle sue diverse tipologie. Il sistema si caratterizza per la sua alta flessibilità e riconfigurabilità: accanto ai server di calcolo vi è infatti una infrastruttura per che permette di fornire via cloud i servizi HPC/AI.
Il datacenter, inoltre, contribuisce all’elaborazione dei dati prodotti dalla Piattaforma Life Sciences e dalla Piattaforma Materiali Innovativi.
Caratteristiche tecniche
Il container che ospita il data center è collegato in fibra a 10 Gbit ridondata alla rete di Area e Lighnet, e offre, quindi, rapidità e velocità di connessione con tutta la rete della ricerca regionale e nazionale. L’infrastruttura, completamente ridondata in tutte le sue componenti, offre un insieme di nodi di calcolo ad alta memoria (fino a 1.5TB di RAM per server) e processori di ultima generazione. Alcuni server sono dotati di doppia scheda GPGPU V100 con 32 GB di RAM.
La capacità di storage complessiva sfiora i 3 PB di spazio in modalità raw e viene servita agli utenti attraverso un filesystem parallelo CEPH per la componente veloce basata su dischi SSD e una componente standard. La partizione per lo storage a lungo termine ha una dimensione di oltre 1.5 Petabyte.
RESPONSABILE DEL LABORATORIO: Stefano Cozzini
Ultime pubblicazioni del LADE:
- T. Rodani, E. Osmenaj, A. Cazzaniga, M. Panighel, C. Africh, S. Cozzini*, Towards the FAIRification of Scanning Tunneling Microscopy Images, 2023
- L. Valeriani, F. Cuturello, A. Ansuini*, A. Cazzaniga*, The geometry of hidden representations of protein, 2022
- F. Cuturello^, F. Pozzo^, E. N. Villegas Garcia, F. M. Rossi, M. Degan, P. Nanni, I. Cattarossi, E. Zaina, P. Varaschin, A. Braida, M. Berton, L. Zannier, F. Vit, E. Tissino, T. Bittolo, R. Laureana, G. D’Arena, L. Laurenti, A. Tafuri, J. Olivieri, F. Zaja, A. Chiarenza, M. I. Del Principe, R. Bomben, A. Zucchetto, S. Cozzini, A. Ansuini, A. Cazzaniga*, V. Gattei*, An Unsupervised Machine Learning Method Stratifies Chronic Lymphocytic Leukemia Patients in Novel Categories with Different Risk of Early Treatment, 2022
- E. T. Russo^, F. Barone^, A. Bateman, S. Cozzini, M. Punta*, A. Laio*, DPCfam: Unsupervised protein family classification by Density Peak Clustering of large sequence datasets, 2022
- D. Doimo, A. Glielmo, A. Ansuini, A. Laio, Hierarchical nucleation in deep neural networks, 2020
^ = contributed equally
* = corresponding author