LADE – Laboratorio di Data Engineering
LADE
Il Laboratorio di Data Engineering gestisce e analizza i dati prodotti nei laboratori di genomica e di microscopia (LAGE e LAME), e svolge ricerca e sviluppo nel campo dell’Intelligenza Artificiale e del Data Management per estrarre conoscenza e valore dai dati. Il LADE gestisce la strumentazione IT a servizio dell’Istituto Ricerca e innovazione Tecnologica e dell’Ente e il suo elemento fondante è ORFEO, un datacenter che gestisce e analizza i dati scientifici in un’ottica open source.
Data center – ORFEO
ORFEO (Open Research Facilty for Epigenomics and Other) è un moderno data center ospitato in un container che fornisce servizi avanzati di calcolo e data analisi. Il sistema è in grado di erogare oltre oltre 14 milioni di ore di calcolo all’anno nelle sue diverse tipologie. Il sistema si caratterizza per la sua alta flessibilità e riconfigurabilità: accanto ai server di calcolo vi è infatti una infrastruttura per che permette di fornire via cloud i servizi HPC/AI.
Il datacenter, inoltre, contribuisce all’elaborazione dei dati prodotti dalla Piattaforma Life Sciences e dalla Piattaforma Materiali Innovativi.
Caratteristiche tecniche
Il container che ospita il data center è collegato in fibra a 10 Gbit ridondata alla rete di Area e Lighnet, e offre, quindi, rapidità e velocità di connessione con tutta la rete della ricerca regionale e nazionale. L’infrastruttura, completamente ridondata in tutte le sue componenti, offre un insieme di nodi di calcolo ad alta memoria (fino a 1.5TB di RAM per server) e processori di ultima generazione (fino a 128 core distribuiti su due socket). Alcuni server sono dotati di doppia scheda GPU V100 con 32 GB di RAM, e sono presenti 2 DGX dotate per un totale di 16 schede A100 da 40 GB di RAM.
La capacità di storage complessiva è superiore a 5 PB di spazio in modalità raw, e viene servita agli utenti attraverso un filesystem parallelo CEPH che può contare sia su partizioni veloci basate su tecnologia NVME ed SSD, sia su partizioni standard basate su HDD. La partizione per lo storage a lungo termine ha una dimensione di oltre 3 Petabyte. E’ presente, inoltre, uno storage basato su nastri con due teste di lettura.
RESPONSABILE DEL LABORATORIO: Stefano Cozzini
Ultime pubblicazioni del LADE:
- T. Rodani, E. Osmenaj, A. Cazzaniga, M. Panighel, C. Africh, S. Cozzini*, Towards the FAIRification of Scanning Tunneling Microscopy Images, 2023
- L. Valeriani, F. Cuturello, A. Ansuini*, A. Cazzaniga*, The geometry of hidden representations of protein, 2022
- F. Cuturello^, F. Pozzo^, E. N. Villegas Garcia, F. M. Rossi, M. Degan, P. Nanni, I. Cattarossi, E. Zaina, P. Varaschin, A. Braida, M. Berton, L. Zannier, F. Vit, E. Tissino, T. Bittolo, R. Laureana, G. D’Arena, L. Laurenti, A. Tafuri, J. Olivieri, F. Zaja, A. Chiarenza, M. I. Del Principe, R. Bomben, A. Zucchetto, S. Cozzini, A. Ansuini, A. Cazzaniga*, V. Gattei*, An Unsupervised Machine Learning Method Stratifies Chronic Lymphocytic Leukemia Patients in Novel Categories with Different Risk of Early Treatment, 2022
- E. T. Russo^, F. Barone^, A. Bateman, S. Cozzini, M. Punta*, A. Laio*, DPCfam: Unsupervised protein family classification by Density Peak Clustering of large sequence datasets, 2022
- D. Doimo, A. Glielmo, A. Ansuini, A. Laio, Hierarchical nucleation in deep neural networks, 2020
^ = contributed equally
* = corresponding author