Il Cern e la ricerca con i Big Data

Big DataData storageWorkspace
Large Hidron Collider

A Sas Forum 2014, Alberto Di Meglio, Cto al CERN OpenLab di Ginevra, spiega le relazioni tra analytics e big data per il progresso nell’analisi dello studio delle particelle

Alberto Di Meglio è Cto al CERN OpenLab di Ginevra, dove si occupa di coordinare la ricerca. In occasione di Sas Forum 2014 spiega la relazione tra analytics, big data e studio delle particelle. “La storia della ricerca scientifica – esordisce Di Meglionasce migliaia di anni fa dalle ossevazioni di fenomeni naturali, ma la generalizzazione delle osservazioni empiriche per la ricerca di modelli validati ha appena qualche centinaio di anni e l’utilizzo dei computer per risolvere equazioni complesse ha appena qualche decina di anni”.

Secondo Di Meglio, il momento di rottura, oggi, è dato da un nuovo modello di ricerca, il cosiddetto “quarto paradigma” in cui si uniscono la teoria, la simulazione digitale, la raccolta e l’analisi di dati su larga scala e in cooperazione internazionale. Il CERN è stato tra i primi a usare questo modello di ricerca proprio per capire di cosa è costituito l’universo, cosa dà alle particelle la loro massa, perché la gravità è così diversa dalle altre forze e perché l’universo che possiamo osservare sembra essere composto soltanto di materia, per quanto anche l’antimateria sia ampiamente considerata a livello teorico.

Alberto di Meglio Cern
Alberto di Meglio, Cto al CERN OpenLab di Ginevra

 

Dell’universo, prosegue Di Meglio, si conosce solo poco più del 5 percento, e la cosiddetta massa oscura resta a noi tale.

Al Cern però si cerca proprio di indagare in questa direzione e per farlo si utilizza il Large Hadron Collider, una sorta di anello di 27 Km di circonferenza in cui le particelle vengono accelerate fino a raggiungere ‘quasi’ la velocità della luce e vengono fatte scontrare le une contro le altre per vedere cosa succede, e di cosa sono fatte all’interno.

Per semplificare: in quattro punti dell’anello acceleratore ci sono quattro ‘detectors‘ che appartengono ai quattro grandi esperimenti/progetti del Cern: Atlas, Cms, Alice e LHCb. I detectors funzionano come dei grandi microscopi per osservare virtualmente le collisioni.

I detector sono composti da centinaia di migliaia di sensori in grado di raccogliere gli ‘stimoli’ delle collisioni al ritmo di 40 milioni di volte al secondo. Un flusso di dati di alcuni petabyte al secondo di informazioni generat, in nessun modo è immagazzinabile, e sarebbe impensabile memorizzarlo nel corso di mesi e anni.

Allora l’informazione viene subito trattata e ridotta con sistemi di filtraggio in hardware e software, per esempio quando è già conosciuta o non rilevante, in relazione a quanto si vuole indagare; questo processo di riduzione porta i dati a un ordine di grandezza di alcuni Gigabyte al secondo.

I dati a questo punto vengono ‘ricostruiti’, interpretati per capire cosa succede durante una collisione. Dati simulati, in relazione alle teorie, convivono con dati raccolti da collissioni reali. Per capire se le teorie sono corrette. I dati inoltre vengono distribuiti per averne più copie in diversi punti del pianeta e, in collaborazione, più centri analizzano il materiale disponibile con il grid computing.

Large Hadron Collider
Un’immagine del Large Hadron Collider al Cern di Ginevra

La scoperta quindi  in fisica di particelle è puramente una questione statistica. Di Meglio cerca di fare capire: “Non si può dire di aver visto un Bosone, si sono osservati piuttosto fenomeni compatibili con la presenza del Bosone di Higgs una volta ogni dieci trilioni di collisioni (diecimila miliardi)”. Poiché per avere la certezza scientifica, il cosiddetto “sei sigma”,si sarebbero dovute produrre migliaia di trilioni di collisioni, tutte da analizzare all’interno della Rete, ecco, solo a quel punto si è potuto dire di aver raggiunto l’obiettivo (nel 2012) con l’assegnazione del premio nobel della fisica del 2013 (Higgs e Englert).

Il Bosone di Higgs risponde alla domanda su cosa dia alle particelle la loro massa, ma restano senza risposta domande come quelle del programma LHCb, un programma pluridecennale che richiede il continuo aggiornamento di sistemi, di metodologie di calcolo, di acquisizione di dati e della loro distribuzione, di sicurezza di rete, e della loro efficacia.

Di Meglio conclude: “E’ sempre più attuale in questi contesti quanto riescono a fare gli analytics, per ottimizzare i processi di analisi fisica, ma anche quelli di ingegnerizzazione delle macchine. L’immediata conseguenza dell’innovazione è la necessità di aggiornare le competenze per capire le problematiche, soprattutto nella programmazione di piattaforme di calcolo moderne, proprio per raccontare i dati e renderli comprensibili”.

Read also :
Clicca per leggere la biografia dell'autore  Clicca per nascondere la biografia dell'autore