Big DataCloudData storagePaas

Cloudera annuncia Altus, Paas al servizio delle pipeline di dati

Cloudera Altus semplifica lo sviluppo e l’esecuzione delle pipeline, centralizzando le attività di data engineering ed astraendo la gestione dell’infrastruttura

Cloudera è conosciuta come fornitore globale per la sua piattaforma di analisi, apprendimento e gestione dei dati, basata su Apache Hadoop. Ora con Altus estende la propria offerta con una soluzione Paas (Platform As A Service) per semplificare l’esecuzione delle applicazioni di elaborazione dati sul cloud pubblico. In pratica i data scientist possono utilizzare l’infrastruttura on-demand per velocizzare la creazione e l’utilizzo di pipeline di dati per alimentare le relative applicazioni. 

Per esempio, parliamo di applicazioni come ETL, o batch scoring, che si portano dietro carichi di lavoro batch-oriented impegnativi, da eseguire per un periodo di tempo prefissato, e aiutano l’estrazione di informazione da dati grezzi. Il vantaggio per le aziende è di godere di una maggiore flessibilità data dalla possibilità di eseguire pipeline su un’infrastruttura elastica. 

Architettura Cloudera Altus
Architettura Cloudera Altus

Ecco, Cloudera Altus semplifica sviluppo ed esecuzione delle pipeline, centralizza le attività di engineering sul dato e astrae la gestione infrastrutturale e le operazioni più complesse. Cloudera Altus al contempo riduce il rischio delle migrazioni in cloud grazie a un servizio di piattaforma enterprise aperto che offre storage, metadati, sicurezza, gestione di molteplici applicazioni di data engineering. 

Tra le caratteristiche del servizio Paas riportiamo in evidenza il servizio gestito di pipeline elastiche di dati, attraverso il provisioning di Apache Spark, Hive, Hive on Spark e MapReduce2, su cloud nativo. E’ possibile sfruttando cluster predefiniti intelligenti automatizzando il provisioning, la configurazione e l’eliminazione del cluster; Altus altresì focalizzato sulla Pipeline mette al centro i dati piuttosto che il cluster, e così gli utenti possono clonare, il troubleshooting delle pipeline.

La lettura e la scrittura avviene direttamente sugli storage di oggetti in cloud, tipico della piattaforma Cloudera, così i dati sono disponibili per l’utilizzo anche su altri carichi di lavoro senza richiedere la replica dei dati, ETL o altre modifiche, Altus agisce in una logica del tutto priva di silos.

Cloudera Altus - Come connetterlo a un cluster
Cloudera Altus – Come connetterlo a un cluster

La proposta Cloudera Altus inoltre supporta anche versioni precedenti delle piattaforma CDH e infine semplifica le problematiche legate alle pipeline elastiche di dati; le funzioni di gestione dei carichi di lavoro evidenziano variazioni significative nelle prestazioni e propongono un’analisi della causa alla base. Altus è già disponibile in molte regioni AWS, e il rollout prevede l’espansione della proposta su Azure e altri cloud pubblici.