Open sourceSoftware

Cloudera Data Science Workbench, l’analisi dei dati self-service

Nel 1998 inizia la sua esperienza nel mondo IT in Mondadori e partecipa alla nascita di Web Marketing Tools di cui coordina la redazione. Redattore esperto di software per PC Magazine, e caporedattore di ComputerIdea, segue da circa 20 anni l'evoluzione del mondo hardware, software e dei servizi IT in un confronto continuo con le aziende leader del settore

Cloudera Data Science Workbench, frutto dell’acquisizione di Sense, è un ambiente collaborativo per la visualizzazione, la modellazione e l’analisi dei dati

In occasione dell’evento Strata+Hadoop World a San Jose Cloudera ha presentato Cloudera Data Science Workbench, si tratta di un ambiente collaborativo, fruibile in modalità self-service, per la visualizzazione, la modellazione e l’analisi dei dati, ma soprattutto basato sull’idea di favorire la cooperazione tra i team commerciali e gli analisti del dato. La piattaforma è basata su Cloudera Enterprise, su tecnologie open source, e al momento è disponibile in beta.

E’ questo il primo passo di integrazione di Cloudera della startup Sense. Ora gli analisti, i data scientist, possono utilizzare librerie e linguaggi open tra cui Python e R, o Scala, con la certezza di poter sfruttare l’integrazione nativa di Apache Spark e Hadoop, per velocizzare le analisi. Oltre gli ecosistemi Python e R sono anche inclusi i framework di deep learning come Tensorflow, Microsoft Cognitive Toolkit, Mxnet e BigDL. In questo modo si armonizzano le innovazioni in ambito open source con la piattaforma unificata.

Cloudera Self Service Data Science Screenshot
Cloudera Self Service Data Science Screenshot

 In pratica Cloudera con il suo ambiente Data Science Workbench porta le potenzialità di Spark al servizio dell’elaborazione dei dati avanzata e abilita l’analisi dei dati in contesti machine learning.
Alcuni punti di forza della piattaforma sono già stati evidenziati, aggiungiamo la possibilità di sfruttare i linguaggi open direttamente da un browser, l’accesso diretto ai dati in cluster Hadoop con Spark e Impala, e la condivisione di approfondimenti con tutti i team.

Charles Zedlewski, senior vice president Products di Cloudera
Charles Zedlewski, senior vice president Products di Cloudera

Questo nello specifico per i data scientist, invece i professionisti IT in senso lato guadagnano la possibilità di lavorare in tempi e modi preferiti, la conformità alla sicurezza Hadoop con il supporto immediato per Kerberos, l’operatività anche in cloud. 

Charles Zedlewski senior vice president Products di Cloudera, sottolinea l’aspetto collaborativo della proposta: “I gruppi IT dei nostri clienti riscontrano delle difficoltà nel portare in squadra i data scientist all’interno di ambienti condivisi, perché i loro bisogni sono profondamente diversi, soprattutto laddove sono coinvolti gli strumenti open source. Ciò solitamente porta a duplicazione, silos analitici, sicurezza e governance limitate. I data scientist cercano invece di scalare il loro lavoro verso set di dati più estesi e piattaforme di calcolo più potenti”. La soluzione nasce per portare più tipologie di utenti su ambienti condivisi. 

WHITE PAPER: Sei interessato ad approfondire l’argomento?  Scarica il whitepaper  I dati sono fondamentali per il business