Cloudera, modelli di apprendimento automatico più ricchi con Spark 2.0

Big DataData storageDatabase

Spark 2.0 nella distribuzione Cloudera è ora in grado di sfruttare meglio i dati di streaming per sviluppare modelli di apprendimento automatico e intanto Kudu esce dalla beta e con la versione 1.0 è a disposizione delle aziende per analitiche in tempo reale e facilita l’analisi di serie di dati temporali

Si trova in alto a destra nel quadrante Forrester per quanto riguarda le distribuzioni Hadoop, con la sua piattaforma di analisi e gestione dati ed ha appena annunciato la sua versione Apache Spark 2.0, in beta, con un nuovo set di API per il potenziamento delle prestazioni e le funzionalità di apprendimento automatico avanzato: parliamo di Cloudera che prosegue intanto lo sviluppo di Kudu 1.0, della Software Foundation di Apache. Da un lato Cloudera – nata nel 2008 da un’iniziativa di tre ingegneri di Google, Yahoo!, Facebook e Oracle – procede nello sviluppo della propria piattaforma, dall’altro nella partecipazione ai progetti open source. L’obiettivo in entrambi i casi è compiere passi avanti nell’ambito dello streaming e dell’analisi dei dati in tempo reale, su carichi di lavoro intensivi, come possono essere i modelli di apprendimento automatico.

Forrester e il quadrante delle distribuzioni Big Data Hadoop
Forrester e il quadrante delle distribuzioni Big Data Hadoop

Per quanto riguarda lo sviluppo dei progetti in ambito open source, lo sforzo di Cloudera è quello di indirizzare la comunità su quelle che sono le reali esigenze delle aziende. Oltre che sui desiderata funzionali, anche su sicurezza, stabilità e possibilità di integrazione, tantopiù proprio in Hadoop che è spesso preferito per quest’ultimo scopo.

Cloudera, tra i vendor di soluzioni per i big data, ha fornito per prima una versione commerciale di Spark. Con la versione 2.0 si indirizzano ora le esigenze di modelli più ricchi, da distribuire in tempo reale per mandare in produzione alti carichi di lavoro. Ecco quindi le caratteristiche del nuovo Apache Spark secondo Cloudera che arriva con possibilità di strutturare lo streaming e di inserire in modo più semplice i dati strutturati tradizionali per esempio per le serie temporali, i dati tabulari e le informazioni strutturate IoT, modello di apprendimento automatico con salvataggio permanente della pipeline e possibilità di acquisire nuovi set di dati e applicazioni analitiche grazie al supporto per nuove librerie. Sono migliorate le prestazioni grazie al nuovo Dataset API.

I pilastri dell'approccio Cloudera sul tema Big Data
I pilastri dell’approccio Cloudera sul tema Big Data

Per quanto riguarda Kudu, invece, in beta pubblica da ottobre 2015, e ora nella versione definitiva 1.0 ecco che gli utenti possono fare affidamento su un unico progetto semplificato per rapide analitiche nell’ambito dei ‘fastdata’. Le sue caratteristiche più importanti sono la possibilità di attività in batch su un’architettura semplificata, la struttura a colonne per l’analitica dei dati più recenti quindi in strutturazione temporale e l’ampia scalabilità su centinaia di nodi.

Quiz – Conosci i Big Data? Mettiti alla prova
WhitePaper – 
Sei interessato ad approfondire l’argomento? Scarica il whitepaper  “Benchmark gratuito: Analisi comparativa sull’integrazione con Hadoop

Read also :
Clicca per leggere la biografia dell'autore  Clicca per nascondere la biografia dell'autore