Business intelligenceData storage

Project DataWorks, la strada di IBM per favorire il machine learning

Silicon è il sito di tecnologia dedicato alle strategie delle aziende IT che cavalcano i nuovi trend di mercato, dal cloud computing alla virtualizzazione, dal mobile al byod. Analisi, approfondimenti, prove di app e prodotti, oltre alle notizie quotidiane, fanno di Silicon l’appuntamento giornaliero per i manager che vogliono capire come la tecnologia possa aiutarli nel fare business. Su queste tematiche Silicon realizza interviste agli attori del mercato e reportage dai principali eventi, sia in Italia sia all’estero.

Project DataWorks è l’iniziativa IBM per rendere più uniformi gli ambienti di raccolta e analisi dei dati, semplificando la vita dei data scientist e delle aziende in senso lato

Il machine learning richiede grandi quantità di dati per modellare i fenomeni e per questo le aziende che hanno adottato in vario modo tecniche di intelligenza artificiale dedicano molto tempo alla preparazione dei dati e dei modelli da passare ai sistemi di analytics. Anche troppo tempo, secondo IBM, ed è per questo che l’azienda ha lanciato Project DataWorks, una iniziativa collegata a Watson e incentrata sul tema dell’integrazione dei dati.

Project DataWorks non è solo una piattaforma tecnologica ma l’insieme di varie componenti tra cui anche la collaborazione di IBM con varie altre aziende partner e lo sviluppo di una metodologia (DataFirst) per valutare e guidare la transizione di un’azienda utente all’utilizzo intensivo delle tecnologie di machine learning.

Una schermata di IBM Data Science Experience
Una schermata di IBM Data Science Experience, il tool IBM per i data scientist

La componente tecnologica in senso stretto è DataWorks, che può essere descritta in sintesi come un ambiente cloud Bluemix che riceve flussi di dati da qualsiasi tipo di sorgente (dai database alle implementazioni IoT) e ad alta velocità (centinaia di Gbps). La piattaforma dialoga con sorgenti dati on-premise o in cloud, con dati strutturati e non, con flussi continui o in batch.

I dati sono conservati in sistemi che vanno dai database tradizionali ai cluster Hadoop e su di essi si applicano funzioni di analisi e organizzazione sfruttando tra l’altro gli strumenti che IBM già offre ai data scientist, ai programmatori e ai business analyst.

L’utilità di DataWorks sta nel presentare una piattaforma di funzioni comune, da usare in modalità self-service, e modelli, metadati e dataset altrettanto comuni, evitando che i tecnici usino strumenti diversi e che le analisi dei dati avvengano in ambienti separati gli uni dagli altri. Una peculiarità dell’approccio IBM è che va oltre la gestione dei dati in senso stretto e “tecnico” per integrare anche elementi cognitivi e di governance. I primi semplificano il passaggio dalla raccolta dei dati alla scoperta di informazioni, i secondi vedono la gestione dei dati da un punto di vista più business e della compliance.

  • Le aziende che fossero interessate a capire come quantità enormi di dati non strutturati possono diventare informazioni utili possono informarsi e richiedere i materali relativi a un evento organizzato da PMC Machine learning  sul tema “Il Dato è Tratto” organizzato da PMC in partnership con IBM.