Dopo l’articolo giunto ieri da Marco Russo, c’è stata una certa discussione, soprattutto via Twitter. Esistono o no i Big Data in Italia? E sono un tema vero per i CIO? Oggi risponde Vincenzo Aloisio, Managing Director di Accenture..
Negli ultimi tempi non esiste un termine più utilizato nel mondo IT come quello dei Big Data. Spesso si genera confusione su questa terminologia che dipende, essenzialmente, dalla definizione, dal cosa si intende per Big Data. Tanti studiosi/esperti/ organizzazioni hanno elaborato definizioni e criteri per delimitare un perimetro. Il tutto si presta, ovviamente, ad interpretazioni più o meno soggettive. Volendo fissare un paletto, proviamo a definire come Big Data quell’architettura che utilizza per la gestione dei dati (anche) tecnologie di tipo no-sql e cioè, una per tutte, il framework hadoop. Tecnologia a dire il vero non poi così nuova ma appannaggio per diversi anni nel mondo Internet dei grandi motori di ricerca come Google e Yahoo. Credo che si sia cominciato a parlare di Big Data con una certa enfasi partendo dall’idea di gestire dati non strutturati (di volumi significativi) provenienti principalmente dai social media . Detto questo si è visto che queste tecnologie possono essere utilizzate anche per la gestione di dati strutturati ed anche in ambienti più tradizionali principalmente in architetture di data warehouse per l’analisi dei dati. Parliamo di tecnologie che si affiancano ai dbms più tradizionali costituendo così un’architettura ibrida. Gli obiettivi di tale architettura possono essere molteplici ma metterei in primis la riduzione del TCO, partendo dal presupposto che hadoop è un open source (o che anche in sue declinazioni “assistite” ha un costo basso) e necessita di infrastrutture hw a basso costo. A grandi linee, senza entrare nel dettaglio, si utilizza hadoop per collezionare dati, tenendo anche grossi volumi in linea su tale strato (Big Data layer”)e trasformo ed aggrego quello che mi occorre per popolare un dbms (appliance) sul quale farò determinati tipi di analisi. Le informazioni sui Big Data layer sono anche accedibili in maniera abbastanza efficiente da strumenti di front end non con l’obiettivo di voler sostituire le architetture di reporting. Tutto ciò porta ad un significativo risparmio di costi di licenze e di hw ed ad un abbattimento di costi di gestione potendo raggiungere con un consolidamento architetturale in quest’ottica un riduzione del TCO anche del 50% a fronte di investimenti modesti. In quest’accezione Big Data serve anche in Italia, visto che in altri paesi tale architettura è già in essere da diversi anni ad esempio in grandi aziende di telecomunicazioni. In Italia diverse aziende (telco, banche, utilities) si stanno muovendo in tale direzione.
I tipi di analisi che si fanno sui dati (data mining, modelli predittivi, forecasting, ecc.) in linea di massima prescindono da Big Data e volendo estremizzare, anche in maniera provocatoria, mi sento di dire che i Big Data non abilitano alcunchè di nuovo da un punto di vista di capacità di analisi, ma rendono possibile ciò che si faceva prima in maniera più efficiente e più efficace (con maggiore velocità).
In un contesto di revisione architetturale di questo tipo possono inserirsi molti altri fattori come utilizzo di strumenti in memory per l’analisi dei dati, appliances/db machine, CEP (Complex event processing) ecc. che spesso vengono messi a torto o a ragione sotto il cappello Big Data ma è inutile dilungarsi e concludo dicendo che la semplificazione e i risparmi che un architettura Big Data comporta ne fa ad oggi giustamente in Italia una delle le priorità dell’agenda dei CIO.

