Architettura Big Data: le tecnologie e la loro evoluzione

15 gennaio 2018 / Di Alessandro Piva / 0 Comments

Lavorare con i Big Data vuol dire raccogliere grandi volumi di dati, di differenti tipologie e provenienti da diverse fonti, ma anche velocizzare il processo di raccolta e analisi di tali dati. Per realizzare tutto ciò vengono richiesti nuovi approcci architetturali rispetto al passato.

Riassumendo, ecco i motivi per cui strutturare un'architettura per la gestione dei Big Data non è semplice:

  • elevato volume di dati generato oggigiorno;
  • alta eterogeneità delle fonti informative;
  • necessità di raccogliere e analizzare i dati in modalità real time.

 

Il ciclo di vita dei Big Data: dalla raccolta alla conservazione

L’intera gestione del ciclo di vita del dato, dalla raccolta alla sua conservazione, passando per l’analisi, richiede l’impiego di nuove tecnologie innovative che abilitino l’estrazione di valore dai Big Data.

  • Nella fase di raccolta dei dati è necessario disporre di un’infrastruttura scalabile in grado di processare anche grandi moli di dati in real time, minimizzando le possibili perdite informative. La fase di analisi richiede la valutazione di architetture complesse che coniughino capacità di elaborazione più tradizionali con sistemi real time.
  • La conservazione dei dati richiede infine l’impiego di tecnologie in grado di superare i tradizionali database relazionali per gestire le più varie fonti informative.
  • In ultimo ma non per importanza, la parola chiave di un’architettura innovativa è sicuramente integrazione. Diventa basilare, infatti, essere in grado di integrare i dati provenienti dai sistemi di business tradizionali (sistemi gestionali, CRM, ecc..) con quelli derivanti dal mondo dei sensori interconnessi (Internet of Things) e dalle interazioni tra persone sul web o sui social networks (Internet of People).

Leggi il report

 

Come innovare l’architettura tecnologica?

Innovare è quindi fondamentale, ma il passaggio dalla teoria alla pratica è tutt'altro che scontato. L’infrastruttura tecnologica di un’azienda si compone infatti di diversi strumenti e componenti da considerare.

Per questo l’Osservatorio Big Data Analytics ha cercato di fare ordine, riassumendo in un unico modello le principali scelte tecnologiche da considerare in un'architettura Big Data. Dalla gestione dei dati all’accessibilità, ecco una carrellata utile a comprendere quali sono le tecnologie innovative più diffuse nelle grandi aziende italiane.

 

framework architetturale dei big data analytics

 

Le nuove frontiere architetturali

Non si può parlare di tecnologie Big Data senza nominare Hadoop, framework software per l’elaborazione di elevate moli di dati in modalità parallela. Hadoop, considerato uno dei fattori abilitanti la diffusione dei Big Data Analytics, è stato sviluppato in un contesto totalmente Open Source, dall’Apache Software Foundation. Nel tempo sono diverse le tecnologie sviluppatesi all’interno di questa community e numerose le organizzazioni che guardano al mondo open source come un acceleratore d’innovazione, perché permette loro di superare problemi quali i lock-in dei software proprietari. Il 30% delle grandi aziende utilizza oggi questi strumenti.

Un altro trend dalle incredibili potenzialità è il Cloud. Le piattaforme di Analytics in Cloud stanno vivendo un momento di grande crescita, perché offrono alle aziende la possibilità di accedere a servizi allo stato dell’arte con costi contenuti. Grande risparmio anche nella fase di storage dei dati.

 

L’integrazione e la gestione dei dati: oltre il Data Warehouse

L’approccio tradizionale di raccolta dei dati è quello a silos: i dati vengono raccolti separatamente da ogni funzione aziendale. Quest’approccio è totalmente inadatto all’estrazione di valore dai Big Data.

Come già detto, l’integrazione è una variabile chiave per poter esplorare i dati e scoprire pattern e correlazioni inaspettate. Non più silos, dunque, ma non solo. Anche il ben noto Data Warehouse, ovvero l’archivio informatico di dati strutturati raccolti dai sistemi operazionali aziendali e da fonti esterne, si è rivelato insufficiente. Oggi un numero crescente di delle grandi aziende affianca o integra il Data Warehouse in un Data Lake, un ambiente di archiviazione dei dati nel loro formato nativo. Il Data Lake utilizza l’approccio “schema-on-read”, ciò significa che la struttura viene creata nel momento in cui i dati vengono utilizzati per le analisi. Questo cambio di prospettiva permette di immagazzinare anche dati non strutturati, quali testi, immagini o video.

Agli strumenti di storage, si affiancano tipologie innovative di gestione dei dati. Non solo database relazionali, ma anche basi di dati che superano o rinnovano il linguaggio SQL (si parla per questo di database NoSQL o NewSQL), al fine di migliorarne le performance. Oggi una grande azienda su tre utilizza questi strumenti, tra i più noti i database colonnari e key-value.

 

L’analisi dei dati e le modalità di accesso agli insight

Entrando nel vivo dell’analisi dei dati, se le analisi descrittive rimangono una necessità e vengono rese ancor più valide e fruibili dagli strumenti di visualizzazione dei dati, le analitiche più avanzate si stanno diffondendo anno dopo anno.

Ad oggi, circa tre grandi aziende su quattro utilizzano tecniche di Predictive Analytics in alcuni dei loro processi aziendali. Da un punto di vista del business, se attraverso i dati si riesce a prevedere ciò che accadrà nel futuro, sempre di più i decision maker potranno porli al centro delle loro scelte strategiche. La trasformazione di un’organizzazione in una data-driven organization passa poi anche attraverso l’aumento delle persone che possono accedere e esplorare i dati (in particolare i top manager). Sempre di più ci si riferisce a questo trend con il termine self-service analytics, oggi abilitato da circa il 30% delle grandi organizzazioni.

Infine, investire nel rinnovamento dell’infrastruttura tecnologica può voler dire accelerare le modalità di raccolta e analisi dei dati, superando i sistemi batch. Per i non addetti ai lavori, in questo contesto con il termine “batch” – letteralmente lotto, partita – si intendono sistemi che si aggiornano periodicamente, nella maggior parte dei casi ogni giorno. Se queste tempistiche potevano essere valide nella raccolta di dati transazionali, si rivelano sempre meno adatte nella raccolta di dati provenienti dai sensori o in tutte quelle situazioni in cui l’analisi tempestiva dei dati può influire sulle principali decisioni di business, auspicabilmente sempre più data-driven. L'evoluzione continua!

Vai al Webinar

  • Autore

Ricercatore Osservatori Cyber Security & Data Protection, Big Data & Business Analytics, Artificial Intelligence e Cloud Transformation.