Data Integration: cosa significa, come farla e perché farla!

23 gennaio 2019 / Di Irene Di Deo / 0 Comments

Il termine Data Integration fa riferimento a tutte quelle azioni necessarie a unificare diverse sorgenti informative, in modo da creare una vista unica su un determinato processo.

Se nei decenni scorsi poteva essere considerato normale creare dei silos di dati, separati per ogni funzione aziendale, oggi, con l'avvento dei Big Data, è ormai necessario superare questa configurazione architetturale.

Data Integration dalla teoria alla pratica

Integrare quanti più dati possibili è fondamentale per diversi motivi. Per ricercare pattern nascosti e relazioni tra diverse fonti oppure per gestire tipologie di dati, quali dati semi-strutturati o non strutturati, che non è possibile immagazzinare con tecnologie tradizionali.

È ormai chiaro come, più che dal volume di dati, il valore estraibile dai Big Data provenga dalla correlazione di una varietà di fonti, tipologie e formati di dati.

È partendo da tale premessa che ha senso parlare di Data Integration come essenziale prerequisito per sviluppare analisi avanzate, dalle quali estrarre nuova conoscenza.

Tuttavia, la gestione, l’integrazione e la governance di dati eterogenei è una sfida che molte aziende affrontano quotidianamente, in maniera non sempre ottimale. A causa della mancanza di tecnologie adeguate e, in alcuni casi, della scarsa consapevolezza del problema da parte delle figure manageriali.

Nei paragrafi che seguono vedremo come mettere in pratica quest'idea di Data Integration: quali sono le principali fonti dati da integrare, quali sono i possibili approcci architetturali e come si stanno muovendo le grandi aziende sul tema.

Vai al webinar

Fonti e tipologie di dati

Prima di porsi il problema dell’integrazione, è opportuno chiarire quali siano le tipologie di dati effettivamente a disposizione delle organizzazioni. Pur senza entrare nei dettagli, possiamo identificare cinque categorie:

  • Dati machine to machine: includono quei dati generati dall’interazione tra dispositivi elettronici. Esempio di fonti che generano dati M2M: sensori, RFID, connessioni wifi;
  • Dati people to machine: includono i dati generati dall’interazione tra persone e dispositivi elettronici. Esempio di questa categoria sono i dati generati durante le transazioni tipo gli acquisti online;
  • Dati people to people: sono dati generati dall’interazione tra persone. Ad esempio, i dati generati sui social network dalle attività degli iscritti, sui forum e blog;
  • Public admin data: sono dati presenti in database pubblici. Includono quelli che vengono chiamati Open Data, ovvero dati disponibili gratuitamente a chiunque per essere analizzati e rivisti secondo il proprio interesse, senza restrizioni di copyright, brevetti o di altri meccanismi di controllo;
  • Enterprise data: sono i dati presenti all’interno dei data warehouse aziendali. Fanno parte di questa categoria ad esempio i dati degli ERP o i dati del CRM.

Il livello di integrazione dei dati: quattro approcci

  1. Silos, rappresenta l’approccio tradizionale all’immagazzinamento dei dati e nasce nelle organizzazioni dove ogni linea di business raccoglie i propri dati per finalità e utilizzi differenti. Lo storage dei dati è organizzato secondo repository suddivisi per dipartimento aziendale, gli ambienti sono isolati tra loro, non vi è comunicazione e di conseguenza i dati non sono integrati.
  2. Data Warehouse (DWH), vi è un archivio informatico che raccoglie i dati dai sistemi operazionali aziendali integrandoli con i dati provenienti dalle fonti esterne. I dati, per poter essere gestiti dal DWH, devono essere strutturati, ovvero devono essere rappresentati da relazioni descrivibili con tabelle e schemi rigidi.
  3. Data Lake (DL), ambiente di archiviazione dei dati nel loro formato nativo, fin quando non è necessario dar loro una struttura. Con questa modalità di gestione è possibile avere l’integrazione di elevate quantità di dati di qualsiasi formato e provenienti da qualsiasi fonte.
  4. Modello Integrato, modello secondo il quale l’organizzazione ha a disposizione sia un Data Lake che un Data Warehouse che lavorano in modalità integrata per rispondere alle differenti esigenze di storage, gestione e analisi di qualsiasi tipologia di dato.

Dove si trovano le grandi aziende?

Per quanto riguarda le iniziative di Data Integration delle grandi aziende italiane, gli ultimi dati dell’Osservatorio Big Data Analytics sul tema mostrano come siano ancora la minoranza le aziende che hanno costruito un Data Lake (circa un’azienda su quattro), mentre le restanti organizzazioni utilizzano Data Warehouse tradizionali o sistemi legacy, dove i dati sono suddivisi in Silos che non comunicano tra di loro.

Anche laddove esistono sistemi di storage di dati non strutturati (database di nuova generazione quali NoSQL o NewSQL), non sempre questi sono in comunicazione con il Data Warehouse aziendale. La sfida dell’integrazione rimane quindi una delle più difficili da superare, soprattutto se le analisi si basano anche su dati esterni (web, social, sensori, open data ecc…). Questa intuizione è pienamente confermata dalle aziende, che nel 2018 vedono nell’integrazione di dati provenienti da fonti differenti il secondo freno allo sviluppo di progettualità di Analytics (citato dal 46%).


Vai al webinar

  • Autore

Ricercatrice Senior degli Osservatori Big Data & Business Analytics e Artificial Intelligence