Data Integration, cos'è e come fare integrazione dei dati

Il termine Data Integration fa riferimento a tutte quelle azioni necessarie a unificare diverse sorgenti informative, in modo da creare una vista unica su un determinato processo. Se nei decenni scorsi poteva essere considerato normale creare dei silos di dati, separati per ogni funzione aziendale, con l'avvento dei Big Data è ormai superare questa configurazione architetturale.

In questo articolo, realizzato dall’Osservatorio Big Data & Business Analytics del Politecnico di Milano, illustriamo cos’è la Data Integration e approfondiamo le modalità con cui è possibile implementarla.

Data Integration dalla teoria alla pratica

come funziona integrazione dati o integration data intagration Integrare quanti più dati possibili è fondamentale per diversi motivi. Per ricercare pattern nascosti e relazioni tra diverse fonti oppure per gestire tipologie di dati, quali dati semi-strutturati o non strutturati, che non è possibile immagazzinare con tecnologie tradizionali.

È ormai chiaro come, più che dal volume di dati, il valore estraibile dai Big Data provenga dalla correlazione di una varietà di fonti, tipologie e formati di dati.

È partendo da tale premessa che ha senso parlare di Data Integration come essenziale prerequisito per sviluppare analisi avanzate, dalle quali estrarre nuova conoscenza.

Tuttavia, la gestione, l’integrazione e la governance di dati eterogenei è una sfida che molte aziende affrontano quotidianamente, in maniera non sempre ottimale. A causa della mancanza di tecnologie adeguate e, in alcuni casi, della scarsa consapevolezza del problema da parte delle figure manageriali.

Nei paragrafi che seguono vedremo come mettere in pratica quest'idea di Data Integration: quali sono le principali fonti dati da integrare, quali sono i possibili approcci architetturali e come si stanno muovendo le grandi aziende sul tema.

Fonti e tipologie di dati

Prima di porsi il problema della Data Integration, è opportuno chiarire quali siano le tipologie di dati effettivamente a disposizione delle organizzazioni. Pur senza entrare nei dettagli, possiamo identificare cinque categorie:

Dati machine to machine: includono quei dati generati dall’interazione tra dispositivi elettronici; sensori, RFID, connessioni wi-fi sono esempio di fonti che generano dati M2M;
Dati people to machine: includono i dati generati dall’interazione tra persone e dispositivi elettronici; ad esempio di questa categoria sono i dati generati durante le transazioni tipo gli acquisti online;
Dati people to people: sono dati generati dall’interazione tra persone; ad esempio i dati generati sui social network dalle attività degli iscritti, sui forum e blog;
Public admin data: sono dati presenti in database pubblici; includono quelli che vengono chiamati Open Data, ovvero dati disponibili gratuitamente a chiunque per essere analizzati e rivisti secondo il proprio interesse, senza restrizioni di copyright, brevetti o di altri meccanismi di controllo;
Enterprise data: sono i dati presenti all’interno dei data warehouse aziendali; questa categoria fanno parte, ad esempio, i dati degli ERP o i dati del CRM.

Il livello di integrazione dei dati: quattro approcci

Passiamo ora, invece, alla Data Integration vera e propria, che può essere applicata in azienda attraverso quattro differenti approcci, esplicati qui di seguito:

Silos

L’approccio a silos rappresenta la modalità tradizionale all’immagazzinamento dei dati e nasce nelle organizzazioni dove ogni linea di business raccoglie i propri dati per finalità e utilizzi differenti. Lo storage dei dati è organizzato secondo repository suddivisi per dipartimento aziendale, gli ambienti sono isolati tra loro, non vi è comunicazione e di conseguenza i dati non sono integrati.

Data Warehouse (DWH)

Il Data Warehouse, o DWH, è un archivio informatico che raccoglie i dati dai sistemi operazionali aziendali integrandoli con i dati provenienti dalle fonti esterne. I dati, per poter essere gestiti dal DWH, devono essere strutturati, ovvero devono essere rappresentati da relazioni descrivibili con tabelle e schemi rigidi.

Data Lake (DL)

Il Data Lake, o DL, è un ambiente di archiviazione dei dati nel loro formato nativo, fin quando non è necessario dar loro una struttura. Con questa modalità di gestione è possibile avere l’integrazione di elevate quantità di dati di qualsiasi formato e provenienti da qualsiasi fonte.

Modello Integrato

Attraverso il modello integrato l'evoluzione dell'architettura dati ha raggiunto nuovi vertici, che rappresentando una risposta avanzata alle crescenti esigenze di storage, gestione e analisi dati. Con questo approccio, adottato da una grande azienda su quattro, l’organizzazione ha a disposizione sia un Data Lake che un Data Warehouse che lavorano in modalità integrata per rispondere alle differenti esigenze di storage, gestione e analisi di qualsiasi tipologia di dato.

Il Data Lake offre una vasta capacità di archiviazione per dati non strutturati e di diversa natura, consentendo una raccolta flessibile e scalabile. Al contempo, il DWH fornisce una struttura organizzata per l'elaborazione e l'analisi di dati strutturati, garantendo prestazioni ottimali. L'integrazione di entrambe queste componenti consente alle organizzazioni di affrontare con successo la complessità delle informazioni, rispondendo in modo efficace alle diverse esigenze di gestione e analisi di dati eterogenei.

Il modello integrato tra Data Lake e Data Warehouse si rivela, dunque, fondamentale nell'era moderna, in cui la varietà e la quantità dei dati richiedono approcci dinamici e flessibili per sfruttare appieno il potenziale informativo.

Vuoi comprendere tutte le potenzialità dell'analisi dei dati e della gestione dei Big Data?