Data Management: quali sfide ai tempi dei Big Data?

Data Management, letteralmente gestione dei dati, è un'espressione che apre diversi scenari e innesca più di un dubbio. In tempi in cui "il dato" è considerato il nuovo petrolio, occuparsi di Data Management vuol dire maneggiare una materia complessa e quanto mai fondamentale per il successo di un'organizzazione.

L'avvento dei Big Data e delle cosiddette 5V (Volume, Velocità, Varietà, Veridicità, Variabilità), ha infatti letteralmente rivoluzionato i processi di manipolazione e analisi dei dati. Aggiungiamoci anche l'introduzione del GDPR, Il Regolamento europeo sulla protezione dei dati personali, che ha imposto maggiore attenzione su come i dati vengono trattati, da quali soggetti e con quali finalità. Qual è l'impatto di questo cambiamento sulla gestione dati? Cosa significa oggi Data Management? Come realizzare una corretta strategia di Data Management e quali sono gli elementi chiave da considerare? Domande a cui cercheremo di dare una risposta nel corso dell'articolo.

L'importanza del Data Management oggi

Partiamo dal principio. Quando l’Harvard Business Review, nel 2012, definì il Data Scientist come il “lavoro più sexy del XXI secolo”, probabilmente i lettori dell’articolo immaginavano lo sviluppo di modelli e metodologie di analisi sofisticate, in grado di estrarre dai dati informazioni sorprendenti. Eppure, ancora oggi, i cosiddetti “scienziati dei dati” - ovvero figure iper-specializzate che di regola hanno almeno una laurea - si trovano a dover spendere ore e ore nella pulizia di basi di dati disordinate, su cui non c’è la giusta documentazione o di cui addirittura non si conosce la versione corretta.

Nel momento in cui i dati diventano più eterogenei, le tecnologie più complesse, le metodologie più avanzate e i risultati delle analisi giocano un ruolo fondamentale nei processi decisionali, avere dati di buona qualità e gestirli in maniera conforme alle normative sono prerequisiti necessari per trasformarsi in un’azienda data-driven.

Vuoi essere sempre aggiornato sui temi dell’Osservatorio Big Data & Business Analytics?

Cosa significa Data Management

Con il termine Data Management, secondo la definizione internazionale sviluppata dal DAMA-International (Global Data Management Community), ci si riferisce allo “sviluppo e esecuzione di architetture, policy, pratiche e procedure che permettono di gestire propriamente le esigenze legate al ciclo di vita dei dati all’interno di un’azienda”.

Come si può notare, il termine Data Management è estremamente ampio e comprende non solo aspetti tecnologici, ma anche aspetti organizzativi, di processo e di compliance. Nel fulcro e, per così dire, alla base di questa ampia tematica, si inserisce la creazione di una strategia interna, che vada a definire processi decisionali e responsabilità su tutto ciò che i riguarda i dati aziendali.

Questa strategia - nota come strategia di Data Governance - si pone l’obiettivo di governare i dati e monitorarne il percorso all’interno dell’organizzazione. In altre parole, ciò significa saper rispondere tempestivamente e con certezza a domande come: “Chi ha la responsabilità su questo set di dati? Qual è il contesto normativo e qual è il suo impatto sull’utilizzo di questi dati? Chi ha utilizzato questi dati prima di me? Da dove provengono? La versione che sto guardando è l’ultimo aggiornamento disponibile?”.

Il Data Management ai tempi dei Big Data

Che cosa significa dover gestire in azienda basi dati molto più ampie e eterogenee, con metodologie di analisi più sofisticate e sistemi di elaborazione delle informazioni sempre più performanti e rapidi?

L’Osservatorio Big Data Analytics & Business Intelligence ha affrontato più volte questo tema, confrontandosi con organizzazioni della domanda e dell’offerta, nonché con esperti del settore, al fine di offrire una panoramica di sintesi dell’impatto dei Big Data sulla gestione delle informazioni.

Il concetto di fondo è che un approccio maturo agli Analytics non risiede in un utilizzo indiscriminato e disordinato di informazioni inaffidabili, ma nella capacità di governare ampie moli di dati con processi e strumenti tecnologici che permettano di ridurre il meno possibile flessibilità e agilità dell’infrastruttura.

Le principali sfide identificate sono tre, di seguito approfondite.

1) Garantire la data quality su dati estremamente eterogenei

La mole di dati presenti nelle organizzazioni è di diverse tipologie e proveniente da fonti differenti. Nel 2018 il 60% delle grandi aziende dichiara di acquisire dati dall’esterno. Questa varietà apre la porta a tantissime opportunità e potenzialità, ma ha conseguenze immediate sulla definizione degli standard di data quality.

Proviamo a rendere più concreto questo concetto. La raccolta di dati strutturati da sistemi transazionali permette di sistematizzare delle policy di garanzia di qualità del dato in fase di design. I processi di Extract, Trasform and Load (ETL) rispondono anche a questo obiettivo: consolidare i dati, cioè garantirne l’omogeneità, in funzione delle logiche di business. Il Data Lake invece acquisisce i cosiddetti dati grezzi, senza che vi sia alcuna trasformazione degli stessi in fase di raccolta. Di conseguenza, saranno necessari dei tool che, nel momento in cui il dato viene utilizzato, riescano a trasformarlo, eliminando duplicati o osservazioni anomale, rendendo omogenea la scrittura di alcune informazioni, verificandone la coerenza interna e così via.

Tanto più i dati non sono strutturati (testi, immagini ecc…) e tanto più provengono da una varietà di fonti (dati web o social, dati da sensori, open data ecc…), tanto più sarà complesso garantirne pulizia, correttezza e affidabilità in maniera tempestiva.

2) Costruire un’infrastruttura flessibile e aperta garantendo una visione unica sui dati

Forse il principale trade-off da dirimere. L’infrastruttura di Analytics è una macchina estremamente complessa, che si avvale, specialmente nei casi più moderni, di una pluralità di strumenti: proprietari e open source, in cloud e on-premises e così via. La flessibilità è una condizione necessaria e ciò porta, da un punto di vista tecnologico, a dover integrare sistemi differenti. Ma non solo! Anche i dati dovranno comunicare tra loro.

Proprio per risolvere questo problema, si stanno diffondendo sistemi di data cataloging e di gestione dei metadati, che permettono di dare lo stesso significato a dati provenienti da diverse fonti, al fine di uniformarne l’interpretazione agli occhi degli utenti di business. Nel mentre, aumentano gli strumenti tecnologici in grado di gestire numerose di tipologie di dati, anche non strutturati.

3) Aumentare i data user garantendo sicurezza e privacy delle informazioni

Uno dei principali trend del momento, in ambito Analytics, è quello del Self-Service Data Analytics. Le aziende necessitano di strumenti che siano immediatamente fruibili da utenti senza conoscenze informatiche o statistiche avanzate, ma che diano l’opportunità di esplorare i principali KPI aziendali in maniera interattiva, dinamica e personalizzabile. Quest’impegno è sicuramente virtuoso e dà vita a un percorso di maggiore consapevolezza sull’importanza dei dati. Tuttavia, se l’azienda adotta un approccio Self-Service, tenere al sicuro gli elementi fondanti della business strategy diventa imprescindibile. Al contempo, le normative sulla privacy impongono e imporranno sempre di più dettami stringenti sul trattamento dei dati.

Ci si trova quindi alla ricerca di un equilibrio precario, in cui un’eccessiva attenzione alle problematiche di security e privacy potrebbe ridurre il valore che i dati portano in azienda, mentre un eccessivo disinteresse potrebbe causare immediate perdite monetarie.