Big Data Analytics

Data Science: i must have per la gestione dei Big Data

07 febbraio 2019 / Di Filippo Leccardi / Nessun commento

La Data Science è una materia complessa, i cui confini sono difficili da tracciare. Non a caso, i professionisti della Data Science provengono dai percorsi di formazione più disparati: dall’informatica all’economia, passando per statistica, matematica o fisica.

 

Cosa significa Data Science

Il termine Data Science è stato coniato nei primi anni ’70, precisamente nel 1974. Nella prima definizione ci si riferiva alla scienza di manipolare i dati e poca enfasi era posta sulla capacità di estrarne informazioni utili in contesti di business. L’avvento dei Big Data ha dato nuova vita a questo termine e la Data Science ha acquisito un ruolo di primo piano nel contesto aziendale. Una scienza interdisciplinare, all’intersezione tra Computer Science, Statistica, Matematica, Data Visualization e comprensione delle variabili e del linguaggio di management.

Le cinque aree di competenza

Ragionando per macro-categorie, è possibile riassumere le competenze afferenti alla Data Science in cinque ambiti:

  • Tecnologia - capacità di gestire dati strutturati e non, di estrarre dati da fonti esterne tramite metodologie e tool specialistici e manipolare e distribuire grandi quantità di dati;
  • Analytics/Machine Learning - conoscenza di modelli e tecniche matematico-statistiche, capacità di sviluppare e implementare algoritmi di machine learning e conoscenza di tool per effettuare analisi;
  • Programmazione - capacità di programmazione nei principali linguaggi;
  • Knowledge Deployment - capacità di creare rappresentazione dei dati interessanti e intuitive per aiutarne l’interpretazione. Non si fa riferimento soltanto a soft skills di comunicazione, ma anche a competenze tecniche quali capacità di utilizzo di software di data visualization e design di dashboard;
  • Comprensione del business - conoscenza di aspetti di business (effetti di micro e macro-economia, processi funzionali, linguaggio e obiettivi di management) e di governo di variabili legate al settore in cui l’azienda opera.

Guarda il video

 

Professione Data Scientist

Il Data Scientist è un professionista estremamente qualificato (nella totalità dei casi laureato), il cui lavoro quotidiano consiste in uno specifico obiettivo: estrarre informazioni di valore dai dati attraverso la modellizzazione di problemi complessi. In altre parole, ciò significa partire da un’esigenza di business e saperla tradurre in analisi dei dati, ovvero utilizzare tecniche matematico-statistiche per creare dei modelli descrittivi, di forecasting e ottimizzazione.

Il Data Scientist è esperto in tecniche matematico-statistiche e (sempre di più) nello sviluppo e implementazione di algoritmi di machine learning. È in grado di programmare nei principali linguaggi utilizzati, principalmente Python o R, e sa come utilizzare software dedicati all’analisi dei dati.

Oltre a queste competenze hard, lo "scienziato dei dati" è solitamente una persona curiosa o proattiva, che trova la ragione del suo lavoro quotidiano nella capacità di risolvere problemi e di porsi domande per migliorare i processi di business. Abbiamo approfondito in un recente articolo cosa fa e come lavora un Data Scientist.

 

Gli altri professionisti della Data Science?

Il Data Engineer

Nonostante troppe parole siano state spese negli ultimi anni sulla figura del Data Scientist, non è lui l’unico professionista del settore. Le aziende più mature sono concordi sulla necessità di creare dei team che integrino competenze e compiti differenti.

Oltre al Data Scientist, un team “minimo” di Data Science ha al proprio interno un’altra figura: il Data Engineer.

Il suo compito è rendere i dati disponibili per le analisi. Apparentemente semplice in contesti semplici, molto meno quando si tratta di integrare fonti eterogenee o di gestire flussi di dati in streaming. In contesti complessi, la presenza di un Data Engineer è fondamentale per rendere le analisi tempestive e far funzionare l’intera infrastruttura.

Il Data Engineer è quindi un ruolo estremamente tecnico, focalizzato sulla capacità di gestire database relazionali e non, sulla conoscenza di tecnologie Big Data (es. Hadoop o Spark) o di stream processing (es. Kafka) e più in generale sulla costruzione e manutenzione dell’architettura che rende i dati disponibili per le analisi.

Il Data Analyst

All’interno di un team dedicato alla Data Science, è poi auspicabile trovare un terzo professionista: il Data Analyst. A lui è richiesto di svolgere analisi tendenzialmente descrittive o esplorative, meno complesse rispetto a quelle svolte dal Data Scientist, e di svolgere il ruolo di congiunzione tra gli analisti e le figure di business, rispondendo continuamente alle richieste di queste ultime.

Il Data Analyst ha competenze basilari di matematica, statistica e di funzionamento dei database. Generalmente utilizza strumenti più tradizionali - in molti casi soltanto Microsoft Excel – e, se conosce dei linguaggi di programmazione, è più probabile che conosca SQL rispetto a Python. Per quel che riguarda il background, si registra una maggiore presenza di Data Analyst provenienti da facoltà economico-manageriali, rispetto a facoltà propriamente STEM (Science, Technology, Engineering and Mathematics). Tra le mansioni a lui richieste, troviamo principalmente attività di reporting e di data visualization, proprio perché il suo obiettivo è trasmettere gli insight ai ruoli di business.

 Vai al Webinar

Filippo Leccardi

Filippo Leccardi

Ricercatore Osservatorio Big Data Analytics & Business Intelligence