Cos'è il Natural Language Processing (NLP) e come funziona

L’NLP (Natural Language Processing) è un sistema di Intelligenza Artificiale (AI) che rientra tra le soluzioni software che negli ultimi anni hanno registrato maggiori progressi. Correttori ortografici e sistemi di traduzione automatici sono solo alcune delle applicazioni di NLP che usiamo nella vita quotidiana.

Grazie al contributo di tecniche di Artificial Intelligence sempre più avanzate, come Machine Learning e Deep Learning, l’NLP trova numerosi ambiti applicativi. La strada da percorrere è però ancora lunga per una lingua complessa come l’italiano, caratterizzata da modi di dire, espressioni gergali e influenzata da numerosi dialetti.

Se guardiamo al futuro, però, scopriamo che le soluzioni principali di NLP possiedono un elevato potenziale. Attraverso la Ricerca dell’Osservatorio Artificial Intelligence del Politecnico di Milano vedremo in questo articolo cos’è l’NLP, ovvero il Natural Processing Language, come funziona e i principali utilizzi.

Cosa si intende per NLP (Natural Language Processing)?

Per NLP (acronimo di Natural Language Processing) o elaborazione del linguaggio naturale si intendono algoritmi di Intelligenza Artificiale in grado di analizzare, rappresentare e quindi comprendere il linguaggio naturale. Le finalità possono variare dalla comprensione del contenuto, alla traduzione, fino alla produzione di testo in modo autonomo a partire da dati o documenti forniti in input.

Perché sono importanti le tecniche di NLP? A differenza dei linguaggi di programmazione, che seguono regole ben precise e sono facilmente interpretabili dalle macchine, la lingua da noi utilizzata non è facilmente rappresentabile. Poiché interagiamo con le macchine quotidianamente, però, è necessario creare sistemi in grado di comprendere e rispondere all’uomo. Ed è qui che entra in gioco la linguistica computazionale. Si tratta dello studio di sistemi informatici per l’analisi e l’elaborazione del linguaggio naturale, e si concentra sul funzionamento del linguaggio naturale in modo da elaborare programmi eseguibili dalle macchine.

Come funziona il Natural Language Processing

L’NLP si occupa principalmente di testi, intesi come sequenze di parole che in una lingua esprimono uno o più messaggi (es. pagine web, post, tweet, log, informazioni aziendali). L’elaborazione del parlato (riconoscimento vocale) è considerato un ambito a sé.

Il dialogo tra uomo e macchina coinvolge diversi aspetti, quali fonetica, fonologia, morfologia, sintassi, semantica, pragmatica e il discorso nel suo complesso. Di conseguenza, sono numerosi i task di NLP che automatizzano queste aree, ad esempio compiti semplici come:

il riconoscimento della lingua;
la scomposizione della frase in unità elementari;
l’analisi semantica;
l’analisi del sentiment.

Per svolgere questi compiti, le imprese adottano numerosi task di NLP:

Text Analysis: analisi di un testo e, laddove richiesto, individuazione di elementi chiave (es. argomenti, persone, date);
Text Classification: interpretazione di un testo per classificarlo in una categoria predefinita (es. spam);
Sentiment Analysis: rilevamento dell’umore all’interno di un testo (es. recensione positiva/negativa);
Intent Monitoring: comprensione del testo per prevedere comportamenti futuri (es. la volontà di acquisto da parte di un cliente);
Smart Search: ricerca, all’interno di archivi, dei documenti che meglio corrispondono ad un’interrogazione posta in linguaggio naturale;
Text Generation: generazione automatic di un testo;
Automatic Summarization: produzione di una versione sintetica di uno o più documenti testuali;
Language Translation: traduzione di testi scegliendo, volta per volta, il significato migliore a seconda del contesto.

Le applicazioni di NLP

Le imprese sono sempre più interessate alle soluzioni di NLP, o Natural Language Processing. Sono diverse le opportunità di business dei sistemi di elaborazione del linguaggio naturale per il business:

analisi di email aziendali, ad esempio per riconoscere messaggi indesiderati e classificare per argomento la posta in arrivo);
estrazione di informazioni da documenti di governance, quali report e procedure, per garantirne una rapida consultazione;
progetti per l’analisi di documenti amministrativi, quali fatture e contratti, e soluzioni per l’analisi delle comunicazioni interneall’azienda quali mail di help-desk;
analisi di post sui Social Network, ad esempio per comprendere il sentiment degli utenti e consolidare la brand reputation dell’azienda);
algoritmi per comprendere le query di navigazione nei siti webe reindirizzare correttamente la ricerca;
soluzioni per l’analisi di notizie giornalistiche, per riconoscere le fake news, per esempio.

Quanto sono diffuse le soluzioni di NLP in Italia?

Le applicazioni di NLP mostrano un livello di adozione ancora modesto nel nostro Paese. La spiegazione si trova in una serie di criticità rilevate dalle organizzazioni che hanno iniziato a lavorarci.

Innanzitutto bisogna fare i conti con la mancanza di dataset già pronti per l’addestramento del motore di Intelligenza Artificiale, di conseguenza occorrono investimenti significativi di tempo e risorse per preparare un dataset adeguato. Alcune imprese sfruttano dati di proprietà, che però devono essere puliti ed etichettati per il training. Tuttavia non mancano gli acquisti di dati da provider specializzati e collaborazioni con altri attori della filiera, quali Vertical Solution Provider, consulenti o System Integrator.

Inoltre, per lo sviluppo di soluzioni NLP servono competenze interne specifiche, e la lingua italiana non sempre garantisce prestazioni adeguate in termini di comprensione della lingua e delle sue declinazioni. A questo ostacolo, già critico, si aggiungono le difficoltà nel comprendere il sentiment del testo e nel dedurne di conseguenza il significato reale. E guardando al futuro, è proprio questa una delle sfide principali per l’NLP: il Quality Natural Language Understanding, ossia l’identificazione dell’ironia e del buon senso.

NLP, Machine Learning e Deep Learning

Il passato, il presente, ma soprattutto il futuro del NLP si intrecciano con le tecniche di Machine Learning (o apprendimento automatico) e Deep Learning (o apprendimento approfondito). Negli anni Novanta nasce il Natural Language Processing statistico, un insieme di approcci basati sull’utilizzo di Machine Learning, quindi sull’apprendimento dai dati, che hanno la capacità di arricchire il modello alla loro base a fronte di ulteriori dati.

Spostandoci intorno agli anni 2000 (ma soprattutto negli ultimi anni) si rilevano numerosi sviluppi nell’applicazione di reti neurali artificiali all’elaborazione del linguaggio naturale.

Oggi l’NLP ci pone di fronte all’analisi di frasi complesse, che per essere interpretate correttamente devono essere scomposte in unità elementari: le parole. Oltre all’analisi della singola parola, è necessaria la comprensione della semantica dell’intera frase. Da un punto di vista tecnico, per passare dalla dimensione di analisi della singola parola alla comprensione della frase nel suo complesso (Natural Language Understanding), sono principalmente tre i task da prendere in considerazione:

Word Sensing Disambiguation: associare alle parole, nel contesto, i corretti significati (es. nei motori di ricerca online);
Semantic Role Labeling: portare l’attenzione su una parola e cercare di evidenziare lo scenario di utilizzo e identificare i ruoli all’interno della frase (es. per eseguire comandi in ambito Smart Home);
Semantic Parsing: trasformare il testo in una rappresentazione semantica strutturata (nella pratica, rispondere a domande data una specifica frase e una collezione di documenti)

In un contesto dove le capacità dell’NLP sono sempre più rafforzate dal il Deep Learning, nel 2017 è si è registrato un traguardo importante nel mondo dell’interpretazione del linguaggio naturale con l’arrivo dell’AI Generativa.

NLP e AI Generativa: i nuovi scenari degli LLM

L’AI Generativa ha potenziato diverse applicazioni di Natural Langue Processing attraverso i primi LLM (Large Language Model) rilasciati da OpenAI. Se traduzione, riassunto e scrittura di testi sono state le prime aree in cui sono stati sperimentati questi modelli, oggi grandi aspettative sono rivolte nella Smart Search. Si tratta di una tecnologia progettata per comprendere le richieste degli utenti in modo più accurato, fornendo risultati pertinenti al contesto e personalizzati sulle preferenze individuali.

Per migliorare la Smart Search il passo successivo a cui si sta lavorando è quello di far dialogare un LLM sul contenuto di documenti che non gli sono stati precedentemente forniti nei suoi dati di addestramento. In questo modo si avrà un chatbot in grado di dialogare sulla base di documenti specifici, recuperando le informazioni in essi contenute per una migliore gestione della Knowledge base aziendale.

Vuoi scoprire tutte le opportunità offerte dalle nuove tecnologie dell'AI?