La linguistica computazionale è la chiave di comprensione dei meccanismi sottesi all’automazione del linguaggio umano. È sotto ai nostri occhi come la tecnologia sia ormai imprescindibilmente legata ad ogni aspetto della nostra vita quotidiana richiedendo interazioni che prevedono l’uso del linguaggio naturale, orale o scritto, per comunicare con apparati tecnologici. In questo articolo vediamo cos’è esattamente la linguistica computazionale e perché è così importante.
Cos’è la linguistica computazionale?
La linguistica computazionale è una branca interdisciplinare della linguistica che unisce la linguistica teorica all’informatica con lo scopo di elaborare, comprendere, generare e tradurre il linguaggio naturale grazie ad algoritmi ed a modelli matematici, statistici e probabilistici. Costituisce una sorta di interprete che insegna alle macchine a “parlare” ed a “comprendere” il linguaggio umano.
La linguistica computazionale nasce negli anni ’50 del secolo scorso, con i primi tentativi di traduzione automatica, ma è negli ultimi due decenni che ha conosciuto uno sviluppo esponenziale, grazie all’aumento della potenza di calcolo dei dispositivi elettronici, alla loro diffusione ed al loro impiego crescente, insieme alla disponibilità di quantità enormi di dati testuali da analizzare.
Le principali aree di studio
La linguistica computazionale si occupa di diversi aspetti del linguaggio che vanno dall’analisi morfologica, alla sintassi, alla semantica ed alla pragmatica e lo studio di questi aspetti si traduce nella possibilità di disporre di strumenti come il riconoscimento e la sintesi vocale, la traduzione automatica da e verso più lingue, fino all’elaborazione di un linguaggio naturale con l’intelligenza artificiale generativa ad esempio.
Applicazioni nella vita quotidiana della linguistica computazionale
Molte delle tecnologie che usiamo ogni giorno si basano sulla linguistica computazionale anche se non ce ne rendiamo conto e non sono novità degli ultimi anni.
I motori di ricerca ad esempio analizzano il linguaggio per offrire risultati pertinenti; i programmi di videoscrittura che consentono la dettatura di un testo. Gli assistenti vocali (Siri, Alexa…) interpretano le richieste formulate verbalmente.
I correttori grammaticali, i traduttori automatici si fondano su modelli linguistici sempre più sofisticati. Ma anche gli assistenti virtuali ed i sistemi automatizzati di assistenza ai clienti comprendono e generano risposte in linguaggio naturale.
Le sfide aperte
La linguistica computazionale ha ancora molte sfide da affrontare. Ad esempio la comprensione dei significati contestuali che possono variare a seconda della situazione o dell’intonazione, o le ambiguità linguistiche, difficili da risolvere automaticamente. Senza parlare poi del linguaggio figurato, delle figure retoriche o di tratti tipicamente umani come ironia e sarcasmo, fino ad arrivare a diafasia, diastratia e diamesia.
L’arrivo di modelli di intelligenza artificiale avanzata la linguistica computazionale sta vivendo una evoluzione/rivoluzione. Il ruolo della linguistica teorica rimane tuttavia fondamentale per una comprensione profonda delle strutture e delle dinamiche del linguaggio umano.
NLP (Natural Language Processing): l’elaborazione del linguaggio naturale
Il processo di analisi automatica di un testo avviene tipicamente in più fasi, strutturate in sequenza. Vediamole brevemente.
La tokenizzazione per suddividere il testo in unità minime (token), come parole o punteggiatura. Questa fase è preliminare a qualsiasi analisi successiva, e può presentare diversi gradi di complessità specialmente in lingue con morfologia ricca o scritture non segmentate (come ad esempio il cinese).
L’analisi morfologica e lemmatizzazione per identificare la forma base (lemma) delle parole e le loro caratteristiche grammaticali. Questa analisi può essere condotta sia tramite analizzatori morfologici basati su regole o dizionari, sia tramite modelli statistici.
Il parsing sintattico per costruire l’albero sintattico della frase e identificare le relazioni grammaticali tra le parole. Questa fase prevede diversi approcci ma i parser moderni utilizzano reti neurali addestrate su grandi corpora.
L’analisi semantica per attribuire significato alle frasi e risolvere eventuali ambiguità lessicali e referenziali. In questa fase si disambiguano parole polisemantiche, si riconoscono entità come persone, luoghi, date…
Gli strumenti semantici moderni includono embeddings semantici che trasformano parole e frasi in rappresentazioni numeriche che possono essere rese anche graficamente come coordinate di uno spazio vettoriale continuo multidimensionale.
Questa trasformazione matematica del linguaggio e delle sue caratteristiche semantico-sintattiche del linguaggio naturale in vettori consente di manipolare il testo come se fosse una formula.
Si tratta di una fase cruciale per l’addestramento di LLM (Large Language Models) che attingono a testi provenienti da fonti disparatissime: testi, articoli, contenuti web, ecc. tutte fonti utilizzate per migliorare la rappresentazione vettoriale di parole e frasi.
I vettori risultanti si assomiglieranno o divergeranno a seconda del contesto, simile o meno, in cui vengono rilevate le parole o le frasi corrispondenti. Gli agenti generativi “imparano” così ad usare i sinonimi a seconda del contesto.
La fase finale è la generazione del linguaggio, creare testi grammaticalmente corretti e coerenti a partire da input strutturati (es. dati o logiche). I sistemi di NLG (Natural Language Generation) vengono usati per generare testi o per le risposte di un chatbot.
I modelli come GPT-4, ad esempio, funzionano proprio in questo modo, partendo da una sequenza iniziale che consente di predire la parola successiva in base al contesto appreso durante l’addestramento.
L’incontro tra la scienza del linguaggio e la tecnologia contribuisce a quella che il Prof. Luciano Floridi chiama “pareidolia semantica” dell’AI, quella cioè che ci induce a credere che gli agenti basati sull’intelligenza artificiale generativa che utilizzano i LLM (Large Language Models) siano realmente “coscienti” o “intelligenti”, per come intendiamo queste caratteristiche quando le attribuiamo agli esseri umani, e non che si possa invece conversare utilizzando un linguaggio naturale solo perché l’agente AI è stato istruito per imitare alcune caratteristiche della nostra comunicazione, in quanto essere non senziente.
La sfida insomma è quella di uno strumento che diventerà sempre più indispensabile, a tutti, per creare una nuova interlingua che soddisfi i bisogni comunicativi non tra esseri umani ma tra umanità e macchine e che agisca su due fronti: istruendo le macchine per comprendere il linguaggio naturale, ma anche dando gli strumenti agli umani per formulare richieste che le macchine possano comprendere esattamente e senza incorrere in errori.
Da questo punto di vista diventa interessante ed essenziale strumento la “linguistica dei prompt” che si cela dietro a testi e corsi che si occupano di prompting per l’AI.
Saper formulare richieste ad un agente AI, per ottenere il risultato desiderato, è ad oggi essenziale quanto un vocabolario quando ci si reca in un Paese di cui non si conosce la lingua.
Per chi vuole dedicarsi a questi studi suggeriamo il nuovissimo corso di laurea triennale L-11 in Lingue e culture europee e del resto del mondo con indirizzo Tecnico-computazionale o gli altri master e corsi sull’AI riportati di seguito.
Per approfondire i temi relativi alla linguistica computazionale suggeriamo:
- Cnr-Istituto di Linguistica Computazionale “Antonio Zampolli” (CNR-ILC), uno dei maggiori centri di ricerca del settore.
- AILC, Associazione Italiana di Linguistica Computazionale, che in Italia promuove ricerca e attività su questi temi.