
Ci eravamo già occupati di intelligenza artificiale e didattica dell’italiano L2 all’inizio del 2023, a seguito dell’improvvisa diffusione di ChatGPT presso il pubblico generalista.Nel frattempo i Large Language Models sono cresciuti esponenzialmente in numero e prestazioni. Se nel precedente articolo avevamo affrontato l’argomento come una sorta di curiosità verso uno strumento esotico applicato alla didattica, l’evoluzione di questi anni, gli studi che emergono dopo un seppur breve periodo in cui sono state possibili osservazioni ed esperimenti, ci impone di tornare sull’argomento con uno sguardo del tutto differente e più consapevole.
Le ricerche più recenti mostrano che l’IA generativa fa risparmiare tempo e migliora la qualità degli output a breve termine, ma questo vantaggio porta, come rovescio della medaglia, alcuni rischi. L’uso dell’IA generativa infatti, specialmente sul lungo periodo, può ridurre la capacità di ricordare ciò che si è prodotto e indebolire l’impegno cognitivo profondo. Per chi insegna italiano L2/Ls, questo dato cambia il modo di progettare attività, feedback e valutazione con l’intelligenza artificiale generativa.
Intelligenza Artificiale e didattica dell’italiano L2: un nuovo paradigma per la didattica delle lingue
Da quando, intorno alla fine del 2022, ChatGPT è entrato nelle abitudini quotidiane di studenti e docenti, il tema di fondo che interroga la glottodidattica non è più se utilizzare l’intelligenza artificiale generativa (GenAI) nei percorsi di apprendimento linguistico, ma come farlo senza compromettere la qualità del processo di acquisizione.
Una serie di studi pubblicati tra il 2024 e il 2026 sta cominciando a fornire risposte basate su dati empirici, non solo sulla base di previsioni o intuizioni.
Il quadro che emerge è ambivalente. Da un lato, gli strumenti basati sui Large Language Model (LLM) come ChatGPT, Gemini o Claude offrono input linguistico ricco, feedback immediato, possibilità di personalizzazione e abbattimento del filtro affettivo. Dall’altro, un numero crescente di ricerche evidenzia rischi concreti: scarso impegno metacognitivo, perdita della memoria episodica di ciò che si è prodotto, livellamento delle competenze e, paradossalmente, un calo del vantaggio competitivo di chi sa fare bene una determinata attività linguistica.
Queste evidenze impongono una riflessione urgente sul rapporto tra strumenti di intelligenza artificiale e didattica dell’italiano L2 e apprendimento linguistico in generale.
ChatGPT e apprendimento: il paradosso produttività/memoria
Uno degli studi più discussi degli ultimi mesi riguarda proprio il rapporto tra GenAI, produttività oggettiva e capacità di ricordare. In un esperimento controllato su gruppi paragonabili, uno con accesso a strumenti di IA generativa e uno senza, sono stati misurati tre indicatori: tempo impiegato per completare attività di sintesi e comprensione, qualità dell’output e capacità di ricordare il contenuto a una settimana di distanza. I risultati sono interessanti per chi si occupa di glottodidattica ed educazione linguistica.
Tempo: il gruppo con IA ha impiegato circa il 25% di tempo in meno per completare le attività (996 secondi contro 1328 secondi).
Qualità immediata: i punteggi medi del gruppo con IA risultano superiori sia nelle risposte di comprensione (5,76 contro 4,82 su un massimo di 6) sia nella qualità della sintesi (8,86 contro 7,81 su un punteggio massimo di 10).
Memoria a una settimana: solo il 40% di chi aveva usato l’IA è stato in grado di riconoscere il proprio riassunto, contro l’80% del gruppo che aveva lavorato senza assistenza. Anche le risposte di comprensione differita sono leggermente più basse nel gruppo trattato (3,18 contro 3,45 su un punteggio massimo di 4).
L’IA produce quindi output migliori e più rapidi, ma il discente “fa meno suo” il testo. Per usare il linguaggio che caratterizza la ricerca cognitiva, sta avvenendo un “cognitive offloading”: l’apprendente delega allo strumento esterno una parte significativa del lavoro mentale che, in condizioni normali, sarebbe invece responsabile della consolidazione mnemonica.
Debito cognitivo e LLM: lo studio del MIT Media Lab
Lo studio più imponente, dal punto di vista neurofisiologico, è quello condotto da Nataliya Kosmyna e dal team del MIT Media Lab nel 2025. I ricercatori hanno fatto scrivere saggi a tre gruppi di partecipanti: uno con accesso libero a un LLM, uno con accesso a un motore di ricerca, uno senza alcuno strumento. Durante lo svolgimento è stata registrata l’attività cerebrale tramite elettroencefalografia (EEG).
Il dato che emerge è che gli utenti degli LLM, rispetto agli altri gruppi, hanno mostrato una connettività cerebrale significativamente inferiore e una minore attivazione delle aree occipito-parietali e prefrontali coinvolte nella memoria di lavoro. Inoltre, alla fine del percorso, gli utenti del “gruppo LLM” facevano fatica a citare correttamente i propri stessi testi, segnalando una scarsa appropriazione del contenuto prodotto.
Gli autori parlano esplicitamente di accumulation of cognitive debt, un “debito cognitivo” che si accumula nel tempo e che, se non gestito, può tradursi in un impoverimento delle capacità di sintesi, di rielaborazione e di pensiero critico.
Particolarmente significativo è il dato relativo al “trasferimento”. I partecipanti che, dopo aver lavorato a lungo con l’IA, sono stati invitati a scrivere, senza assistenza, hanno mostrato performance neurali e linguistiche inferiori rispetto a chi aveva sempre lavorato senza supporto.
Risultati convergenti emergono dallo studio di Michael Gerlich pubblicato nel 2025 sulla rivista Societies, condotto su 666 partecipanti: la frequenza di utilizzo di strumenti di IA è anche qui negativamente correlata ai punteggi sul pensiero critico, e la relazione è mediata proprio dal c.d. cognitive offloading.
Il rischio di commoditization e il livellamento delle competenze
C’è un secondo fenomeno, parallelo e altrettanto importante, che riguarda l’effetto livellante della GenAI sulle competenze.
Non abbiamo ancora a disposizione studi specifici ed estesi sugli effetti dell’uso di LLM e assistenti di intelligenza artificiale nella didattica dell’italiano L2, ma c’è uno studio a cui possiamo fare riferimento, condotto in ambito aziendale, su oltre 5000 operatori di customer service dai ricercatori Brynjolfsson, Li e Raymond.
Lo studio ha mostrato che l’introduzione di un assistente basato su IA aumenta la produttività media del 14%, tuttavia il miglioramento avviene soprattutto per i lavoratori meno esperti: i nuovi assunti raggiungono in pochi mesi il livello di chi ha anni di esperienza. La similarità testuale tra le risposte dei lavoratori meno qualificati e quelle dei più qualificati cresce in modo evidente nel tempo.
Tradotto nel linguaggio dell’educazione linguistica e traslato nel mondo della glottodidattica possiamo facilmente prevedere che la GenAI possa comprimere la curva di esperienza e diffondere rapidamente le buone pratiche dei più competenti.
Il dato, potenzialmente entusiasmante per la didattica inclusiva, porta con sé un rovescio della medaglia: il vantaggio di chi padroneggia bene una lingua straniera rischia di assottigliarsi, di pari passo con l’innalzamento dello standard medio e gli output diventano omogenei. Si parla, in questo senso, di commoditization delle competenze linguistiche.
Per chi insegna italiano L2, ciò significa due cose contemporaneamente: l’apprendente meno avanzato può raggiungere risultati migliori e più velocemente, ma il valore distintivo di un B2 o di un C1 “vero”, cioè di un livello frutto di studio, esposizione, immersione, diventa più difficile da identificare nei compiti scritti.
Intelligenza Artificiale e didattica dell’italiano L2/Ls: cosa dicono le ricerche
Le ricerche sulla GenAI applicata specificamente alle lingue seconde stanno crescendo rapidamente. Una meta-analisi pubblicata nel 2025 da Li e collaboratori sul Journal of Computer Assisted Learning ha sintetizzato i dati di numerosi studi sperimentali, riportando un effetto medio positivo dei chatbot di GenAI sulla second language acquisition, specialmente nell’area della scrittura, del lessico e della motivazione.
Sul versante orale, lo studio di Sok e Shin pubblicato nel 2025 su TESOL Quarterly ha confrontato apprendenti EFL (Inglese come lingua straniera) universitari sudcoreani assegnati a tre condizioni: interazione con ChatGPT in modalità “tutor” (aiSPEAK), interazione con ChatGPT in modalità “guida alla sintesi” (aiSUM), e gruppo di controllo senza IA. I gruppi sperimentali hanno mostrato miglioramenti nella capacità di riassumere oralmente, ma gli autori sottolineano che il risultato è strettamente correlato alla qualità del prompting e dalla presenza di una struttura di task ben definita.
Per quanto riguarda l’italiano come lingua lingua seconda (L2), il riferimento più importante in lingua italiana è il progetto AIDI coordinato da Letizia Cinganotto e promosso dall’Università per Stranieri di Perugia e dall’Università Telematica IUL.
I primi risultati, pubblicati su Status Quaestionis nel 2024 (Cinganotto & Montanucci, L’Intelligenza Artificiale per l’apprendimento dell’italiano L2/Ls. Risultati preliminari di una sperimentazione), evidenziano come l’integrazione di chatbot e tutor intelligenti nei corsi online di italiano permetta una reale personalizzazione del percorso, una riduzione del filtro affettivo e una stimolazione della produzione orale a partire da input multimodali (descrizione di immagini, code-switching guidato, interazione tra pari).
Sul versante della pratica didattica invece si fa strada il modello dello “studente-ricercatore”: l’apprendente cioè non riceve passivamente il prodotto dell’IA, ma è chiamato a formulare domande pertinenti (prompt linguistici), a confrontare le risposte di diversi agenti e modelli di LLM e a valutarne criticamente correttezza e adeguatezza pragmatica (E. Graziano ed E. Mascherpa).
Barriere e limiti: cosa non funziona ancora
Per avere un’idea reale di cosa ancora non funziona, visto che non ci sono studi specifici su intelligenza artificiale e didattica dell’italiano L2 e delle lingue seconde e straniere in generale, prendiamo un’altra volta in prestito le osservazioni derivanti dal rapporto del MIT NANDA State of AI in Business 2025 che possono fornire indicazioni utili all’ambito di nostro interesse.
Ne viene fuori che gli LLM generalisti faticano a tener conto del livello QCER del singolo apprendente, della sua L1, dei suoi errori ricorrenti, del sillabo del corso. La personalizzazione che l’intelligenza artificiale generativa promette è, ad oggi, ancora largamente delegata al docente che progetta i prompt, gli scenari e le attività.
A questo si aggiunge una limitazione specificamente linguistica: gli LLM padroneggiano bene gli aspetti pragmalinguistici (formule di cortesia, registri standard), ma sono meno efficaci nella sociopragmatica, cioè nel produrre enunciati culturalmente e contestualmente adeguati nella negoziazione di senso tra parlanti reali.
Insegnare italiano L2 con l’Intelligenza Artificiale: 4 indicazioni operative
In primo luogo, il momento in cui l’IA viene introdotta nel processo conta più dello strumento in sé. Lo studio del MIT mostra che usare l’IA dopo aver attivato i propri schemi cognitivi sull’argomento (gruppo “Brain-to-LLM”) preserva la memoria e l’attivazione cerebrale, mentre delegare all’IA fin dall’inizio (gruppo “LLM-to-Brain”) produce un debito cognitivo difficile da recuperare. Tradotto in didattica: prima la produzione autonoma, anche imperfetta, poi l’interazione con l’IA per revisione, ampliamento, confronto. Questo è esattamente il modo in cui, dopo uno studio approfondito e una riflessione ponderata, abbiamo deciso di adottare e di implementare nei nostri corsi.
In secondo luogo, la qualità dipende dalla strutturazione del prompt e del compito. La ricerca di Gerlich e l’esperimento sui prompt strutturati di MDPI mostrano che, quando l’apprendente riceve istruzioni chiare su come interrogare l’IA, e su come valutare criticamente le risposte, l’effetto di offloading si riduce sensibilmente. Questo è un punto di contatto evidente con l’alfabetizzazione digitale e con il DigCompEdu europeo.
In terzo luogo, bisogna rivedere le pratiche valutative. Se la “commoditizzazione” rende gli output scritti molto simili tra loro, la valutazione delle competenze produttive deve spostarsi su prove che attivino processi non delegabili: produzione orale spontanea, riformulazione a memoria, attività in classe in tempo reale, riflessione metalinguistica esplicita. Il rischio, altrimenti, è di valutare ciò che l’IA sa fare, non ciò che l’apprendente ha realmente acquisito.
Infine, il ruolo del docente non si riduce, si trasforma. Come scrivono Cinganotto e Montanucci, l’IA è una “risorsa complementare e integrativa” e non sostituisce il ruolo del docente nella mediazione didattica, affettiva e socio-relazionale. Il docente di italiano L2/Ls diventa un progettista di scenari: definisce i contesti d’uso, sceglie quali attività far svolgere con l’IA e quali senza, costruisce momenti di riflessione esplicita sull’output prodotto, mantiene l’attenzione sulla dimensione pragmatica e culturale che gli LLM ancora non sanno gestire pienamente.
Valutare con (e nonostante) gli LLM: rilevatori, integrità, criteri
Gli studenti che copiano un compito ci sono sempre stati; una delle abilità dei docenti è proprio quella di smascherare lo studente che lo fa, e quanto più si conosce lo studente più si riesce a capire quanto la produzione sia o meno farina del suo sacco. Nell’epoca degli LLM non è più così, non che non sia facile per un docente che conosce i propri studenti individuare “picchi anomali”, ma si tratta di un cambiamento di prospettiva. Non ha più senso cercare di individuare il testo generato da intelligenza artificiale che un proprio apprendente ha inserito in un elaborato. Non tanto perché gli agenti IA di ultima generazione riescono ad imitare perfettamente uno stile di scrittura e non lasciano tracce più o meno evidenti come l’uso eccessivo dell’epanortosi enfatica, quanto perché qualunque rilevatore è sostanzialmente inefficace.
Il motivo ce lo spiega egregiamente il Prof. Luciano Floridi in un post social in cui per caso ci siamo imbattuti proprio nella fase finale di stesura di questo articolo in cui faceva notare, dati alla mano, come siano impossibili giudizi precisi ed inoppugnabili sulla attribuzione umano/LLM di un testo. Floridi cita tre studi autorevolissimi, realizzati dal 2023 ad oggi, i cui risultati sono inoppugnabili e che dimostrano come non ci sia una accuratezza che va oltre l’80%.
L’aspetto più eloquente tuttavia potrebbe essere un altro: “Il 20 luglio 2023, OpenAI ha chiuso il proprio classificatore per testo generato da IA a causa di un 26% di “veri positivi”. Chi conosce GPT meglio di chiunque altro al mondo ha provato a costruire un rilevatore, e lo ha staccato dalla rete sette mesi dopo.”
I rilevatori attuali sono ancora imperfetti e non riescono a rilevare in modo inoppugnabile una “firma” che contraddistingua univocamente il testo generato da un LLM.
Ma vi è di più, infatti visto che gli LLM generano testo utilizzando algoritmi legati alla prevedibilità statistica del susseguirsi dei diversi token, come fa notare Floridi: “I rilevatori misurano quanto è prevedibile il testo (aka perplexity), e la prosa di chi non è madrelingua è statisticamente più prevedibile, ovviamente. La distorsione è nel principio di funzionamento e penalizza esattamente chi parte già svantaggiato.”.
Assodato quindi che sia, se non deprecabile, quanto meno inutile o inaffidabile l’uso dei rilevatori automatici, specialmente se in versione gratuita o dimostrativa, per rilevare l’origine umana o LLM di un testo, Floridi porta l’attenzione su un altro punto di caduta: “la vera domanda non è come migliorare i rilevatori, ma che cosa fare dell’integrità della comunicazione (anche scientifica e professionale, ma non solo) in un mondo in cui la rilevazione automatica non funziona.”
La consapevolezza didattica e IA: il nuovo valore aggiunto del docente di italiano L2
Le ricerche degli ultimi anni stanno delineando un messaggio sempre più nitido a chi si occupa di educazione linguistica: l’IA generativa è uno strumento molto potente, ma non è cognitivamente neutro. Migliora la produttività immediata, abbassa la soglia di accesso a livelli di output che prima richiedevano anni di studio, ma può indebolire la consolidazione della memoria, l’autonomia metacognitiva e il pensiero critico se utilizzata senza una progettazione didattica consapevole.
Per il docente di italiano L2/Ls la sfida è duplice: da un lato sviluppare una propria competenza nell’uso dell’IA come strumento di progettazione (generazione di materiali, attività di comprensione, simulazioni di interazione), dall’altro educare i propri apprendenti a un uso responsabile e consapevole dell’IA, capace di trasformare un chatbot in un partner di studio anziché in un sostituto nel processo di apprendimento. In questa prospettiva, la formazione glottodidattica diventa ancora più rilevante. È proprio nella capacità di mediare tra strumento e processo, tra prodotto e apprendimento, tra fluenza apparente e competenza reale, che si gioca oggi il valore aggiunto del docente di italiano L2 al passo con i tempi.
Chi fa formazione ha oggi, ancora di più che in passato, l’obbligo morale di una formazione continua, dettata a fortiori dalla velocità imposta dai nuovi mezzi.
Questo articolo, frutto di ricerche e studi che non si concludono con questa pubblicazione, avrà ricadute pratiche per i nostri corsisti. Nell’aggiornamento 2026 dei nostri corsi di didattica dell’italiano L2 infatti introdurremo sia il supportato dell’IA, consapevolmente strutturato per supportare l’apprendimento senza impatti negativi, sia contenuti su intelligenza artificiale e didattica dell’italiano L2.
























