Home / Cultura e Scuola / Tecnologia e AI / Come distinguere i testi generati dall’IA da quelli umani

Come distinguere i testi generati dall’IA da quelli umani

🎧 Ascolta l’articolo ▶️ (durata 7’12” con la voce di Ava)

Con l’ascesa vertiginosa dei Large Language Models (LLM) come ChatGPT e Gemini, il panorama della produzione testuale ha subìto una rivoluzione. La capacità delle IA di generare contenuti coerenti, grammaticalmente corretti e spesso indistinguibili a una prima lettura ha sollevato un quesito cruciale per il mondo accademico, editoriale e del web: come possiamo distinguere un testo scritto da una macchina da un testo creato da un essere umano?

Le ricerche in questo campo si concentrano sull’analisi di “firme” stilistiche e statistiche che, nonostante i progressi dell’IA, rimangono diverse tra i due tipi di autori.

Gli studi hanno identificato diverse spie che tendono a caratterizzare i contenuti prodotti dall’intelligenza artificiale e, in particolare, dai modelli generativi:

  1. uniformità e prevedibilità linguistica
    L’IA, per sua natura, opera sulla base della probabilità statistica della parola successiva. Questo approccio si traduce in:
  • bassa “perplessità” (Perplexity) – Un testo umano ha spesso una perplessità più alta perché include scelte lessicali e sintattiche meno comuni. I testi IA, al contrario, sono più prevedibili e quindi mostrano una bassa perplessità;
  • vocabolario ristretto e ripetitivo – come conseguenza di quanto appena detto, l’IA tende a privilegiare i vocaboli più comuni e sicuri. Questo può portare a una minore varietà lessicale e a una certa ripetitività di strutture e concetti nel testo;
  • frasi definibili come “iper-corrette” – I testi generati dall’IA sono quasi sempre impeccabili dal punto di vista grammaticale e sintattico, spesso risultando in strutture di frase semplici e dirette, quasi “da manuale”, ma prive del naturale ritmo e delle imperfezioni umane.
  1. Mancanza di “Burstiness” (Irruenza o variabilità)

Un testo generato dall’IA è caratterizzato da uniformità nella lunghezza e nella struttura delle frasi. Spesso usa periodi di lunghezza simile e un tono costante.

Gli esseri umani, invece, tendono a usare una variazione maggiore, alternando frasi brevi e incisive, con periodi complessi e articolati. Questa variazione conferisce al testo un ritmo più naturale e coinvolgente.

  1. Assenza del tocco personale e dell’esperienza (E-E-A-T), e questo è forse il dato più importante ed interessante.

Nonostante l’IA possa simulare un tono emotivo, gli studi evidenziano una fondamentale assenza di:

  • esperienza personale diretta – L’IA può descrivere un’emozione, ma non la esprime attraverso aneddoti o riflessioni uniche che derivano da una reale esperienza vissuta;
  • opinioni e contenuti audaci – L’IA predilige un tono neutro e “politically correct“. Tende a evitare l’ironia, il sarcasmo, i giochi di parole o le opinioni controverse, a meno che non le sia stato specificamente richiesto tramite un prompt molto dettagliato;
  • coerenza narrativa profonda – Manca lo sfondo culturale e la capacità di referenziare in modo intuitivo e creativo concetti astratti, che invece sono distintivi della scrittura umana.

Per affrontare il problema della distinzione tra i due tipi di testi, sono stati, dunque, sviluppati numerosi rilevatori di IA, gli AI detectors. Questi strumenti analizzano le metriche di perplessità e burstiness, assieme ad altri modelli statistici, per calcolare la probabilità che un testo sia artificiale.
Tuttavia, le ricerche dimostrano che questi strumenti non sono perfetti e si trovano in una costante “corsa alla ridefinizione” con i nuovi modelli di IA che possono generare:

  • falsi positivi – Un limite critico è la tendenza a etichettare come “IA” testi scritti da umani che seguono uno stile molto formale, tecnico, o che utilizzano strutture di frasi semplici e regolari;
  • falsi negativi – Con le nuove generazioni di LLM, sempre più abili a “umanizzare” la propria scrittura, i rilevatori faticano a identificare i testi generati da IA che sono stati abilmente modificati o “umanizzati” da un editor

La riflessione più opportuna che quanto detto ci induce a fare è che la differenza tra testi IA e testi umani non è più una questione di correttezza grammaticale o coerenza superficiale. Oggi, la distinzione risiede nelle sottili sfumature statistiche e nello stile che riflette o meno la coscienza, l’esperienza e la variabilità emotiva umana.

Se in futuro l’IA sarà in grado di colmare il divario stilistico, la ricerca suggerisce che, comunque, la capacità di esprimere esperienze autentiche, opinioni personali non probabilistiche e la vera creatività rimarranno i baluardi della scrittura umana. L’occhio esperto di un revisore, dunque, resta l’alleato indispensabile della tecnologia.

Cionondimeno, il tema del rilevamento dei testi generati dall’IA solleva complesse questioni etiche e accademiche che stanno ridefinendo le politiche in molti settori.

L’impiego massivo di strumenti di Intelligenza Artificiale per la creazione di contenuti testuali ha innescato una crisi di fiducia nell’autenticità e nell’originalità della scrittura. In risposta a questa sfida, l’uso di rilevatori di IA ha sollevato, a propria volta, una serie di gravi rischi etici e accademici che impongono una riflessione profonda.

1. Il problema dei falsi positivi e la giustizia
Il rischio etico più grave è quello del falso positivo: un testo scritto da un essere umano viene erroneamente etichettato come generato dall’IA.

  • Nelle istituzioni educative, un falso positivo può portare a sanzioni per plagio o frode, rovinando la reputazione di uno studente, invalidando il suo lavoro o addirittura portando all’espulsione, nonostante l’innocenza. Poiché i rilevatori sono imperfetti e non possono provare l’intento, basare un giudizio disciplinare unicamente sul loro punteggio è considerato da molti esperti un atto eticamente indifendibile e ingiusto.
  • Nel giornalismo o nel marketing, essere accusati di usare l’IA in modo non trasparente può danneggiare la credibilità di un autore o di un’azienda.
  1. La crisi della trasparenza
    Attualmente è in corso una vera e propria “corsa agli armamenti” tra generatori di IA e rilevatori di IA.

Gli sviluppatori di rilevatori spesso mantengono segreti i loro algoritmi per prevenire l’inganno, creando una mancanza di trasparenza su come viene valutato il lavoro degli utenti.

È importante poi sottolineare che i modelli di rilevamento sono spesso addestrati principalmente su grandi dataset di testi in lingua inglese. Ne deriva che i testi in altre lingue (inclusi l’italiano o i dialetti) o con stili meno convenzionali possono essere male interpretati, aumentando il rischio di falsi positivi per autori non anglofoni o che non rispettano la media statistica dello stile di scrittura su cui il rilevatore è stato addestrato.

Il settore dell’istruzione è il più colpito dall’incertezza generata dall’IA. Sarebbe, perciò, opportuno, educare studenti e docenti a usare l’IA in modo etico, citando gli strumenti utilizzati, proprio come si citano altre fonti di ricerca.

In sintesi, l’uso dell’IA per la creazione di testi pone un dilemma etico: la convenienza di identificare rapidamente i contenuti generati dalla macchina non può e non deve prevalere sul diritto di un individuo a non essere ingiustamente accusato. L’approccio più responsabile, secondo la comunità di ricerca, è quello di considerare i rilevatori come indicatori probabilistici e non come prove conclusive.

Tag:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

EVENTI IN PROGRAMMA

Seguici

logo Nazionale
Visione TV

Categorie

Ultimo video