
Dalle origini al test di Turing
L’interesse per la creazione di macchine intelligenti risale almeno a circa due secoli fa, e precisamente al motore analitico di Charles Babbage e alle relative note di Ada Lovelace. Dopo un periodo di relativo torpore, è con Alan Turing che il tema riacquista interesse tra gli studiosi. Non a caso, ancora oggi si fa riferimento al test di Turing per valutare la capacità di una macchina o di un programma di pensare. Elaborato nel 1950 ed esposto in uno dei saggi più citati della storia dell’informatica, Computing Machinery and Intelligence, pubblicato sulla rivista Mind, il test propone un criterio semplice e ingegnoso:

una macchina può dirsi “pensante” solo se, rispondendo a domande poste da un osservatore, riesce a non farsi distinguere da un essere umano.
Dai sistemi esperti al machine learning
Negli anni Sessanta e Settanta del Novecento, l’intelligenza artificiale si sviluppa come branca dell’informatica volta a creare macchine logiche in grado di eseguire inferenze corrette sia dal punto di vista sintattico che semantico. Questo filone culmina con la nascita dei sistemi esperti: programmi capaci di attingere a una base di conoscenze e di inferirne di nuove vere, grazie alla logica proposizionale e al calcolo dei predicati.
I risultati, però, si rivelano presto deludenti. Le macchine mostrano una certa rigidità e difficoltà nell’adattarsi a situazioni nuove, portando a un temporaneo declino dell’interesse per l’AI.
Negli anni successivi, la crescente potenza di calcolo permette lo sviluppo di programmi capaci di eccellere in compiti specifici — talvolta meglio degli umani. Due esempi emblematici: Deep Blue, il supercomputer di IBM che nel 1997 sconfisse il campione mondiale di scacchi Garry Kasparov, e AlphaGo, sviluppato da Google, primo software capace (nel 2015) di battere un maestro umano nel gioco del Go.
Si tratta tuttavia di macchine specializzate, eccellenti in un solo ambito ma incapaci di generalizzare o di sostenere una conversazione naturale: non supererebbero, in altre parole, il test di Turing.
È in questo periodo che si diffondono le reti neurali, con lo sviluppo del machine learning e, successivamente, del deep learning, nel tentativo di imitare più da vicino alcuni aspetti dell’intelligenza umana.
La svolta del Transformer
La vera rivoluzione arriva nel 2017 con la pubblicazione di un articolo destinato a cambiare per sempre il panorama dell’intelligenza artificiale: Attention Is All You Need, firmato da un gruppo di ricercatori di Google.
L’articolo introduce un nuovo tipo di rete neurale, il Transformer, che diventerà il motore dei moderni Large Language Models (LLM), come quelli alla base di ChatGPT.
Un Transformer è un programma in grado di prevedere la parola successiva sulla base di un input (prompt) fornito dall’utente. In seguito, modelli simili sono stati sviluppati anche per altri ambiti: immagini, suoni e codice informatico.

Dallo static embedding al contesto
Premesso che i Transformer implementano modelli statistici estremamente complessi e sofisticati, possiamo provare a comprenderne i principi fondamentali, concentrandoci su quelli che generano testo.
Il primo passo consiste nel trasformare ogni parola (in realtà, ogni token) in un vettore numerico a molte dimensioni.
In modelli come ChatGPT, ogni token è rappresentato da un vettore con oltre 12.000 dimensioni: ciò significa che ogni parola è descritta da più di 12.000 numeri, ciascuno dei quali rappresenta una diversa caratteristica semantica.
Per esempio, la parola “re” potrà avere un valore alto lungo la dimensione associata al concetto di “potere” (ad esempio 1 su una scala da 0 a 1) e valori decisamente più bassi su altre dimensioni come “povertà” o “sottomissione”.
Questo processo si chiama static embedding e consiste nell’allenare la macchina fornendole una grande quantità di esempi: testi tratti dal web, libri, enciclopedie e altro materiale scritto in formato digitale.
Durante il training, le parole vengono collegate tra loro come i nodi di una rete semantica, con parametri che esprimono la forza numerica del legame tra esse. Ad esempio, “re” e “corona” avranno un valore di correlazione alto, mentre “re” e “coda” uno molto basso.
Modelli come ChatGPT-5 possiedono probabilmente centinaia di miliardi di questi parametri, anche se la cifra esatta non è pubblica.
Il meccanismo dell’attenzione
A questo punto abbiamo un modello statico della lingua. Tuttavia, il significato delle parole cambia radicalmente in base alla loro posizione, alla frase e, più in generale, al contesto.
È qui che entra in gioco il meccanismo dell’attenzione, che consente di ottenere un embedding contestuale — cioè una rappresentazione matematica della parola che tiene conto del contesto in cui compare.
In pratica, i valori del vettore che rappresenta una parola (derivati dallo static embedding) si modificano in base ai parametri che la collegano alle altre parole nel testo. Ogni parola “punta” o attenziona le altre, con intensità diversa, attraverso i pesi (attention scores) contenuti nelle matrici Q, K e V. Queste matrici vengono apprese durante la fase di addestramento, che può essere guidata o non supervisionata.
Il risultato è un insieme di attention scores che indicano, in termini di probabilità, quanto ogni parola è rilevante rispetto a tutte le altre.
La procedura viene ripetuta decine di volte (fino a 96 nei modelli ChatGPT), affinando progressivamente la rappresentazione.
Infine, il risultato di questo processo viene passato attraverso un’ulteriore rete neurale capace di cogliere le correlazioni non lineari — le sfumature della lingua, potremmo dire.
Il prodotto finale di questa architettura, chiamata encoder, sono i contextually enriched embeddings, cioè vettori semanticamente arricchiti dal contesto.
Questi vengono poi inviati a un’altra architettura, il decoder, che applica un processo analogo per predire la parola successiva, generando così il testo in modo coerente e fluido.
Conclusione: pensano davvero le macchine?
I Transformer sono straordinariamente efficaci e precisi, ma pensano davvero?
O si limitano a eseguire calcoli statistici senza comprendere nulla di ciò che producono?
Se per capire intendiamo avere coscienza di sé, possiamo affermare con sicurezza che nessuna intelligenza artificiale possiede coscienza.
D’altro canto, se adottiamo un punto di vista comportamentista, le risposte dell’AI generativa risultano perfettamente compatibili con ciò che, in termini funzionali, definiamo pensare.
In fondo, non è escluso che anche il cervello umano operi in modo simile a un modello generativo, pur con qualità emergenti come l’autocoscienza.
Anche i Transformer, infatti, manifestano fenomeni emergenti: producono risposte e inferenze che non sono state esplicitamente previste durante l’addestramento.
Tuttavia, l’intelligenza artificiale — almeno per ora — non dispone di input sensoriali paragonabili a quelli umani, e l’esperienza ci mostra che l’intelligenza nasce dall’interazione tra cognizione e percezione.
Manca inoltre di emozioni e sentimenti, componenti essenziali dell’esperienza e del pensiero umano.
In conclusione, possiamo dire che i sistemi intelligenti non pensano realmente — non ancora, almeno, e di certo non superano il test di Turing.Ma nulla vieta di immaginare che, così come dall’organizzazione della materia biologica sia emersa l’intelligenza umana, un giorno possa emergere, dal substrato di silicio, una forma di intelligenza analoga o persino superiore.
P.S. questo testo è stato scritto da me (PRF) e revisionato con l’aiuto di ChatGpt 5
Ringraziamo per il contributo PAOLO RICCARDO FELICIOLI