EconomiaScienza
L’Intelligenza Artificiale scopre il “Rimpianto”: come la psicologia comportamentale sta accelerando l’apprendimento delle macchine
L’AI impara dal “Rimpianto”: il nuovo modello che rivoluziona l’apprendimento automatico. Un paper del 2026 svela come l’introduzione di meccanismi psicologici riduca i tempi di addestramento del 36%. Ecco perché il “senno di poi” rende le macchine infallibili

Viviamo in un’epoca in cui l’Intelligenza Artificiale sembra onnipotente, ma chi lavora “sotto il cofano” sa bene che questi sistemi hanno un gran tallone d’Achille: l’inefficienza. Immaginate di dover imparare a giocare a scacchi bendati, ricevendo un segnale solo alla fine della partita: “Hai vinto” o “Hai perso”. Nessun suggerimento su quale mossa, tre ore prima, vi abbia condannato. Questo è, in sintesi, il problema delle “ricompense sparse” nel Reinforcement Learning (RL) tradizionale. L’algoritmo, la AI, sa di aver vinto o perso troppo tardi, quando tutte le operazioni sono finite.
Un recente paper del professor Zhe Xu intitolato “StepScorer: Accelerating Reinforcement Learning with Step-wise Scoring and Psychological Regret Modeling”, propone una soluzione che ha il sapore dell’economia comportamentale più che dell’informatica pura: insegnare alle macchine il calcolo del rimpianto.
L’autore, Zhe Xu, introduce il Psychological Regret Model (PRM) , un approccio che promette di ridurre i tempi di addestramento del 36% semplicemente costringendo l’algoritmo a chiedersi, passo dopo passo: “Quanto ci ho perso non facendo la scelta migliore?”. Un vero e proprio calcolo del rimpianto necessario per fare le scelte migliori ad ogni passo.
Il problema dell’efficienza
Nel Reinforcement Learning classico, l’agente esplora l’ambiente quasi a caso finché non inciampa in una ricompensa. È un approccio estremamente “liberista”: si lascia che il mercato (l’ambiente) regoli l’apprendimento con i suoi tempi, ottimizzando i compensi secondo le ricompense. Però questo tipo di apprendimento ha tempi biblici: signifca che la AI deve attendere il feedback finale a processo concluso, sprecando così molti passaggi e spesso non trovando la soluzione ottimale.
Il modello PRM interviene invece come una politica economica attiva. Non aspetta il fallimento o il successo finale. Introduce un sistema di feedback denso, un segnale correttivo immediato che guida l’agente verso l’ottimo. In termini economici, riduce l’asimmetria informativa tra l’azione compiuta e il risultato atteso.
Cos’è esattamente il “Calcolo del Rimpianto”?
Non stiamo parlando di emozioni umane, ma di una loro formalizzazione matematica rigorosa. Il cuore del PRM è il concetto di pensiero controfattuale, pilastro della teoria delle decisioni. La AI si chiede “Cosa sarebbe stato se“, ovviamente solo come concetto matematico senza ricaduta emozionale.
Il “rimpianto” viene calcolato matematicamente come la differenza tra il valore dell’azione ottimale (quella che avrebbe compiuto un esperto o un modello ideale) e il valore dell’azione effettivamente scelta dall’agente in quello specifico stato.
La formula chiave presentata nel paper è la seguente:
regret(s_{t}, a_{t}) \approx Q_{opp}(s_{t}, a_{opp}^{*}) – Q_{opp}(s_{t}, a_{t})
Dove:
- Q_{opp} è la stima del valore fornita da un “opponente” o insegnante forte.
- a_{opp}^{*}$ è l’azione migliore possibile in quel momento.
- a_{t} è l’azione che l’agente ha effettivamente compiuto.
In pratica, se l’agente fa una mossa sub-ottimale, il sistema non aspetta la fine dell’episodio per punirlo. Gli invia immediatamente un segnale negativo proporzionale a quanto quella mossa era peggiore rispetto alla migliore possibile. Questo trasforma un deserto di “nessun feedback” in un percorso ricco di segnali, permettendo una convergenza molto più rapida.
Perché il risultato finale è migliore?
L’aspetto sorprendente dello studio non è solo la velocità, ma la qualità del risultato.
Nel test effettuato sull’ambiente Lunar Lander-v3 (un simulatore fisico dove bisogna far atterrare una navicella), l’algoritmo non solo ha imparato prima, ma ha imparato meglio.
Come evidenziato dai risultati:
- Stabilità: Gli agenti PRM imparano a mantenere l’orientamento verticale molto prima nel processo.
- Efficienza: Imparano a conservare carburante usando profili di spinta più fluidi , al contrario degli agenti standard che spesso oscillano nervosamente rischiando lo schianto all’ultimo secondo.
Ecco un confronto diretto delle performance:
| Metrica | PPO (Standard) | PPO + PRM (Con Rimpianto) |
| Episodi per la soluzione | Oltre 550 | 350 (-36%) |
| Ricompensa media finale | $140 \pm 15$ | $300 \pm 20$ |
Il modello basato sul rimpianto ottiene un punteggio medio finale di 300 contro i 140 del modello base. Significa che l’agente non si limita a “non schiantarsi” (il minimo indispensabile), ma ottimizza l’intero processo di atterraggio.
La vera utilità del modello comportamentale per l’AI
Perché questo approccio è fondamentale per il futuro dell’AI, oltre ai videogiochi?
- Applicabilità nel Mondo Reale: In ambiti come la robotica o la guida autonoma, non ci si può permettere di aspettare migliaia di fallimenti per imparare. Un robot che cade costa. Un’auto che sbanda è pericolosa. Il PRM, fornendo feedback passo dopo passo, è ideale per questi ambienti dove le ricompense sono ritardate o rare.
- Finanza e Trading: Il concetto di rimpianto è nativo dei mercati finanziari. Un algoritmo di trading che impara non solo dai profitti/perdite realizzati, ma dal costo opportunità delle azioni non intraprese (il rimpianto, appunto), sviluppa strategie più robuste e meno prone a rischi estremi.
- Intelligenza Fluida: La conclusione del paper apre a uno scenario affascinante. Il PRM può essere usato per sistemi di “intelligenza fluida”: si addestra una policy di base una volta sola, e poi si usano i segnali di rimpianto per adattare rapidamente il modello a nuovi compiti tramite adattatori leggeri (come i LoRA), secondo il paradigma “train once, adapt forever”.
Ci sono però ovviamente, delle controindicazione: utilizzare un sistema del genere che calcola i costi-opportunità passo passo viene ad avere un costo come numero di calcoli che è necessario fare, molto superiori. Questo necessita quindi un miglioramento delle capacità computazionali a disposizione.
L’umanizzazione matematica
La lezione che traiamo da questo paper è che per rendere le macchine più intelligenti, paradossalmente, dobbiamo renderle più simili a noi nei nostri processi cognitivi “dolorosi”. Il rimpianto, in psicologia, è un meccanismo di apprendimento potentissimo: ci impedisce di rifare lo stesso errore.
Zhe Xu dimostra che formalizzare il “senno di poi” non è solo un esercizio accademico, ma una tecnica ingegneristica che taglia i tempi di calcolo e migliora le prestazioni. In un mondo dove la potenza di calcolo ha un costo energetico ed economico crescente, algoritmi che imparano di più sbagliando (virtualmente) di meno sono la vera chiave di volta.
Non è solo Machine Learning, è Behavioral Economics applicata al silicio. Vedremo se effettivamente verrà a funzionare.








You must be logged in to post a comment Login