Report: Il clustering dei token di ragionamento di GPT-5.5 Codex potrebbe causare un degrado delle prestazioni

{ "title": "Anomalia GPT-5.5 Codex: Il clustering dei token potrebbe degradare le prestazioni", "slug": "gpt-5-5-codex-anomalia-clustering-token-ragionamento-degrado-prestazioni", "summary": "Un issue su GitHub rivela che le risposte di GPT-5.5 in Codex si raggruppano in modo sproporzionato esattamente a 516 token di ragionamento, con picchi secondari a 1034 e 1552. L'analisi di 390.195 record di token mostra che GPT-5.5 rappresenta l'82% di questi eventi a confine fisso nonostante solo il 19,3% delle risposte totali. Questa anomalia coincide con un netto calo dell'intensità media dei token di ragionamento, da 268,1 a febbraio 2026 a 106,9 a maggio 2026, spiegando potenzialmente il degrado delle prestazioni su compiti complessi. Il pattern suggerisce un possibile limite di budget di ragionamento o un comportamento di troncamento unico di GPT-5.5, sollevando preoccupazioni sull'affidabilità del modello per applicazioni critiche.", "meta_description": "Le risposte di GPT-5.5 Codex si raggruppano esattamente a 516 token di ragionamento, con picchi secondari a 1034 e 1552. L'analisi di 390.195 record mostra che questa anomalia potrebbe degradare le prestazioni su compiti complessi.", "content": "

TL;DR

Un'analisi dettagliata di 390.195 record di risposte Codex rivela che il modello GPT-5.5 di OpenAI presenta una sorprendente anomalia: i suoi output di token di ragionamento si raggruppano in modo sproporzionato esattamente a 516 token, con picchi secondari a 1034 e 1552. Questo pattern, che rappresenta l'82% di tutti gli eventi esatti a 516 nonostante GPT-5.5 costituisca solo il 19,3% delle risposte totali, coincide con un netto calo dell'intensità media dei token di ragionamento, da 268,1 a febbraio 2026 a soli 106,9 a maggio 2026. Le prove suggeriscono un possibile limite di budget di ragionamento o un comportamento di troncamento che potrebbe spiegare il degrado delle prestazioni su compiti Codex complessi e critici.

L'anomalia: clustering di token a confine fisso

Un issue su GitHub presentato dall'utente @vguptaa45 ha portato alla luce uno schema peculiare nella telemetria di Codex di OpenAI. L'analisi di 390.195 record di token a livello di risposta in 865 sessioni rivela che le risposte di GPT-5.5 si posizionano in modo sproporzionato esattamente a 516 token di output di ragionamento, con ulteriori picchi a confine fisso a 1034 e 1552. Questo clustering non è una distribuzione naturale: suggerisce un comportamento di budget di ragionamento soglia.

I dati sono netti. GPT-5.5 rappresenta solo il 19,3% di tutte le risposte, ma l'82,0% degli eventi esatti a 516. Il suo rapporto esatto-516 rispetto a >=516 è del 44,0%, rispetto a solo l'1,3% per i modelli non GPT-5.5. I modelli secondari come GPT-5.4 mostrano un rapporto del 19,8%, mentre GPT-5.2, GPT-5.3-codex e GPT-5.3-codex-spark presentano rispettivamente rapporti dello 0,34%, 0,0% e 0,0%.

Declino dell'intensità di ragionamento

L'anomalia non riguarda semplicemente un uso maggiore di token. In effetti, l'intensità media dei token di ragionamento è diminuita drasticamente nel tempo. A febbraio 2026, la media era di 268,1 token con un P90 di 772. A maggio 2026, la media era scesa a 106,9 token, con un P90 di soli 344. Questo declino coincide con un aumento drammatico del clustering esatto a 516, dallo 0,11% degli eventi >=516 a febbraio al 53,30% a maggio.

I valori fissi stessi—516, 1034 e 1552—sono sospetti. Sembrano essere confini di soglia ripetuti piuttosto che una distribuzione naturale variabile. Questo pattern è coerente con un limite di budget di ragionamento, una logica di routing o un comportamento di troncamento unico di GPT-5.5.

Contesto: il panorama più ampio dei modelli AI

Questa anomalia emerge in un momento di intensa concorrenza nel mercato dei modelli AI. OpenAI ha recentemente svelato GPT-5.6 Sol, la sua AI per la cybersicurezza più avanzata, insieme a GPT-5.6 Terra e GPT-5.6 Luna per carichi di lavoro quotidiani e veloci. GPT-5.6 Sol è progettato per compiti di ragionamento ad alta intensità, mentre Terra pare eguagliare le prestazioni di GPT-5.5 a metà del costo. Nel frattempo, il prossimo modello Watermelon di Meta dovrebbe eguagliare GPT-5.5 su benchmark chiave, secondo il capo della superintelligenza di Meta Alexandr Wang.

Anche Anthropic è stata attiva, lanciando Claude Fable 5 con protezioni per la cybersicurezza, mentre la cinese Z.ai sostiene che il suo modello GLM-52 possa eguagliare Mythos di Anthropic in compiti di cybersicurezza. La pressione competitiva è immensa, e qualsiasi degrado delle prestazioni in un modello di punta come GPT-5.5 potrebbe avere implicazioni significative per utenti aziendali e sviluppatori che si affidano a Codex per compiti complessi.

continua a leggere sotto...

Prove e analisi

L'issue su GitHub fornisce una ripartizione dettagliata dell'anomalia. In 390.195 record di token a livello di risposta provenienti da 865 sessioni, ci sono stati 3.363 eventi esatti a 516. La quota di GPT-5.5 di questi eventi è dell'82,0%, nonostante rappresenti solo il 19,3% di tutte le risposte. Il rapporto esatto-516 rispetto a >=516 per GPT-5.5 è del 44,0%, rispetto all'1,3% per i modelli non GPT-5.5, una differenza di 33,6 volte.

I dati mensili mostrano che il clustering si è intensificato drammaticamente. A febbraio 2026, solo lo 0,11% degli eventi >=516 era esattamente 516. A maggio 2026, tale cifra era salita al 53,30%, prima di diminuire leggermente al 35,84% a giugno. Contemporaneamente, i token medi di ragionamento sono scesi da 268,1 a febbraio a 106,9 a maggio, con i token P90 che sono passati da 772 a 344.

I valori fissi—516, 1034 e 1552—sono particolarmente significativi. Sembrano essere confini di soglia ripetuti, suggerendo un limite di budget o una logica di routing che tronca il ragionamento in questi punti specifici. Questa non è una distribuzione naturale; è un artefatto specifico del modello.

Perché è importante

Per utenti aziendali e sviluppatori, questa anomalia potrebbe avere conseguenze nel mondo reale. I compiti Codex complessi—come la generazione di codice, il debug e il ragionamento multi-step—richiedono una profondità di ragionamento sufficiente. Se GPT-5.5 interrompe costantemente il ragionamento a 516 token, potrebbe produrre output incompleti o errati per applicazioni critiche.

Il tempismo è cruciale. OpenAI ha appena svelato GPT-5.6 Sol, la sua AI per la cybersicurezza più avanzata, insieme a GPT-5.6 Terra e GPT-5.6 Luna. GPT-5.6 Terra è segnalato per eguagliare le prestazioni di GPT-5.5 a metà del costo, rendendo l'anomalia di GPT-5.5 una potenziale passività competitiva. Nel frattempo, il modello Watermelon di Meta dovrebbe eguagliare GPT-5.5 sui benchmark, e Claude Fable 5 di Anthropic sta guadagnando terreno.

La questione solleva anche interrogativi sul routing e l'efficienza dei modelli. Come notato in un report di Business Insider, i CTO delle startup AI praticano sempre più il "modelmaxxing", utilizzando modelli specifici per compiti specifici per evitare di sprecare token. Se GPT-5.5 è costantemente sottoperformante su compiti complessi a causa del clustering dei token, potrebbe minare la fiducia nel modello per applicazioni critiche.

Cosa dovrebbe indagare OpenAI

L'issue su GitHub chiede al team di Codex di indagare se GPT-5.5 ha un budget di ragionamento, routing, troncamento, fallback o comportamento di scheduler che causa la terminazione delle risposte intorno a 516, 1034 o 1552 token di ragionamento. I controlli di convalida interna utili includono l'analisi del rapporto tra eventi esatti a 516 e >=516 tra modelli e periodi di tempo.

Se questo è un comportamento previsto, OpenAI dovrebbe chiarire se esattamente 516 indica un punto di arresto normale, un limite di budget, un livello degradato o un'altra soglia interna. La trasparenza è fondamentale per mantenere la fiducia degli sviluppatori, specialmente mentre l'azienda affronta restrizioni governative su GPT-5.6 Sol e compete con rivali come Meta e Anthropic.

Conclusione

L'anomalia del clustering dei token di GPT-5.5 è un risultato significativo che richiede un'indagine immediata. Con l'82% degli eventi esatti a 516 concentrati in un unico modello e un concomitante calo dell'intensità dei token di ragionamento, le prove indicano un problema sistemico che potrebbe minare l'efficacia del modello per compiti complessi. Mentre l'industria AI corre verso modelli più potenti, l'affidabilità e la trasparenza rimangono fondamentali. OpenAI deve affrontare questa anomalia per mantenere il suo vantaggio competitivo e la fiducia degli utenti.

", "tags": ["GPT-5.5", "Codex", "prestazioni AI", "token di ragionamento", "OpenAI", "anomalia modello", "clustering token"], "seo_keywords": ["anomalia GPT-5.5 Codex", "clustering token di ragionamento", "degrado prestazioni modello AI", "problemi OpenAI GPT-5.5", "budget token Codex", "troncamento ragionamento AI", "GPT-5.5 vs GPT-5.6"] }