OpenAI Lancia GPT-5.4: Un Grande Passo Avanti Verso gli Agenti AI e il Lavoro Professionale

L'Ultimo Modello di OpenAI Puntato a Ridefinire il Lavoro con AI

OpenAI ha ufficialmente lanciato GPT-5.4, posizionandolo come il suo modello più capace ed efficiente per il lavoro di conoscenza professionale. Rilasciato il 5 marzo 2026, il modello integra ragionamento avanzato, codifica di stato dell'arte da GPT-5.3-Codex e una nuova capacità innovativa: l'uso nativo del computer. Questo rilascio segna una chiara svolta strategica dai chatbot conversazionali verso agenti AI autonomi e orientati ai flussi di lavoro.

Il modello è disponibile in tre forme principali: GPT-5.4 Thinking in ChatGPT per consumatori e team, GPT-5.4 nell'API e Codex per sviluppatori e una variante GPT-5.4 Pro ad alte prestazioni per compiti aziendali complessi. Secondo OpenAI, l'obiettivo è fornire "lavoro reale complesso" con maggiore precisione e meno scambi, cambiando fondamentalmente come l'AI si integra negli ambienti professionali.

Dominio dei Benchmark in Compiti Professionali e Agenti

Le affermazioni sulle prestazioni di GPT-5.4 sono supportate da miglioramenti significativi in una serie di nuovi benchmark incentrati sull'output del mondo reale. Su GDPval, un test di lavoro di conoscenza su 44 occupazioni, GPT-5.4 ha raggiunto un tasso di vittoria dell'83,0% contro professionisti del settore, un balzo sostanziale rispetto al 70,9% di GPT-5.2.

Forse ancora più eloquente, ora guida il competitivo benchmark Mercor APEX-Agents, che misura le prestazioni su lavori di servizi professionali come la creazione di presentazioni e modelli finanziari. Brendan Foody, CEO di Mercor, ha notato che mentre i modelli precedenti si comportavano come "uno stagista che ci azzecca un quarto delle volte", GPT-5.4 ora è in cima alla classifica.

Punteggi interni specifici evidenziano la sua abilità: un punteggio medio dell'87,3% su compiti di foglio di calcolo di investment banking junior (vs. 68,4% per GPT-5.2) e un tasso di preferenza umana del 68% per le presentazioni generate grazie a una maggiore estetica e varietà visiva.

La Svolta dell'Uso Nativo del Computer

L'avanzamento tecnicamente più significativo in GPT-5.4 è la sua capacità di uso nativo del computer. Ciò consente al modello, in particolare tramite l'API, di operare sui computer scrivendo codice (ad esempio utilizzando Playwright) o emettendo direttamente comandi del mouse e della tastiera in risposta agli screenshot.

I benchmark confermano questo balzo. Su OSWorld-Verified, che testa la navigazione desktop tramite screenshot e input, GPT-5.4 ha ottenuto un tasso di successo del 75,0%, superando le prestazioni umane riportate (72,4%) e superando di gran lunga il 47,3% di GPT-5.2. Su WebArena-Verified per l'uso del browser, ha raggiunto il 67,3% di successo.

Questa capacità è costruita su una percezione visiva migliorata. GPT-5.4 ottiene l'81,2% su MMMU-Pro (senza strumenti) e mostra un'analisi migliorata dei documenti su OmniDocBench. OpenAI sta anche introducendo un livello di dettaglio dell'immagine `originale` che supporta fino a 10,24 milioni di pixel, fondamentale per un'interazione precisa con l'interfaccia utente e la localizzazione.

continua a leggere sotto...

Efficienza Ingegneristica: Ricerca degli Strumenti e Risparmio di Token

Oltre alla capacità grezza, OpenAI ha progettato GPT-5.4 per l'efficienza in sistemi agenziali su larga scala e pesanti di strumenti. La nuova funzione Ricerca degli Strumenti è un'innovazione chiave. Invece di caricare tutte le definizioni degli strumenti in ogni prompt, il modello riceve un elenco leggero e può cercare definizioni solo quando necessario.

In test con 36 server Model Context Protocol (MCP), questa configurazione ha ridotto l'utilizzo totale dei token del 47% mantenendo l'accuratezza. Per gli sviluppatori che costruiscono agenti complessi, ciò si traduce direttamente in costi più bassi e tempi di risposta più rapidi. Il modello mostra anche una maggiore precisione nella chiamata degli strumenti e parallelizzazione, riducendo i "tempi di attesa degli strumenti" critici per la latenza.

OpenAI afferma che GPT-5.4 è il suo "modello di ragionamento più efficiente in termini di token finora", utilizzando significativamente meno token di GPT-5.2 per risolvere problemi. Questa efficienza è fondamentale per rendere economicamente praticabili flussi di lavoro multi-step e agenziali.

Guidabilità, Sicurezza e Panorama Competitivo

Per gli utenti di ChatGPT, GPT-5.4 Thinking introduce un nuovo livello di controllo. Il modello ora fornirà un piano iniziale per query complesse e gli utenti possono regolare le istruzioni a metà risposta per guidare l'output senza dover ricominciare. Questa funzione è ora disponibile sul web e su Android, con iOS in arrivo presto.

Sulla sicurezza, OpenAI sta trattando GPT-5.4 come un modello di capacità informatica "Alta" secondo il suo Quadro di Preparazione. Include una pila di sicurezza ampliata con monitoraggio e controlli di accesso. La società ha anche rilasciato una valutazione di controllabilità Chain-of-Thought (CoT) open-source, trovando che GPT-5.4 ha una bassa capacità di offuscare il suo ragionamento, il che aiuta nel monitoraggio della sicurezza.

Il lancio arriva durante un'intensa competizione. Claude Opus 4.6 di Anthropic guida ancora alcuni benchmark di codifica, mentre Gemini 3.1 Pro di Google offre una finestra di contesto più ampia. La pretesa di leadership di GPT-5.4 si basa sul lavoro di conoscenza professionale e sul controllo del computer—aree centrali nel mercato emergente degli "agenti AI".

Prezzi, Disponibilità e Implicazioni Strategiche

GPT-5.4 ha un prezzo premium. Il prezzo di input dell'API è fissato a $2,50 per milione di token, rispetto a $1,75 per GPT-5.2. GPT-5.4 Pro costa $30 per milione di token. OpenAI sostiene che una maggiore efficienza dei token compensa il costo più alto per token per molti compiti.

Il modello è ora in fase di lancio. GPT-5.2 Thinking rimarrà disponibile per tre mesi prima di essere ritirato il 5 giugno 2026. Gli utenti aziendali avranno accesso a GPT-5.4 Pro e Codex ottiene supporto sperimentale per una finestra di contesto di 1 milione di token.

Questo rilascio è più di un semplice aggiornamento incrementale. Integrando codifica, controllo del computer, orchestrazione degli strumenti e generazione di output professionali in un unico modello, OpenAI sta costruendo il motore principale per la prossima fase dell'AI: agenti persistenti e autonomi che completano flussi di lavoro complessi. Come mostrano i benchmark, nessun modello è ancora impeccabile, ma GPT-5.4 rappresenta un passo sostanziale verso il rendere pratica quella futura realtà agenziale.

OpenAI Lancia GPT-5.4: Un Grande Passo Avanti Verso gli Agenti AI e il Lavoro Professionale

L'Ultimo Modello di OpenAI Puntato a Ridefinire il Lavoro con AI

Dominio dei Benchmark in Compiti Professionali e Agenti

La Svolta dell'Uso Nativo del Computer

Efficienza Ingegneristica: Ricerca degli Strumenti e Risparmio di Token

Guidabilità, Sicurezza e Panorama Competitivo

Prezzi, Disponibilità e Implicazioni Strategiche

Related News

Anthropic riscrive l'ingegneria del contesto per Claude 5: meno regole, più giudizio

L'AI open-weight segue la traiettoria di Kubernetes in mezzo alle tensioni geopolitiche

Istituti per la sicurezza dell'IA del Regno Unito e degli Stati Uniti scoprono che Kimi K3 si avvicina alla frontiera nelle capacità informatiche, ma è in ritardo nell'esecuzione degli exploit

I Giganti della Tecnologia Mettono in Guardia contro l'Eccessiva Regolamentazione dei Modelli AI a Peso Aperto

Fondatori di Startup Esortano gli USA a Mantenere Accessibile l'AI Open-Weight Cinese

Le barriere dell'IA ostacolano la legittima ricerca sulla sicurezza informatica, secondo gli esperti