Evoluzione degli LLM: Agenti di Coding, Modelli Aperti e Perché i Pellicani Sono Importanti
Gli Ultimi Sei Mesi: Un'Era Cruciale per i Grandi Modelli Linguistici
A PyCon US 2026, Simon Willison ha fornito un riassunto rapido di un periodo di trasformazione per i grandi modelli linguistici. La sua presentazione lampo di cinque minuti, ora disponibile come presentazione annotata, sostiene che l'ultimo semestre rappresenta un punto di inflessione fondamentale, particolarmente marcato da novembre 2025.
Willison identifica questo come un momento in cui l'equilibrio di potere nell'AI è cambiato in modo percettibile. Il cosiddetto modello 'migliore', spesso giudicato dalle 'vibrazioni' della comunità, è cambiato cinque volte tra Anthropic, OpenAI e Google in un solo mese, sottolineando la concorrenza frenetica.
Il Punto di Inflessione di Novembre e l'Ascesa degli Agenti di Coding Affidabili
Novembre 2025 è stato critico. È iniziato con Claude Sonnet 4.5 come leader percepito, solo per essere rapidamente superato da GPT-5.1, Gemini 3, GPT-5.1 Codex Max e infine Claude Opus 4.5. Tuttavia, la vera svolta è stata più profonda di un semplice rimescolamento della classifica.
Gli agenti di coding hanno superato una soglia di affidabilità cruciale. Grazie all'esteso addestramento con Reinforcement Learning from Verifiable Rewards (RLVR) da parte di OpenAI e Anthropic, agenti come Codex e Claude Code sono evoluti da novità a strumenti pratici quotidiani. Gli sviluppatori potevano ora utilizzarli per svolgere lavoro reale senza dover costantemente correggere errori fondamentali.
L'Emergenza dei 'Claw' e di un Nuovo Ecosistema AI
Simultaneamente, una nuova categoria di software ha iniziato la sua ascesa. Un progetto inizialmente chiamato Warelay, che ha subito diverse ridenominazioni (CLAWDIS, CLAWDBOT, Clawdbot, Moltbot), è esploso sulla scena nel febbraio 2026 come OpenClaw.
OpenClaw è un 'assistente AI personale', e il suo successo ha generato un termine generico: 'Claw'. Questi assistenti eseguiti localmente sono diventati così popolari che si dice abbiano fatto esaurire i Mac Minis in Silicon Valley, descritti umoristicamente come 'l'acquario perfetto per il tuo Claw'. Il fenomeno evidenzia un passaggio verso AI personalizzata e privata.
La Capacità Sorprendente dei Modelli Locali e Aperti
Una tendenza parallela ha visto i modelli aperti superare drammaticamente le aspettative. La serie Gemma 4 di Google è emersa come i modelli aperti più capaci di una società statunitense. Più sorprendentemente, i laboratori cinesi hanno rilasciato concorrenti formidabili.
GLM-5.1 è un colosso da 1,5 TB e 754 miliardi di parametri, concesso in licenza sotto la licenza MIT, offrendo prestazioni all'avanguardia per coloro che dispongono dell'hardware necessario. Nel frattempo, Qwen's Qwen3.6-35B-A3B, un modello da 20,9 GB, ha dimostrato di poter funzionare su un laptop e, nel benchmark unico 'pellicano che cavalca una bicicletta' di Willison, addirittura superare Claude Opus 4.7 in alcuni aspetti.
Il Benchmark del Pellicano: Una Misura Bizzarra del Progresso
L'uso continuo da parte di Willison del prompt 'Genera un SVG di un pellicano che cavalca una bicicletta' fornisce una linea temporale visiva capricciosa ma rivelatrice. Il test è progettato per essere assurdo - i pellicani non possono cavalcare biciclette, e i laboratori non si allenerebbero per questo - rendendolo una sonda utile per la capacità generale di disegno e di seguire istruzioni.
La progressione dalla semplice illustrazione di Claude Sonnet 4.5 nel settembre 2025 all'illustrazione dettagliata di Gemini 3.1 Pro (completa di un pesce nel cestino) e ai tentativi animati di GLM-5.1 mostra un rapido miglioramento nel ragionamento visivo e nella generazione di SVG, anche per i modelli aperti.
Dolori di Crescita: Sicurezza, Supervisione e Influenza Sociale
Questo periodo di avanzamento rapido non è stato privo di preoccupazioni. Ricerche separate evidenziano sfide critiche. Un articolo di Nature sostiene che gli LLM richiedono una nuova forma di monitoraggio basato sulle capacità, poiché il degrado delle prestazioni è complesso e dipendente dal contesto.
I modelli possono 'sovradattarsi' a fattori intrinseci (come la conoscenza obsoleta) o estrinseci (come interazioni umane specifiche), richiedendo correzioni sfumate piuttosto che un semplice riaddestramento del modello. Nel frattempo, rapporti sulla sicurezza informatica avvertono che gli attaccanti informatici potenziati dall'AI stanno migliorando rapidamente, e gli assistenti di coding AI stanno esacerbando le crisi di diffusione dei segreti.
Forse più allarmante, un altro studio di Nature fornisce prove che il controllo governativo dei media a livello globale influenza gli output degli LLM. I modelli mostrano un bias più forte a favore del governo nelle risposte quando i loro dati di addestramento includono contenuti provenienti da media controllati dallo stato, sollevando profonde questioni sulla neutralità e sul discorso digitale globale.
Conclusione: Una Nuova Fase di AI Pratica e Accessibile
Gli ultimi sei mesi cristallizzano due temi principali, come riassunto da Willison. Primo, gli agenti di coding sono diventati veramente buoni, passando dalle dimostrazioni di ricerca a strumenti professionali. Secondo, i modelli eseguiti localmente superano ampiamente le aspettative, democratizzando l'accesso a potenti AI.
Questo passaggio verso l'utilità pratica e la potenza accessibile definisce l'era attuale. Tuttavia, si svolge accanto a serie questioni sulla sicurezza, la supervisione e il bias intrinseco che l'industria deve affrontare man mano che questi modelli diventano ulteriormente integrati nelle nostre vite digitali e professionali. La corsa non è più solo chi ha il pellicano migliore; è su chi può costruire i sistemi AI più utili, affidabili e responsabili.
Related News

Le guardie di sicurezza AI di Anthropic Fable scatenano la reazione negativa dei ricercatori

Corte tedesca stabilisce che Google è responsabile degli errori nelle panoramiche AI

Apple annuncia macOS Golden Gate e macchine container Linux

Apple presenta l'architettura AI basata sui modelli di base di Google Gemini

Xiaomi MiMo raggiunge 1000 TPS con il modello 1T, ridefinendo la velocità dell'AI

