Google Antigravity 2.0 Prime nel Benchmark Pratico LLM per Codice CAD

Antigravity 2.0 emerge come leader nella generazione di CAD con AI

In un notevole benchmark per il coding assistito da AI, il recentemente lanciato Antigravity 2.0 di Google, che sfrutta il modello Gemini 3.5 Flash, ha fornito il risultato di qualità più alta nella generazione di complessi modelli 3D architettonici. Il test, condotto da ModelRift, ha messo alla prova diversi strumenti di coding AI leader contro il compito di creare un modello OpenSCAD del Pantheon da immagini di riferimento.

I risultati evidenziano un significativo passo avanti nella capacità dell'AI di gestire il ragionamento spaziale e la geometria costruttiva. Mentre la velocità non ha correlato con la qualità, l'approccio metodico e orientato al dettaglio di Antigravity ha prodotto il modello più fedele all'architettura in modo autonomo, comprese caratteristiche intricate come il soffitto a cassettoni interno.

Questa performance arriva insieme al debutto pubblico di Antigravity 2.0 a Google I/O 2026, dove Google ha presentato importanti aggiornamenti alla sua piattaforma di coding agenziale. La nuova versione include un'applicazione desktop ridisegnata, uno strumento CLI (interfaccia a riga di comando) e un SDK per costruire flussi di lavoro personalizzati, posizionandolo come diretto concorrente di strumenti come Cursor.

Il benchmark del Pantheon: un test di intelligenza spaziale

Il benchmark di ModelRift è stato progettato per andare oltre i semplici controlli di sintassi. L'obiettivo era vedere quanto bene i sistemi AI potessero tradurre riferimenti architettonici visivi in codice CAD parametrico utilizzando OpenSCAD, un linguaggio di modellazione 3D basato su testo. Il Pantheon è stato scelto specificamente perché la sua geometria - una rotonda radiale, cupola, portico e colonne - gioca sugli punti di forza di OpenSCAD nelle operazioni booleane e nella simmetria.

Tutti gli agenti testati avevano accesso alla CLI di OpenSCAD per renderizzare anteprime e iterare. Il prompt principale li ha istruiti a "vedere due immagini di riferimento e costruire un file .scad con l'implementazione OpenSCAD del Pantheon". Questa configurazione ha testato non solo la generazione di codice, ma anche la capacità dell'AI di analisi visiva e raffinamento iterativo.

Risultati del benchmark: Antigravity prende la corona

Il benchmark ha confrontato sei diversi sistemi AI. I risultati, valutati per velocità di implementazione e qualità dell'output, hanno rivelato chiare fasce di performance.

Google Antigravity 2.0 / Gemini 3.5 Flash High: Ha raggiunto il punteggio di qualità autonomo più alto di 4,5/5. È stato l'unico agente a implementare il caratteristico schema del soffitto a cassettoni interno del Pantheon e ha utilizzato dimensioni architettoniche reali derivanti dalla ricerca. Tuttavia, è stato tra i più lenti, impiegando circa 12 minuti.
ModelRift / Gemini Flash 3.0 (con intervento umano): Ha ottenuto un punteggio di 3,8/5, rappresentando il miglior risultato non autonomo. Utilizzando il flusso di lavoro di annotazione visiva di ModelRift, un essere umano ha fornito feedback sulle renderizzazioni, guidando l'AI verso un modello più coerente in circa 10 minuti.
Codex 5.5 High: Ha ottenuto un punteggio di 3,0/5. Ha prodotto un modello con una densità di dettagli impressionante, compresa l'iscrizione "M AGRIPPA" sull'architrave. Il suo punteggio è stato limitato da una discrepanza tra la sua renderizzazione di anteprima e la mesh STL finale esportata, che presentava problemi di geometria.
Claude Sonnet 4.6: Ha ottenuto un punteggio di 3,4/5, producendo il modello più pulito e proporzionalmente bilanciato tra il batch originale autonomo, ma è stato il più lento di quel gruppo.
Claude Opus 4.7: Ha ottenuto un punteggio di 3,0/5, creando un modello strutturato ma eccessivamente uniforme e monocromatico.
Cursor Composer 2.5: È stato il più veloce (5/5 per velocità) ma ha prodotto l'output più debole (1,4/5 per qualità), risultando in un modello semplicistico e simile a un segnaposto.

La classifica dimostra che per compiti spaziali complessi, la velocità grezza è un povero predittore di qualità. Gli approcci più deliberati e pianificati hanno prodotto i risultati più architettonicamente solidi.

Dentro l'approccio vincente di Antigravity 2.0

Antigravity 2.0 di Google, annunciato a I/O 2026, rappresenta un significativo spostamento rispetto al suo iniziale IDE basato su VS Code. La nuova versione è un'applicazione desktop incentrata sull'agente che consente agli utenti di orchestrare più agenti AI ed eseguire compiti in parallelo. Google ha dichiarato che il nuovo modello Gemini 3.5 Flash è stato co-sviluppato utilizzando Antigravity stesso.

Nel benchmark, questa nuova base ha mostrato i suoi punti di forza. A differenza di altri agenti che hanno stimato visivamente le proporzioni, il piano di Antigravity ha esplicitamente dichiarato che avrebbe cercato e utilizzato parametri reali del Pantheon. La sua implementazione ha incluso un modello parametrico con un toggle di cutaway per mostrare dettagli interni.

L'output dell'agente è andato oltre le forme basilari. Ha modellato accuratamente i 5 anelli di 28 cassettoni all'interno della cupola - un livello di dettaglio che nessun altro agente autonomo ha tentato. Ha anche miscelato correttamente i materiali (grigio e rosso per le colonne) e incluso un'iscrizione leggibile. Ciò suggerisce che Gemini 3.5 Flash High possiede un ragionamento spaziale migliorato e una maggiore capacità di pianificare ed eseguire compiti multi-step orientati al dettaglio.

continua a leggere sotto...

Il vantaggio dell'intervento umano

Mentre Antigravity ha vinto la categoria autonoma, il benchmark ha sottolineato il continuo valore della guida umana. La corsa ModelRift/Gemini Flash 3.0, che ha impiegato un flusso di lavoro di annotazione visiva, ha raggiunto un punteggio di qualità alto di 3,8/5.

In questo flusso di lavoro, un utente poteva disegnare frecce e note direttamente su una renderizzazione 3D per evidenziare problemi - come capitali di colonne mancanti o proporzioni del tetto errate - e fornire quel feedback visivo all'AI. Per compiti spaziali, questo si è rivelato un metodo di correzione più veloce e preciso rispetto alle descrizioni testuali da sole.

Ciò evidenzia un'intuizione chiave: la generazione completamente autonoma non è ancora il flusso di lavoro ottimale per compiti CAD di precisione. Anche il miglior AI beneficia di una guida umana mirata, specialmente quando sono richiesti giudizi estetici o proporzionali sfumati.

OpenSCAD: il linguaggio ideale per la geometria generata da AI

Il benchmark ha convalidato OpenSCAD come un linguaggio bersaglio altamente efficace per la geometria 3D generata da AI. La sua natura basata su testo e procedurale si allinea bene con il modo in cui i grandi modelli linguistici ragionano sulla struttura. Gli agenti potevano descrivere direttamente operazioni come "creare 28 colonne ripetute" o "sottrarre un oculo da una cupola" nel codice.

Ciò contrasta con i flussi di lavoro guidati da AI per applicazioni 3D tradizionali come Blender, dove l'AI deve tradurre l'intento in una sequenza di azioni dell'interfaccia utente e mantenere un modello mentale di uno stato di scena mutevole. L'approccio deterministico e basato sul codice di OpenSCAD fornisce una base più trasparente e riproducibile per la collaborazione con l'AI.

Implicazioni e contesto di mercato

I risultati del benchmark arrivano in un panorama in rapida evoluzione per gli assistenti di coding AI. Il lancio di Antigravity 2.0 da parte di Google, con il suo focus sull'orchestrazione multi-agente e sui flussi di lavoro personalizzati, segna un passaggio oltre il semplice completamento del codice verso un'automazione più complessa a livello di progetto.

La performance di Gemini 3.5 Flash è particolarmente degna di nota dato il suo contesto. Mentre ha fornito risultati di fascia alta, i prezzi dell'API pubblicati da Google mostrano che è significativamente più costoso del suo predecessore, Gemini 3 Flash. Ciò crea un compromesso tra costo e performance che gli sviluppatori e le piattaforme come ModelRift devono navigare.

Inoltre, il benchmark rivela che l'accesso agli strumenti non è più il principale collo di bottiglia. Tutti gli agenti hanno utilizzato con successo la CLI di OpenSCAD. I fattori differenzianti sono ora il giudizio geometrico, la comprensione architettonica e la capacità di pianificare e iterare in modo efficace.

Conclusione: un nuovo benchmark per l'AI nel CAD

La vittoria di Google Antigravity 2.0 nel benchmark OpenSCAD del Pantheon è più di una semplice vittoria in un test. Dimostra una capacità maturante dell'AI di gestire compiti di coding spazialmente complessi e non banali. L'integrazione di ricerca, design parametrico e attenzione al dettaglio autentico indica un futuro in cui l'AI può agire come un ingegnere junior competente per la geometria costruttiva.

Tuttavia, il benchmark mostra anche chiaramente che i risultati di qualità più alta per il lavoro professionale richiederanno, per il prevedibile futuro, un intervento umano. L'AI eccelle nel generare una prima bozza forte ed eseguire piani dettagliati, ma la supervisione umana rimane cruciale per la raffinazione finale e la validazione, specialmente quando l'output è destinato alla produzione o alla simulazione.

Mentre gli agenti di coding AI diventano più potenti e specializzati, benchmark come questo saranno essenziali per misurare il vero progresso oltre il semplice completamento del codice, valutando la loro capacità di contribuire a flussi di lavoro di ingegneria e design del mondo reale.

Google Antigravity 2.0 Prime nel Benchmark Pratico LLM per Codice CAD

Antigravity 2.0 emerge come leader nella generazione di CAD con AI

Il benchmark del Pantheon: un test di intelligenza spaziale

Risultati del benchmark: Antigravity prende la corona

Dentro l'approccio vincente di Antigravity 2.0

Il vantaggio dell'intervento umano

OpenSCAD: il linguaggio ideale per la geometria generata da AI

Implicazioni e contesto di mercato

Conclusione: un nuovo benchmark per l'AI nel CAD

Related News

Anthropic riscrive l'ingegneria del contesto per Claude 5: meno regole, più giudizio

L'AI open-weight segue la traiettoria di Kubernetes in mezzo alle tensioni geopolitiche

Istituti per la sicurezza dell'IA del Regno Unito e degli Stati Uniti scoprono che Kimi K3 si avvicina alla frontiera nelle capacità informatiche, ma è in ritardo nell'esecuzione degli exploit

I Giganti della Tecnologia Mettono in Guardia contro l'Eccessiva Regolamentazione dei Modelli AI a Peso Aperto

Fondatori di Startup Esortano gli USA a Mantenere Accessibile l'AI Open-Weight Cinese

Le barriere dell'IA ostacolano la legittima ricerca sulla sicurezza informatica, secondo gli esperti