Il modello video 'Omni' di Gemini di Google emerge mentre il modello distillato per la chiamata di strumenti raggiunge GitHub
AI News

Il modello video 'Omni' di Gemini di Google emerge mentre il modello distillato per la chiamata di strumenti raggiunge GitHub

4 min
13/05/2026
Artificial IntelligenceMachine LearningGoogle GeminiOn-Device AI

Gemini amplia il suo arsenale mentre emerge un piccolo modello derivato

L'ecosistema Gemini di Google sta facendo passi da gigante su più fronti. Una nuova funzionalità che si sta implementando a livello globale ora consente agli utenti di generare una varietà di formati di file - inclusi PDF, documenti Word, fogli di calcolo Excel, Google Docs e testo semplice - direttamente dall'interfaccia di chat di Gemini. Questa mossa elimina la necessità di copiare e riformattare manualmente, posizionando Gemini come un concorrente più diretto delle capacità di generazione di documenti di ChatGPT.

Simultaneamente, sono emerse online le prime dimostrazioni di un nuovo modello video "Gemini Omni". Sebbene i dettagli rimangano scarsi, queste demo mostrano il modello che genera scene video basate su prompt testuali, come una scena di due uomini che mangiano spaghetti, con risultati descritti come "abbastanza realistici" e "abbastanza buoni". Ciò suggerisce che Google sta attivamente spingendo i confini dell'AI multimodale oltre le immagini statiche e il testo.

Needle: distillare la potenza di Gemini per l'edge

In uno sviluppo parallelo, il gruppo di ricerca AI Cactus Compute ha rilasciato "Needle", un progetto open-source che distilla le capacità di chiamata degli strumenti di grandi modelli come Gemini in un modello notevolmente piccolo da 26 milioni di parametri. Costruito su un'architettura "Simple Attention Network", Needle è progettato per funzionare su "dispositivi incredibilmente piccoli" come telefoni, orologi e occhiali, abilitando un'AI efficiente on-device.

Il modello è stato pre-addestrato su 200 miliardi di token utilizzando 16 chip TPU v6e in 27 ore, seguito da un post-addestramento su un dataset specializzato di 2 miliardi di token per chiamate di funzione a colpo singolo. Secondo gli sviluppatori, Needle supera modelli più grandi come FunctionGemma-270m, Qwen-0.6B, Granite-350m e LFM2.5-350m nelle attività di chiamata di funzione a colpo singolo, una capacità chiave per gli assistenti AI personali.

Perché è importante: La creazione di Needle rappresenta un significativo passo avanti verso il rendere accessibili potenti funzionalità AI, come la chiamata affidabile di strumenti e API, su dispositivi con risorse limitate senza una costante dipendenza dal cloud. Ciò apre la porta a applicazioni AI più private, reattive e convenienti.

Architettura tecnica e prestazioni

L'architettura di Needle è un design encoder-decoder snello. Presenta un encoder a 12 strati (che utilizza l'attenzione raggruppata per query e le embeddings posizionali rotanti ma non le reti feed-forward) e un decoder a 8 strati. Il modello utilizza una dimensione del vocabolario piccola (BPE=8192) e condivide le embeddings tra l'encoder e il decoder, contribuendo alle sue dimensioni compatte.

Il progetto fornisce una suite completa di strumenti per gli sviluppatori, tra cui:

  • Un playground dell'interfaccia utente web per testare e ottimizzare su strumenti personalizzati.
  • Un'API Python per una facile integrazione.
  • Comandi CLI per l'addestramento, l'ottimizzazione, la valutazione e la generazione di dati.
  • Supporto per l'ottimizzazione locale su hardware Mac/PC standard.

In ambienti di produzione che utilizzano l'infrastruttura di Cactus Compute, Needle raggiunge velocità di 6000 token/secondo per il prefill e 1200 token/secondo per la decodifica.

continua a leggere sotto...

Uno sguardo ai test interni di Google

Aggiungendosi alle notizie della settimana su Gemini, è stato scoperto un selettore di modelli nascosto all'interno dell'app Google (v17.18.22), che rivela sette opzioni di modelli AI precedentemente non segnalate per le conversazioni vocali con Gemini Live. Ciò sembra essere uno strumento di test interno attivato in anticipo rispetto a Google I/O 2026.

I test hanno mostrato che questi modelli producono risposte misurabilmente diverse. I risultati chiave includono:

  • Quattro modelli potevano accedere alla posizione dell'utente per i dati meteorologici in tempo reale; tre non potevano.
  • Un modello, con nome in codice "Capybara", si identificava come "Gemini 3.1 Pro" anziché il consueto "Gemini 3.1 Flash Live".
  • Due modelli hanno rilevato un'affermazione deliberatamente falsa fatta durante il test, mentre altri l'hanno accettata, indicando diversi livelli di verifica dei fatti.
  • Tre modelli hanno promesso di ricordare le informazioni personali, mentre altri si sono rifiutati.

Ciò rivela che Google sta attivamente sperimentando con una suite di modelli specializzati per la voce interattiva, probabilmente perfezionandoli per una futura release pubblica.

La potenza sottovalutata di Gemini Canvas

Oltre a questi sviluppi principali, Gemini Canvas di Google sta guadagnando riconoscimento come uno strumento potente e sottoutilizzato. Funziona come uno spazio di lavoro persistente dove gli utenti possono sviluppare idee, pianificare progetti e persino costruire strumenti semplici senza dover costantemente passare da un'app all'altra.

Gli utenti segnalano di utilizzare Canvas per pianificare viaggi, organizzare ricerche, suddividere compiti e creare strumenti leggeri come tracker di budget. La sua forza sta nel mantenere il contesto e nel consentire un naturale perfezionamento delle idee e delle strutture nel tempo, posizionandolo come uno spazio di lavoro flessibile potenziato dall'AI piuttosto che solo un'interfaccia di chat.

La strada avanti per un'AI compatta e capace

L'emergere di Needle evidenzia una tendenza crescente nell'AI: la distillazione delle capacità dei grandi modelli basati su cloud in modelli efficienti e specializzati che possono funzionare on-device. Ciò affronta preoccupazioni critiche relative alla latenza, al costo, alla privacy e alla funzionalità offline.

Nel frattempo, la continua espansione delle funzionalità di Gemini da parte di Google - dalla creazione di file e generazione di video a una potenziale suite di modelli vocali - mostra un'azienda che sta iterando aggressivamente per catturare la quota di mercato e definire il futuro della produttività assistita dall'AI. La confluenza di questi sviluppi indica un futuro in cui l'AI potente sarà sia ampiamente accessibile nel cloud che efficientemente specializzata all'edge.