Cosa ha significato per il mondo l'uscita di Gemma 4

Gemma 4 è il modello open-weight più forte mai rilasciato, gira su hardware consumer, ma la versione che scarichi non è quella che ha prodotto i benchmark ufficiali.

Fonte: Google DeepMind, Hugging Face, llama.cpp

Perché ti dovrebbe interessare

Se hai mai provato a far girare un modello AI decente sul tuo computer e ti sei arreso, Gemma 4 merita attenzione. Non è un aggiornamento incrementale: cambia le regole per chi vuole AI locale. Ma c’è una zona grigia tra i numeri dei benchmark e quello che trovi scaricando i pesi. Vediamo cosa sa fare, come ci è arrivato, e dove sta la fregatura.

Un salto generazionale

Il 2 aprile 2026 Google DeepMind ha rilasciato Gemma 4, la quarta generazione della sua famiglia open-weight. Il modello 31B Dense ha raggiunto la terza posizione nella leaderboard Arena AI tra i modelli open. Un risultato che pochi avrebbero scommesso per un modello di quella dimensione.

Ma sono i confronti diretti con Gemma 3 a raccontare la storia vera:

Benchmark	Gemma 3 27B	Gemma 4 31B	Delta
AIME 2026 (matematica)	20.8%	89.2%	+330%
LiveCodeBench v6 (codice)	29.1%	80.0%	+175%
Codeforces ELO	110	2.150	+1.854%
τ2-bench Retail (agenti)	6.6%	86.4%	+1.200%

Su GPQA Diamond, il benchmark che testa conoscenza a livello esperto in fisica, chimica e biologia, Gemma 4 31B raggiunge l'84.3%, superando persino GPT-OSS 120B che si ferma al 76.2%. Non è un modello più grande che batte uno più piccolo: è un modello da 31 miliardi di parametri che supera modelli quattro volte più grandi. Su MMMLU, il benchmark multilingue, raggiunge l'85.2%.

Non sono margini di errore. Sono salti di ordini di grandezza. Qualcosa, nell’architettura e nell’addestramento, ha funzionato in modo fondamentalmente diverso.

Tre decisioni che cambiano tutto

La differenza tra Gemma 3 e Gemma 4 non è solo “più parametri, più dati”. Ci sono tre scelte progettuali che meritano attenzione.

Hybrid Attention. L’attenzione standard nei transformer è quadratica: raddoppi il contesto e la memoria quadruplica. Gemma 4 adotta un’architettura ibrida: una finestra locale di 512 token a complessità lineare, alternata a layer globali sparsi per le dipendenze a lungo raggio. Il risultato è un contesto di 256.000 token che gira su hardware consumer, non su cluster HPC. Per chi sviluppa agenti AI locali, questo significa poter caricare intere codebase o documentazione tecnica senza esaurire la memoria.

Multimodale nativa. La maggior parte dei modelli “multimodali” open-weight incolla un encoder visivo sopra un modello testuale: funziona, ma è fragile. Gemma 4 integra SigLIP end-to-end fin dall’addestramento. I modelli E2B e E4B supportano testo, immagini e audio. I modelli 26B e 31B supportano testo, immagini e video. Un agente AI che deve analizzare uno screenshot, leggere un PDF e comprendere un clip audio può farlo con un unico modello, senza orchestrare tre sistemi separati.

MoE nel 26B. Il modello 26B usa un’architettura Mixture of Experts con 16 esperti, di cui solo 2 attivati per token: 3.8 miliardi di parametri attivi su 26 miliardi totali. Il risultato è circa il 97% della performance del 31B Dense al 12% del costo computazionale. Su Apple Silicon con mmap, il 26B MoE richiede solo 6 GB di RAM e produce 49 token al secondo. Su un Mac Mini M4 base.

Sul tuo computer, non sul cloud

Il modello 31B Dense gira intero, senza quantizzazione, su una singola NVIDIA H100 da 80 GB. Le versioni quantizzate Q4 e Q8 girano su GPU consumer con 24 GB di VRAM, come una RTX 4090 o una RTX 5070. Il modello E2B gira su dispositivi embedded e IoT. E il 26B MoE, come abbiamo visto, è alla portata di qualsiasi Mac con chip Apple Silicon.

NVIDIA ha collaborato direttamente con Google per ottimizzare Gemma 4 su RTX, DGX Spark e Jetson Orin Nano. Il messaggio è chiaro: l’AI locale non è più una nicchia per hobbisti, è un mercato strategico.

Gemma 4 è anche compatibile con framework per agenti AI locali come OpenClaw, permettendo di costruire agenti autonomi che accedono a file, workflow e strumenti sul proprio computer. L’idea che un modello open-weight possa essere il cervello di un agente AI personale, completamente locale e privato, non è più teoria: è qualcosa che si può fare oggi.

Prova tu - Requisiti minimi: 24 GB VRAM per il 31B Dense, 6 GB RAM per il 26B MoE su Apple Silicon - Comando: ollama run gemma4:31b - Su Mac Mini M4 con 24 GB: ~15 token/s, 256K contesto

Open-weight, non open-source

Qui la narrazione si complica. Gemma 4 è distribuito sotto licenza Apache 2.0, commerciale, senza restrizioni. I pesi sono scaricabili. Ma “pesi aperti” non è “codice aperto”, e la distinzione importa.

I dati di addestramento non sono pubblici. Non sappiamo esattamente quali dataset sono stati usati, quali filtri applicati, quali bias incorporati e quali rimossi. Senza questa informazione, la riproducibilità completa è impossibile.

Poi c’è la questione della thinking mode. Tutti i modelli Gemma 4 hanno una modalità di ragionamento strutturato che può generare oltre 4.000 token di pensiero prima di rispondere. È la modalità che ha prodotto i punteggi eccezionali nei benchmark. Ma la versione “pensante” completa usata per i benchmark è stata rimossa e distillata prima del rilascio pubblico. I pesi che la community ha ricevuto non includono questa capacità.

È legittimo? Forse. I modelli di ragionamento profondi sono costosi da mantenere. Ma presentare punteggi ottenuti con una versione del modello che non è quella distribuita crea un divario tra marketing e realtà. Un utente che scarica Gemma 4 e si aspetta di replicare i benchmark ufficiali resterà deluso.

E poi c’è il tooling. Entro 72 ore dal rilascio, si sono accumulati 47 crash report in llama.cpp. Il supporto iniziale per Gemma 4 era assente nei framework più diffusi: llama.cpp, vLLM, SGLang. L’architettura ibrida, la MoE, la multimodalità nativa richiedevano aggiornamenti significativi. Il modello 26B MoE ha mostrato un comportamento inatteso: “pensava” anche senza il token di attivazione, generando ragionamento nascosto che consumava token e confondeva le applicazioni.

Questi problemi non sono marginali. Dimostrano che l’ecosistema open intorno ai modelli AI è ancora fragile rispetto alle alternative proprietarie, dove il tooling è integrato e testato.

Il mercato del 2026

Gemma 4 arriva in un mercato affollato. Qwen 3.5 con le sue 201 lingue, Kimi K2.5 con il contesto da 256K e gli agent swarm, GLM-5 con il record anti-allucinazione, MiniMax M2.5 con il miglior rapporto qualità-prezzo, GPT-OSS, Nemotron 3, OLMo 3: la scelta non manca.

La vera competizione non è solo sui punteggi dei benchmark. È sull’ecosistema: tooling, fine-tuning, integrazione, community. E qui Google gioca una partita sottile. Rendere i pesi di Gemma 4 accessibili non è filantropia. È una strategia di funnel verso Gemini, il modello proprietario top di gamma. Gemma 4 è costruito sulla ricerca di Gemini 3: l’open-weight è il prodotto secondario di un investimento molto più grande, e il suo scopo è costruire una community che poi rende più difficile per gli sviluppatori abbandonare l’orbita Google.

Meta fa lo stesso con Llama. L’open-weight come strategia commerciale non è una novità, ma è la prima volta che la competizione su questo fronte è così intensa. Il vincitore non sarà chi ha il modello migliore, ma chi costruirà l’ecosistema più robusto intorno al proprio modello.

La Gemmaverse: 400 milioni di download

I numeri della community sono impressionanti: oltre 400 milioni di download per i modelli Gemma di tutte le generazioni e più di 100.000 varianti fine-tuned. Hugging Face, Google AI Studio e Kaggle come canali di distribuzione. È un ecosistema maturo, con sviluppatori che personalizzano i modelli per casi d’uso specifici: medicina, finanza, istruzione, cybersecurity.

Ma la scala della Gemmaverse solleva anche una domanda: se così tanti sviluppatori dipendono da un modello il cui tooling è ancora fragile e la cui versione “completa” non è quella distribuita, quanto è resiliente davvero questo ecosistema?

Per chi vuole approfondire

Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.

Architettura ibrida: dettagli

L’attenzione ibrida di Gemma 4 combina:

Attenzione locale su finestra di 512 token, complessità O(n)
Attenzione globale sparsa su layer selezionati per dipendenze a lungo raggio
Attivazione selettiva degli esperti nel modello 26B MoE: solo 2 su 16 esperti attivi per token, con routing learned

Il modello 31B Dense usa invece attenzione globale su tutti i layer, sacrificando efficienza per qualità massima.

Mixture of Experts: parametri

Parametro	26B MoE	31B Dense
Parametri totali	26B	31B
Parametri attivi per token	3.8B	31B
Esperti	16 (2 attivi)	N/A
RAM richiesta (Apple Silicon, mmap)	6 GB	16 GB
Velocità (Mac Mini M4)	~49 token/s	~15 token/s
Contesto massimo	256K token	256K token
Multimodalità	Testo + immagini	Testo + immagini + video

Multimodalità: integrazione SigLIP

Gemma 4 integra SigLIP (Sigmoid Loss for Language-Image Pre-training) end-to-end nell’addestramento, non come modulo aggiunto. Questo significa che il modello apprende rappresentazioni visivo-linguistiche congiunte fin dal pre-training, non solo in una fase di allineamento successiva.

E2B / E4B: testo, immagini, audio
26B / 31B: testo, immagini, video

Thinking mode: la distillazione

La modalità di ragionamento esteso di Gemma 4:

Attivabile tramite token speciale <think> o parametri API
Può generare oltre 4.000 token di pensiero prima della risposta
La versione completa usata per i benchmark è stata distillata nel modello pubblico
Il modello 26B MoE presenta un comportamento inatteso: genera ragionamento nascosto anche senza attivazione esplicita del token

Problemi di tooling post-rilascio

Entro 72 ore dal rilascio:

47 crash report in llama.cpp
Supporto iniziale assente in llama.cpp, vLLM, SGLang
Il modello 26B MoE generava ragionamento nascosto senza attivazione
Aggiornamenti necessari per: architettura ibrida, routing MoE, multimodalità nativa

Il punto

Punti chiave:

Gemma 4 gira su hardware consumer e compete con modelli 4x più grandi
La versione distribuita non è quella che ha prodotto i benchmark ufficiali: la thinking mode è stata distillata
L’ecosistema open-weight è ancora fragile: 47 crash in 3 giorni dal rilascio
L’open-weight è una strategia commerciale, non filantropia: il funnel punta verso Gemini

L’AI locale è diventata reale. Ma la promessa dell’open source nel mondo dei modelli AI rimane parziale. I pesi sono aperti, il tooling no. I benchmark sono impressionanti, ma ottenuti con una versione che non è quella che scarichi. L’hardware è accessibile, ma l’ecosistema intorno deve ancora maturare.