Due giganti cinesi si sfidano sulla frontiera del codice
Due modelli open-weight cinesi, licenza MIT, numeri da record. GLM-5.1 lavora in autonomia per 8 ore e batte GPT-5.4 su SWE-Bench Pro. DeepSeek V4 Pro raggiunge 93.5 su LiveCodeBench e costa 1/21 di Claude. Il panorama competitivo è cambiato.
Dove andiamo
Ad aprile 2026 due modelli cinesi open-weight sono atterrati a poche settimane di distanza l’uno dall’altro, entrambi sotto licenza MIT, entrambi con risultati che ribaltano l’idea che i lab occidentali siano imbattibili. Vediamo cosa sanno fare, come sono fatti dentro, e quando conviene scegliere l’uno o l’altro.
GLM-5.1: l’agente che lavora 8 ore senza di te
Z.AI ha rilasciato GLM-5.1 il 7 aprile 2026. È un Mixture-of-Experts da 754 miliardi di parametri costruito su un’architettura Dynamic Sparse Attention (DSA). Il numero che ha fatto parlare: 58.4 su SWE-Bench Pro, nuovo record che supera GPT-5.4 (57.7) e Claude Opus 4.6 (57.3).
Ma la vera storia non è un singolo benchmark. GLM-5.1 è stato progettato per l’esecuzione autonoma di lunga durata: il modello può lavorare ininterrottamente su un singolo task fino a 8 ore, eseguendo cicli di sperimentazione, analisi e ottimizzazione per centinaia di round e migliaia di chiamate agli strumenti, senza intervento umano.
Nelle dimostrazioni concrete ha:
- costruito da zero un desktop environment Linux completo
- ottimizzato un kernel CUDA da 2.6× a 35.7× di speedup attraverso 178 iterazioni autonome
- migliorato del 50% le performance di un vector database
DeepSeek V4 Pro: efficienza bruta
DeepSeek V4 è arrivato il 24 aprile 2026 in due varianti: V4-Pro (1.6T di parametri totali, 49B attivi per token) e V4-Flash (284B totali, 13B attivi). Entrambi condividono una finestra di contesto da 1 milione di token con 384K di output massimo, entrambi sotto licenza MIT.
L’architettura introduce tre innovazioni rispetto a V3.2:
- Compressed Sparse Attention (CSA) alternata con Heavily Compressed Attention (HCA) per comprimere il contesto lungo
- Manifold-Constrained Hyper-Connections (mHC) per la stabilità dell’addestramento in layer profondi
- l’ottimizzatore Muon che sostituisce AdamW
Il risultato: a contesto da 1M di token, V4-Pro usa solo il 27% dei FLOPs di inferenza e il 10% della KV cache rispetto a V3.2, pur essendo 2.4× più grande nel complesso.
Sul coding, i numeri parlano chiaro. V4-Pro-Max (con ragionamento esteso) segna 93.5 su LiveCodeBench, il punteggio più alto di qualsiasi modello esistente. Raggiunge l'80.6% su SWE-Bench Verified e un rating Codeforces di 3206.
Confronto diretto
| Dimensione | GLM-5.1 | DeepSeek V4 Pro |
|---|---|---|
| Parametri totali | 754B | 1.6T |
| Attivi per token | MoE (non diffuso) | 49B |
| Finestra di contesto | 200K | 1M |
| Output massimo | 128K | 384K |
| Licenza | MIT | MIT |
| SWE-Bench (Pro/Verified) | 58.4 (Pro, SOTA) | 80.6% (Verified) |
| LiveCodeBench | N/A | 93.5 (SOTA) |
| GPQA Diamond | 86.2 | 90.1 |
| Terminal-Bench 2.0 | 63.5 | N/A |
| Esecuzione long-horizon | 8 ore | Standard |
| Prezzo API input | ~$1.4/M | $1.74/M |
| Innovazione chiave | RL asincrono, esecuzione prolungata | Attenzione CSA+HCA, ottimizzatore Muon |
Il pricing è aggressivo: V4-Pro a $1.74/M input e $3.48/M output, V4-Flash a soli $0.14/$0.28. Cioè circa 1/21 del costo di Claude Opus 4.6 per performance SWE-Bench quasi identiche.
Quando usare quale
Scegli GLM-5.1 quando:
- ti serve un agente che lavori in autonomia per ore su task di ingegneria complessi
- il tuo workflow prevede ottimizzazione iterativa, cicli di debug o esecuzione multi-step prolungata
- vuoi il modello open-weight più forte per software engineering nel mondo reale (SWE-Bench Pro)
- l’integrazione MCP e l’orchestrazione degli strumenti sono centrali nella tua pipeline
Scegli DeepSeek V4 Pro quando:
- ti serve coding di livello frontier a una frazione del prezzo dei modelli occidentali
- i tuoi task coinvolgono contesti molto lunghi (1M di token) come l’ingestione di intere codebase
- il problem solving algoritmico o la programmazione competitiva sono il caso d’uso principale
- ti serve la doppia modalità Think/Non-Think per workflow a latenza mista
Scegli DeepSeek V4 Flash quando:
- il costo è il vincolo primario e il ragionamento al livello V4-Pro non è strettamente necessario
- stai eseguendo workload di produzione ad alto volume (classificazione, riassunto, generazione semplice)
- la latenza conta più dell’accuratezza di picco
Casi d’uso concreti
CTO di startup - Il CTO di una fintech da 20 persone lancia GLM-5.1 su un monolite Rails da 180K righe ogni venerdì sera. Entro lunedì mattina, il modello ha completato sessioni di refactoring autonome da 8 ore: estrae service object, migra API deprecate e aggiorna la suite di test su centinaia di file. Quello che richiedeva due settimane a un senior engineer ora viene consegnato in un weekend, con PR che passano la CI al primo tentativo nel 73% dei casi.
Responsabile piattaforma dati - Un team di data engineering carica su DeepSeek V4 Pro l’intera codebase microservizi, le specifiche API e i config Terraform: 400K token in un singolo prompt. Il modello identifica 23 dipendenze circolari, mappa un piano di migrazione completo verso un service mesh più pulito e genera un rollout per fasi. Con un modello a 200K di contesto, la stessa analisi avrebbe richiesto decine di prompt separati e un lavoro manuale di cucito.
Ingegnere DevOps - Durante un outage in produzione alle 3 di notte, un DevOps punta GLM-5.1 sui log Kubernetes, le metriche Prometheus e il codice dei servizi coinvolti. Il modello traccia in autonomia il failure a cascata partendo da un HPA mal configurato, attraversa tre servizi, individua la causa radice (un resource limit mai aggiornato dopo l’ultimo deploy), scrive il fix e prepara il comando di rollback, tutto senza che l’operatore debba guidarlo passo passo.
Ricercatore quantitativo - Un quant di una trading firm usa DeepSeek V4 Pro in modalità Think per verificare un nuovo algoritmo di pairs trading. Il modello percorre l’intera derivazione matematica, trova un errore sottile nell’assunzione di mean-reversion che avrebbe generato perdite in regimi di bassa volatilità, e propone una formulazione corretta. Nello stesso giorno, in modalità Non-Think, lo stesso modello genera segnali in tempo reale durante le ore di mercato con latenza sotto il secondo.
Sviluppatore indie - Un’app developer indipendente instrada tutto il code completion, la generazione di commit message e lo scaffolding dei test su V4-Flash a $0.14/M di input. Il conto mensile supera a malapena gli $8, mentre V4-Pro entra in gioco solo per il bug complesso occasionale che richiede ragionamento esteso. Il setup a doppia modalità sostituisce un abbonamento da $200/mese per un assistant di coding a una frazione del costo.
Analista di sicurezza - Il team di cybersecurity di una banca distribuisce GLM-5.1 sui repository interni, sfruttando il rilevamento vulnerabilità affinato su CyberGym (punteggio 68.7, in salita da 48.3 di GLM-5). Il modello scansiona i commit nella CI/CD, segnala un pattern di SQL injection che gli analyzer statici si erano persi perché spalmato su due layer ORM, e genera il codice patchato. Il team stima di catturare il 40% di true positive in più rispetto al toolchain SAST precedente.
Programmatore competitivo - Un team di ricerca universitario usa DeepSeek V4 Pro per affrontare problemi dai contest Div.1 di Codeforces. Con il rating Elo 3206 su Codeforces e 93.5 su LiveCodeBench, il modello produce regolarmente soluzioni ottimali o quasi ottimali per problemi di teoria dei grafi e programmazione dinamica.
Architetto di piattaforma - Un team enterprise implementa una pipeline di review a due velocità: i bug report in arrivo passano prima da V4-Pro in modalità Non-Think per triage rapido, classificazione e deduplica (sotto i 2 secondi per ticket). Quelli flaggati come complessi o security-relevant escalano automaticamente in modalità Think per l’analisi profonda della causa radice. Un unico modello che gestisce sia velocità sia profondità, eliminando configurazioni agent separate per fast e slow path.
Per i tecnici
Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.
GLM-5.1 - Benchmark completi
| Benchmark | Punteggio GLM-5.1 |
|---|---|
| SWE-Bench Pro | 58.4 (SOTA) |
| AIME 2026 | 95.3 |
| GPQA Diamond | 86.2 |
| Terminal-Bench 2.0 | 63.5 (66.5 con Claude Code) |
| CyberGym | 68.7 (da 48.3 in GLM-5) |
| BrowseComp | 68.0 |
| MCP-Atlas | 71.8 |
GLM-5.1 offre una finestra di contesto da 200K token con 128K di output massimo, modalità thinking con diverse profondità di ragionamento, function calling, output strutturato e integrazione MCP nativa. Disponibile sotto licenza MIT su HuggingFace, supportato da SGLang, vLLM, Transformers e KTransformers per il deploy locale. Prezzo API: ~$1.4/M per l’input e $4.4/M per l’output.
DeepSeek V4 Pro - Benchmark completi
| Benchmark | DeepSeek V4-Pro Max |
|---|---|
| SWE-Bench Verified | 80.6% |
| LiveCodeBench | 93.5 (SOTA) |
| GPQA Diamond | 90.1 |
| MMLU-Pro | 87.5 |
| Codeforces Rating | 3206 (SOTA) |
| HMMT 2026 | 95.2 |
| BrowseComp | 83.4 |
Architettura DeepSeek V4
Le tre innovazioni architetturali rispetto a V3.2:
- CSA + HCA: attenzione compressa sparsa alternata a attenzione pesantemente compressa, per gestire contesti da 1M di token senza esplodere in memoria
- Manifold-Constrained Hyper-Connections (mHC): stabilizzano l’addestramento in layer profondi, risolvendo il degradation che affligge i transformer molto profondi
- Ottimizzatore Muon: sostituisce AdamW, con convergenza più rapida e minore uso di memoria durante il training
Il punto
Punti chiave:
- GLM-5.1 è il primo modello che lavora davvero in autonomia per 8 ore: non è più demo, è produzione
- DeepSeek V4 Pro porta il coding frontier a 1/21 del costo di Claude, con contesto da 1M di token
- Entrambi sotto licenza MIT: i modelli open-weight cinesi non rincorrono più, fissano il passo in domini specifici
- SWE-Bench Pro e Verified non sono comparabili direttamente: i numeri vanno letti con attenzione
Il panorama competitivo non è più “OpenAI vs. Anthropic vs. Google.” È una gara a cinque, e due concorrenti hanno appena dimostrato di poter vincere in casa propria.