Due giganti cinesi si sfidano sulla frontiera del codice

Due modelli open-weight cinesi, licenza MIT, numeri da record. GLM-5.1 lavora in autonomia per 8 ore e batte GPT-5.4 su SWE-Bench Pro. DeepSeek V4 Pro raggiunge 93.5 su LiveCodeBench e costa 1/21 di Claude. Il panorama competitivo è cambiato.

Fonte: Z.AI, DeepSeek, MarkTechPost, Morph, CodersEra

Dove andiamo

Ad aprile 2026 due modelli cinesi open-weight sono atterrati a poche settimane di distanza l’uno dall’altro, entrambi sotto licenza MIT, entrambi con risultati che ribaltano l’idea che i lab occidentali siano imbattibili. Vediamo cosa sanno fare, come sono fatti dentro, e quando conviene scegliere l’uno o l’altro.

GLM-5.1: l’agente che lavora 8 ore senza di te

Z.AI ha rilasciato GLM-5.1 il 7 aprile 2026. È un Mixture-of-Experts da 754 miliardi di parametri costruito su un’architettura Dynamic Sparse Attention (DSA). Il numero che ha fatto parlare: 58.4 su SWE-Bench Pro, nuovo record che supera GPT-5.4 (57.7) e Claude Opus 4.6 (57.3).

Ma la vera storia non è un singolo benchmark. GLM-5.1 è stato progettato per l’esecuzione autonoma di lunga durata: il modello può lavorare ininterrottamente su un singolo task fino a 8 ore, eseguendo cicli di sperimentazione, analisi e ottimizzazione per centinaia di round e migliaia di chiamate agli strumenti, senza intervento umano.

Nelle dimostrazioni concrete ha:

costruito da zero un desktop environment Linux completo
ottimizzato un kernel CUDA da 2.6× a 35.7× di speedup attraverso 178 iterazioni autonome
migliorato del 50% le performance di un vector database

La capacità di esecuzione prolungata per 8 ore risolve un problema noto negli agenti LLM: il "plateau problem", dove i modelli esauriscono presto il loro repertorio e smettono di fare progressi indipendentemente dal tempo di compute aggiuntivo. L'addestramento con reinforcement learning asincrono di GLM-5.1, che disaccoppia generazione e training, sembra essere il fattore architetturale chiave qui.

DeepSeek V4 Pro: efficienza bruta

DeepSeek V4 è arrivato il 24 aprile 2026 in due varianti: V4-Pro (1.6T di parametri totali, 49B attivi per token) e V4-Flash (284B totali, 13B attivi). Entrambi condividono una finestra di contesto da 1 milione di token con 384K di output massimo, entrambi sotto licenza MIT.

L’architettura introduce tre innovazioni rispetto a V3.2:

Compressed Sparse Attention (CSA) alternata con Heavily Compressed Attention (HCA) per comprimere il contesto lungo
Manifold-Constrained Hyper-Connections (mHC) per la stabilità dell’addestramento in layer profondi
l’ottimizzatore Muon che sostituisce AdamW

Il risultato: a contesto da 1M di token, V4-Pro usa solo il 27% dei FLOPs di inferenza e il 10% della KV cache rispetto a V3.2, pur essendo 2.4× più grande nel complesso.

Sul coding, i numeri parlano chiaro. V4-Pro-Max (con ragionamento esteso) segna 93.5 su LiveCodeBench, il punteggio più alto di qualsiasi modello esistente. Raggiunge l'80.6% su SWE-Bench Verified e un rating Codeforces di 3206.

La doppia modalità Think/Non-Think è più di un semplice comfort. Nei workflow agentic di produzione, la possibilità di alternare una risposta rapida da 2 secondi e una risposta ragionata da 10 secondi a livello API, senza prompt engineering, semplifica drasticamente l'orchestrazione. I tassi di violazione dello schema per il function calling sarebbero calati dal 4.2% a meno dello 0.8% rispetto a V3.2, rendendolo utilizzabile per agenti autonomi senza supervisione.

Confronto diretto

Dimensione	GLM-5.1	DeepSeek V4 Pro
Parametri totali	754B	1.6T
Attivi per token	MoE (non diffuso)	49B
Finestra di contesto	200K	1M
Output massimo	128K	384K
Licenza	MIT	MIT
SWE-Bench (Pro/Verified)	58.4 (Pro, SOTA)	80.6% (Verified)
LiveCodeBench	N/A	93.5 (SOTA)
GPQA Diamond	86.2	90.1
Terminal-Bench 2.0	63.5	N/A
Esecuzione long-horizon	8 ore	Standard
Prezzo API input	~$1.4/M	$1.74/M
Innovazione chiave	RL asincrono, esecuzione prolungata	Attenzione CSA+HCA, ottimizzatore Muon

Nota critica sul confronto SWE-Bench: GLM-5.1 riporta su SWE-Bench *Pro* mentre DeepSeek V4 riporta su SWE-Bench *Verified*. Sono varianti diverse del benchmark con livelli di difficoltà differenti, quindi i numeri non sono direttamente comparabili. SWE-Bench Verified tende a produrre punteggi più alti rispetto a SWE-Bench Pro.

Il pricing è aggressivo: V4-Pro a $1.74/M input e $3.48/M output, V4-Flash a soli $0.14/$0.28. Cioè circa 1/21 del costo di Claude Opus 4.6 per performance SWE-Bench quasi identiche.

Quando usare quale

Scegli GLM-5.1 quando:

ti serve un agente che lavori in autonomia per ore su task di ingegneria complessi
il tuo workflow prevede ottimizzazione iterativa, cicli di debug o esecuzione multi-step prolungata
vuoi il modello open-weight più forte per software engineering nel mondo reale (SWE-Bench Pro)
l’integrazione MCP e l’orchestrazione degli strumenti sono centrali nella tua pipeline

Scegli DeepSeek V4 Pro quando:

ti serve coding di livello frontier a una frazione del prezzo dei modelli occidentali
i tuoi task coinvolgono contesti molto lunghi (1M di token) come l’ingestione di intere codebase
il problem solving algoritmico o la programmazione competitiva sono il caso d’uso principale
ti serve la doppia modalità Think/Non-Think per workflow a latenza mista

Scegli DeepSeek V4 Flash quando:

il costo è il vincolo primario e il ragionamento al livello V4-Pro non è strettamente necessario
stai eseguendo workload di produzione ad alto volume (classificazione, riassunto, generazione semplice)
la latenza conta più dell’accuratezza di picco

Casi d’uso concreti

CTO di startup - Il CTO di una fintech da 20 persone lancia GLM-5.1 su un monolite Rails da 180K righe ogni venerdì sera. Entro lunedì mattina, il modello ha completato sessioni di refactoring autonome da 8 ore: estrae service object, migra API deprecate e aggiorna la suite di test su centinaia di file. Quello che richiedeva due settimane a un senior engineer ora viene consegnato in un weekend, con PR che passano la CI al primo tentativo nel 73% dei casi.

Responsabile piattaforma dati - Un team di data engineering carica su DeepSeek V4 Pro l’intera codebase microservizi, le specifiche API e i config Terraform: 400K token in un singolo prompt. Il modello identifica 23 dipendenze circolari, mappa un piano di migrazione completo verso un service mesh più pulito e genera un rollout per fasi. Con un modello a 200K di contesto, la stessa analisi avrebbe richiesto decine di prompt separati e un lavoro manuale di cucito.

Ingegnere DevOps - Durante un outage in produzione alle 3 di notte, un DevOps punta GLM-5.1 sui log Kubernetes, le metriche Prometheus e il codice dei servizi coinvolti. Il modello traccia in autonomia il failure a cascata partendo da un HPA mal configurato, attraversa tre servizi, individua la causa radice (un resource limit mai aggiornato dopo l’ultimo deploy), scrive il fix e prepara il comando di rollback, tutto senza che l’operatore debba guidarlo passo passo.

Ricercatore quantitativo - Un quant di una trading firm usa DeepSeek V4 Pro in modalità Think per verificare un nuovo algoritmo di pairs trading. Il modello percorre l’intera derivazione matematica, trova un errore sottile nell’assunzione di mean-reversion che avrebbe generato perdite in regimi di bassa volatilità, e propone una formulazione corretta. Nello stesso giorno, in modalità Non-Think, lo stesso modello genera segnali in tempo reale durante le ore di mercato con latenza sotto il secondo.

Sviluppatore indie - Un’app developer indipendente instrada tutto il code completion, la generazione di commit message e lo scaffolding dei test su V4-Flash a $0.14/M di input. Il conto mensile supera a malapena gli $8, mentre V4-Pro entra in gioco solo per il bug complesso occasionale che richiede ragionamento esteso. Il setup a doppia modalità sostituisce un abbonamento da $200/mese per un assistant di coding a una frazione del costo.

Analista di sicurezza - Il team di cybersecurity di una banca distribuisce GLM-5.1 sui repository interni, sfruttando il rilevamento vulnerabilità affinato su CyberGym (punteggio 68.7, in salita da 48.3 di GLM-5). Il modello scansiona i commit nella CI/CD, segnala un pattern di SQL injection che gli analyzer statici si erano persi perché spalmato su due layer ORM, e genera il codice patchato. Il team stima di catturare il 40% di true positive in più rispetto al toolchain SAST precedente.

Programmatore competitivo - Un team di ricerca universitario usa DeepSeek V4 Pro per affrontare problemi dai contest Div.1 di Codeforces. Con il rating Elo 3206 su Codeforces e 93.5 su LiveCodeBench, il modello produce regolarmente soluzioni ottimali o quasi ottimali per problemi di teoria dei grafi e programmazione dinamica.

Architetto di piattaforma - Un team enterprise implementa una pipeline di review a due velocità: i bug report in arrivo passano prima da V4-Pro in modalità Non-Think per triage rapido, classificazione e deduplica (sotto i 2 secondi per ticket). Quelli flaggati come complessi o security-relevant escalano automaticamente in modalità Think per l’analisi profonda della causa radice. Un unico modello che gestisce sia velocità sia profondità, eliminando configurazioni agent separate per fast e slow path.

Per i tecnici

Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.

GLM-5.1 - Benchmark completi

Benchmark	Punteggio GLM-5.1
SWE-Bench Pro	58.4 (SOTA)
AIME 2026	95.3
GPQA Diamond	86.2
Terminal-Bench 2.0	63.5 (66.5 con Claude Code)
CyberGym	68.7 (da 48.3 in GLM-5)
BrowseComp	68.0
MCP-Atlas	71.8

GLM-5.1 offre una finestra di contesto da 200K token con 128K di output massimo, modalità thinking con diverse profondità di ragionamento, function calling, output strutturato e integrazione MCP nativa. Disponibile sotto licenza MIT su HuggingFace, supportato da SGLang, vLLM, Transformers e KTransformers per il deploy locale. Prezzo API: ~$1.4/M per l’input e $4.4/M per l’output.

DeepSeek V4 Pro - Benchmark completi

Benchmark	DeepSeek V4-Pro Max
SWE-Bench Verified	80.6%
LiveCodeBench	93.5 (SOTA)
GPQA Diamond	90.1
MMLU-Pro	87.5
Codeforces Rating	3206 (SOTA)
HMMT 2026	95.2
BrowseComp	83.4

Architettura DeepSeek V4

Le tre innovazioni architetturali rispetto a V3.2:

CSA + HCA: attenzione compressa sparsa alternata a attenzione pesantemente compressa, per gestire contesti da 1M di token senza esplodere in memoria
Manifold-Constrained Hyper-Connections (mHC): stabilizzano l’addestramento in layer profondi, risolvendo il degradation che affligge i transformer molto profondi
Ottimizzatore Muon: sostituisce AdamW, con convergenza più rapida e minore uso di memoria durante il training

Il punto

Punti chiave:

GLM-5.1 è il primo modello che lavora davvero in autonomia per 8 ore: non è più demo, è produzione
DeepSeek V4 Pro porta il coding frontier a 1/21 del costo di Claude, con contesto da 1M di token
Entrambi sotto licenza MIT: i modelli open-weight cinesi non rincorrono più, fissano il passo in domini specifici
SWE-Bench Pro e Verified non sono comparabili direttamente: i numeri vanno letti con attenzione

Il panorama competitivo non è più “OpenAI vs. Anthropic vs. Google.” È una gara a cinque, e due concorrenti hanno appena dimostrato di poter vincere in casa propria.