SL
Skeptik Log
skeptik-log

Due giganti cinesi si sfidano sulla frontiera del codice

Autore: Skeptik Log

Due modelli open-weight cinesi, licenza MIT, numeri da record. GLM-5.1 lavora in autonomia per 8 ore e batte GPT-5.4 su SWE-Bench Pro. DeepSeek V4 Pro raggiunge 93.5 su LiveCodeBench e costa 1/21 di Claude. Il panorama competitivo è cambiato.

Fonte: Z.AI, DeepSeek, MarkTechPost, Morph, CodersEra

Dove andiamo

Ad aprile 2026 due modelli cinesi open-weight sono atterrati a poche settimane di distanza l’uno dall’altro, entrambi sotto licenza MIT, entrambi con risultati che ribaltano l’idea che i lab occidentali siano imbattibili. Vediamo cosa sanno fare, come sono fatti dentro, e quando conviene scegliere l’uno o l’altro.

GLM-5.1: l’agente che lavora 8 ore senza di te

Z.AI ha rilasciato GLM-5.1 il 7 aprile 2026. È un Mixture-of-Experts da 754 miliardi di parametri costruito su un’architettura Dynamic Sparse Attention (DSA). Il numero che ha fatto parlare: 58.4 su SWE-Bench Pro, nuovo record che supera GPT-5.4 (57.7) e Claude Opus 4.6 (57.3).

Ma la vera storia non è un singolo benchmark. GLM-5.1 è stato progettato per l’esecuzione autonoma di lunga durata: il modello può lavorare ininterrottamente su un singolo task fino a 8 ore, eseguendo cicli di sperimentazione, analisi e ottimizzazione per centinaia di round e migliaia di chiamate agli strumenti, senza intervento umano.

Nelle dimostrazioni concrete ha:

  • costruito da zero un desktop environment Linux completo
  • ottimizzato un kernel CUDA da 2.6× a 35.7× di speedup attraverso 178 iterazioni autonome
  • migliorato del 50% le performance di un vector database
La capacità di esecuzione prolungata per 8 ore risolve un problema noto negli agenti LLM: il "plateau problem", dove i modelli esauriscono presto il loro repertorio e smettono di fare progressi indipendentemente dal tempo di compute aggiuntivo. L'addestramento con reinforcement learning asincrono di GLM-5.1, che disaccoppia generazione e training, sembra essere il fattore architetturale chiave qui.

DeepSeek V4 Pro: efficienza bruta

DeepSeek V4 è arrivato il 24 aprile 2026 in due varianti: V4-Pro (1.6T di parametri totali, 49B attivi per token) e V4-Flash (284B totali, 13B attivi). Entrambi condividono una finestra di contesto da 1 milione di token con 384K di output massimo, entrambi sotto licenza MIT.

L’architettura introduce tre innovazioni rispetto a V3.2:

  • Compressed Sparse Attention (CSA) alternata con Heavily Compressed Attention (HCA) per comprimere il contesto lungo
  • Manifold-Constrained Hyper-Connections (mHC) per la stabilità dell’addestramento in layer profondi
  • l’ottimizzatore Muon che sostituisce AdamW

Il risultato: a contesto da 1M di token, V4-Pro usa solo il 27% dei FLOPs di inferenza e il 10% della KV cache rispetto a V3.2, pur essendo 2.4× più grande nel complesso.

Sul coding, i numeri parlano chiaro. V4-Pro-Max (con ragionamento esteso) segna 93.5 su LiveCodeBench, il punteggio più alto di qualsiasi modello esistente. Raggiunge l'80.6% su SWE-Bench Verified e un rating Codeforces di 3206.

La doppia modalità Think/Non-Think è più di un semplice comfort. Nei workflow agentic di produzione, la possibilità di alternare una risposta rapida da 2 secondi e una risposta ragionata da 10 secondi a livello API, senza prompt engineering, semplifica drasticamente l'orchestrazione. I tassi di violazione dello schema per il function calling sarebbero calati dal 4.2% a meno dello 0.8% rispetto a V3.2, rendendolo utilizzabile per agenti autonomi senza supervisione.

Confronto diretto

Dimensione GLM-5.1 DeepSeek V4 Pro
Parametri totali 754B 1.6T
Attivi per token MoE (non diffuso) 49B
Finestra di contesto 200K 1M
Output massimo 128K 384K
Licenza MIT MIT
SWE-Bench (Pro/Verified) 58.4 (Pro, SOTA) 80.6% (Verified)
LiveCodeBench N/A 93.5 (SOTA)
GPQA Diamond 86.2 90.1
Terminal-Bench 2.0 63.5 N/A
Esecuzione long-horizon 8 ore Standard
Prezzo API input ~$1.4/M $1.74/M
Innovazione chiave RL asincrono, esecuzione prolungata Attenzione CSA+HCA, ottimizzatore Muon
Nota critica sul confronto SWE-Bench: GLM-5.1 riporta su SWE-Bench *Pro* mentre DeepSeek V4 riporta su SWE-Bench *Verified*. Sono varianti diverse del benchmark con livelli di difficoltà differenti, quindi i numeri non sono direttamente comparabili. SWE-Bench Verified tende a produrre punteggi più alti rispetto a SWE-Bench Pro.

Il pricing è aggressivo: V4-Pro a $1.74/M input e $3.48/M output, V4-Flash a soli $0.14/$0.28. Cioè circa 1/21 del costo di Claude Opus 4.6 per performance SWE-Bench quasi identiche.

Quando usare quale

Scegli GLM-5.1 quando:

  • ti serve un agente che lavori in autonomia per ore su task di ingegneria complessi
  • il tuo workflow prevede ottimizzazione iterativa, cicli di debug o esecuzione multi-step prolungata
  • vuoi il modello open-weight più forte per software engineering nel mondo reale (SWE-Bench Pro)
  • l’integrazione MCP e l’orchestrazione degli strumenti sono centrali nella tua pipeline

Scegli DeepSeek V4 Pro quando:

  • ti serve coding di livello frontier a una frazione del prezzo dei modelli occidentali
  • i tuoi task coinvolgono contesti molto lunghi (1M di token) come l’ingestione di intere codebase
  • il problem solving algoritmico o la programmazione competitiva sono il caso d’uso principale
  • ti serve la doppia modalità Think/Non-Think per workflow a latenza mista

Scegli DeepSeek V4 Flash quando:

  • il costo è il vincolo primario e il ragionamento al livello V4-Pro non è strettamente necessario
  • stai eseguendo workload di produzione ad alto volume (classificazione, riassunto, generazione semplice)
  • la latenza conta più dell’accuratezza di picco

Casi d’uso concreti

CTO di startup - Il CTO di una fintech da 20 persone lancia GLM-5.1 su un monolite Rails da 180K righe ogni venerdì sera. Entro lunedì mattina, il modello ha completato sessioni di refactoring autonome da 8 ore: estrae service object, migra API deprecate e aggiorna la suite di test su centinaia di file. Quello che richiedeva due settimane a un senior engineer ora viene consegnato in un weekend, con PR che passano la CI al primo tentativo nel 73% dei casi.

Responsabile piattaforma dati - Un team di data engineering carica su DeepSeek V4 Pro l’intera codebase microservizi, le specifiche API e i config Terraform: 400K token in un singolo prompt. Il modello identifica 23 dipendenze circolari, mappa un piano di migrazione completo verso un service mesh più pulito e genera un rollout per fasi. Con un modello a 200K di contesto, la stessa analisi avrebbe richiesto decine di prompt separati e un lavoro manuale di cucito.

Ingegnere DevOps - Durante un outage in produzione alle 3 di notte, un DevOps punta GLM-5.1 sui log Kubernetes, le metriche Prometheus e il codice dei servizi coinvolti. Il modello traccia in autonomia il failure a cascata partendo da un HPA mal configurato, attraversa tre servizi, individua la causa radice (un resource limit mai aggiornato dopo l’ultimo deploy), scrive il fix e prepara il comando di rollback, tutto senza che l’operatore debba guidarlo passo passo.

Ricercatore quantitativo - Un quant di una trading firm usa DeepSeek V4 Pro in modalità Think per verificare un nuovo algoritmo di pairs trading. Il modello percorre l’intera derivazione matematica, trova un errore sottile nell’assunzione di mean-reversion che avrebbe generato perdite in regimi di bassa volatilità, e propone una formulazione corretta. Nello stesso giorno, in modalità Non-Think, lo stesso modello genera segnali in tempo reale durante le ore di mercato con latenza sotto il secondo.

Sviluppatore indie - Un’app developer indipendente instrada tutto il code completion, la generazione di commit message e lo scaffolding dei test su V4-Flash a $0.14/M di input. Il conto mensile supera a malapena gli $8, mentre V4-Pro entra in gioco solo per il bug complesso occasionale che richiede ragionamento esteso. Il setup a doppia modalità sostituisce un abbonamento da $200/mese per un assistant di coding a una frazione del costo.

Analista di sicurezza - Il team di cybersecurity di una banca distribuisce GLM-5.1 sui repository interni, sfruttando il rilevamento vulnerabilità affinato su CyberGym (punteggio 68.7, in salita da 48.3 di GLM-5). Il modello scansiona i commit nella CI/CD, segnala un pattern di SQL injection che gli analyzer statici si erano persi perché spalmato su due layer ORM, e genera il codice patchato. Il team stima di catturare il 40% di true positive in più rispetto al toolchain SAST precedente.

Programmatore competitivo - Un team di ricerca universitario usa DeepSeek V4 Pro per affrontare problemi dai contest Div.1 di Codeforces. Con il rating Elo 3206 su Codeforces e 93.5 su LiveCodeBench, il modello produce regolarmente soluzioni ottimali o quasi ottimali per problemi di teoria dei grafi e programmazione dinamica.

Architetto di piattaforma - Un team enterprise implementa una pipeline di review a due velocità: i bug report in arrivo passano prima da V4-Pro in modalità Non-Think per triage rapido, classificazione e deduplica (sotto i 2 secondi per ticket). Quelli flaggati come complessi o security-relevant escalano automaticamente in modalità Think per l’analisi profonda della causa radice. Un unico modello che gestisce sia velocità sia profondità, eliminando configurazioni agent separate per fast e slow path.

Per i tecnici

Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.

GLM-5.1 - Benchmark completi

Benchmark Punteggio GLM-5.1
SWE-Bench Pro 58.4 (SOTA)
AIME 2026 95.3
GPQA Diamond 86.2
Terminal-Bench 2.0 63.5 (66.5 con Claude Code)
CyberGym 68.7 (da 48.3 in GLM-5)
BrowseComp 68.0
MCP-Atlas 71.8

GLM-5.1 offre una finestra di contesto da 200K token con 128K di output massimo, modalità thinking con diverse profondità di ragionamento, function calling, output strutturato e integrazione MCP nativa. Disponibile sotto licenza MIT su HuggingFace, supportato da SGLang, vLLM, Transformers e KTransformers per il deploy locale. Prezzo API: ~$1.4/M per l’input e $4.4/M per l’output.

DeepSeek V4 Pro - Benchmark completi

Benchmark DeepSeek V4-Pro Max
SWE-Bench Verified 80.6%
LiveCodeBench 93.5 (SOTA)
GPQA Diamond 90.1
MMLU-Pro 87.5
Codeforces Rating 3206 (SOTA)
HMMT 2026 95.2
BrowseComp 83.4

Architettura DeepSeek V4

Le tre innovazioni architetturali rispetto a V3.2:

  • CSA + HCA: attenzione compressa sparsa alternata a attenzione pesantemente compressa, per gestire contesti da 1M di token senza esplodere in memoria
  • Manifold-Constrained Hyper-Connections (mHC): stabilizzano l’addestramento in layer profondi, risolvendo il degradation che affligge i transformer molto profondi
  • Ottimizzatore Muon: sostituisce AdamW, con convergenza più rapida e minore uso di memoria durante il training

Il punto

Punti chiave:

  • GLM-5.1 è il primo modello che lavora davvero in autonomia per 8 ore: non è più demo, è produzione
  • DeepSeek V4 Pro porta il coding frontier a 1/21 del costo di Claude, con contesto da 1M di token
  • Entrambi sotto licenza MIT: i modelli open-weight cinesi non rincorrono più, fissano il passo in domini specifici
  • SWE-Bench Pro e Verified non sono comparabili direttamente: i numeri vanno letti con attenzione

Il panorama competitivo non è più “OpenAI vs. Anthropic vs. Google.” È una gara a cinque, e due concorrenti hanno appena dimostrato di poter vincere in casa propria.

Fonti

skeptik-log Autore: Skeptik Log