GLM-5 vs Kimi K2.6: la sfida cinese che sta ridefinendo SWE-Bench Pro

Due modelli cinesi open-source, un solo trono su SWE-Bench Pro. Kimi K2.6 vince per 0.2 punti percentuali, ma GLM-5.1 lo batte su task reali di backend, debugging e ragionamento strutturato. E lo fa senza una singola GPU NVIDIA.

Nota: Le sezioni evidenziate in blue sono integrazioni di ricerca autonome non presenti nella fonte originale.

Perché dovresti interessarti

Se segui l’AI coding anche solo da lontano, sai che SWE-Bench è il metro di giudizio definitivo: risolvere bug reali su repository reali, non quiz da libro di testo. Dal 2024 in poi è diventato il benchmark che separa i modelli utili da quelli che fanno bei benchmark ma nel mondo reale si schiantano.

Ora due modelli cinesi open-source - GLM-5.1 (Z.ai, ex Zhipu AI) e Kimi K2.6 (Moonshot AI) - si contendono la vetta con numeri che fino a sei mesi fa vedevi solo su modelli closed da centinaia di dollari al mese. Il distacco è di 0.2 punti percentuali. Due decimi. Statisticamente, un pareggio.

Ma la vera storia non è chi vince. È come ci arrivano, e cosa significa per chi deve scegliere quale usare sul serio.

I due contendenti

GLM-5.1 è un modello MoE da 754 miliardi di parametri totali (40B attivi) sviluppato da Z.ai. La storia dietro questo modello è quasi più interessante del modello stesso.

Z.ai (precedentemente Zhipu AI) è sulla Entity List americana da gennaio 2025. Significa: zero accesso a GPU NVIDIA, zero accesso a CUDA, zero accesso all’ecosistema che ha costruito l’AI moderna. Per addestrare GLM-5 hanno usato 100.000 chip Huawei Ascend 910B, un hardware considerato inferiore a NVIDIA di almeno una generazione. Il risultato è un modello che su SWE-Bench Verified fa 77.8%, AIME 2025 al 93.3%, e MATH-500 al 97.4%. GLM-5.1, rilasciato il 7 aprile 2026 con licenza MIT, aggiunge un post-training refinement per coding agentico: SWE-Bench Pro 58.4%, Terminal-Bench 2.0 56.2%, contesto 200K token.

I punti di forza di GLM-5.1 sono il ragionamento strutturato, l’anti-allucinazione (record-low su AA-Omniscience), e una capacità di esecuzione autonoma long-horizon che arriva fino a 8 ore senza intervento umano. Il prezzo API è $1.00/M input, $3.20/M output in modalità reasoning.

Kimi K2.6 è un MoE da 1 trilione di parametri (1000B totali, 32B attivi) di Moonshot AI, rilasciato il 20 aprile 2026 con licenza Modified MIT. Nato per il coding multimodale, supporta fino a 100 sub-agent in parallelo (agent swarm), vision nativa (testo + immagini + video), e generazione UI/UX. Contesto: 256K token.

Su SWE-Bench Pro fa 58.6%, esattamente 0.2 punti sopra GLM-5.1. Ma il dato più rilevante è il prezzo: $0.74/M input, $2.20/M output - circa il 43% in meno di GLM-5.1 per token. Kimi è più economico, ha più contesto, e fa cose che GLM-5.1 semplicemente non può fare (visione, UI generation, agent swarm visivi). Sulla carta, vince lui.

Il confronto reale: 15 task, 90 esecuzioni

La parte interessante arriva quando smetti di guardare i numeri aggregati e guardi cosa succede su task reali. Towards AI ha fatto esattamente questo: 15 task concreti, 3 run ciascuno per modello, 90 esecuzioni totali. Il risultato è più sfumato di quanto suggeriscano i 0.2 punti di distacco.

Area	GLM-5.1	Kimi K2.6
Backend logic	✅ Superiore	-
Debugging	✅ Superiore	-
Sistemi complessi	✅ Superiore	-
Ragionamento strutturato	✅ Superiore	-
Anti-allucinazione	✅ Record-low	-
Coding visivo / UI	-	✅ Superiore
Multi-agent	-	✅ Superiore
Multimodalità	-	✅ Nativa
Prezzo per token	$1.00 / $3.20	~43% meno

Il gap di 0.2 punti su SWE-Bench Pro è il più piccolo dell’intera comparazione. Su task reali, GLM-5.1 “codes 11 points better” in diversi scenari di backend e debugging. Kimi domina dove serve vedere e generare interfacce, o orchestrare molti agenti in parallelo.

La storia dietro i numeri

C’è un dettaglio che vale più di qualsiasi benchmark: GLM-5 è stato addestrato senza una singola GPU NVIDIA.

Quando gli Stati Uniti hanno messo Z.ai sulla Entity List, il messaggio era chiaro: senza accesso all’hardware americano, l’AI cinese non può competere. Z.ai ha risposto addestrando un modello da 754 miliardi di parametri su 100.000 chip Huawei, producendo un modello che compete testa a testa con Kimi (che ha accesso all’ecosistema NVIDIA) e batte GPT-5.4 (57.7%) e Claude Opus 4.6 su SWE-Bench Pro.

Questa non è solo una vittoria tecnica. È la dimostrazione che l’embargo hardware sta fallendo nel suo obiettivo dichiarato. Non solo la Cina produce chip AI competitivi - ci addestra sopra modelli che ridefiniscono lo stato dell’arte.

Nel frattempo Kimi K2.6 ha preso una strada diversa: invece di competere sul ragionamento puro, ha puntato tutto sulla multimodalità e sull’agency distribuita. I suoi 100 sub-agent in parallelo non sono un numero da marketing: permettono di esplorare repository enormi, generare UI complete, e fare code review visiva in modi che un modello text-only non può replicare.

Sono due filosofie opposte. GLM-5.1 è il backend engineer che non sbaglia una virgola. Kimi K2.6 è il full-stack developer che ti fa anche il design.

GLM-5 vs GLM-5.1: l’evoluzione contesa

Un ultimo punto tecnico ma importante: GLM-5.1 non è GLM-5. Il modello base (febbraio 2026) aveva già benchmark impressionanti, ma il post-training refinement di aprile ha cambiato le carte in tavola.

Benchmark	GLM-5	GLM-5.1
BenchLM (agentic)	67/100	83/100
SWE-Bench Pro	-	58.4%
Terminal-Bench 2.0	-	56.2%
NL2Repo	-	Migliorato significativamente

Il salto da 67 a 83 su BenchLM racconta la storia: GLM-5 era un ottimo modello generale; GLM-5.1 è un modello agentico specializzato. E il margine di miglioramento in soli due mesi suggerisce che la traiettoria è in piena accelerazione.

La pratica: provali tu

Prova tu

GLM-5 / GLM-5.1

HuggingFace: z-ai (pesi GLM-5, licenza MIT)
API: z.ai - $1.00/M input, $3.20/M output
Contesto: 200K token
Modello disponibile anche su OpenRouter e NVIDIA NIM (gratuito)

Kimi K2.6

Sito ufficiale: moonshot.ai
API: $0.74/M input, $2.20/M output
Contesto: 256K token
Disponibile su OpenRouter e Ollama Cloud (gratuito)

Per chi vuole approfondire

Da qui in poi si entra nel tecnico. Se ti sei già fatto un’idea, puoi saltare direttamente alla conclusione.

Architettura MoE: due filosofie opposte

Entrambi usano architetture Mixture-of-Experts, ma con scelte radicalmente diverse. GLM-5.1 ha 754B parametri totali ma ne attiva solo 40B per token: un rapporto di sparsità molto aggressivo (5.3%) che privilegia l’efficienza computazionale. Kimi K2.6 ha 1000B totali e 32B attivi (3.2%): ancora più sparso, ma con una capacità totale superiore del 32%.

La differenza chiave sta nel training: GLM-5 è stato addestrato su hardware non-NVIDIA con uno stack software completamente indipendente da CUDA. Questo ha richiesto a Z.ai di sviluppare tooling di training distribuito su Ascend, un investimento ingegneristico che nessun altro lab occidentale ha dovuto fare. Il fatto che il risultato sia competitivo con modelli addestrati su H100 è notevole.

Kimi K2.6, avendo accesso all’ecosistema NVIDIA standard, ha potuto concentrare le risorse sull’innovazione architetturale: l’agent swarm a 100 nodi, il context di 256K, e l’integrazione multimodale nativa sono feature che richiedono molta sperimentazione e poca lotta con l’infrastruttura.

SWE-Bench Pro: cosa misura davvero

SWE-Bench Pro è l’evoluzione di SWE-Bench Verified pensata per task di software engineering professionale. Non si limita a patch su bug isolati: include refactoring, aggiunta di feature, risoluzione di issue multi-file.

Il fatto che due modelli open-source cinesi occupino le prime due posizioni, battendo GPT-5.4 e Claude Opus 4.6, è un terremoto per chi fino a ieri considerava l’AI americana l’unica opzione seria per il coding.

Il punto

GLM-5.1 è sottovalutato. I 0.2 punti di distacco su SWE-Bench Pro nascondono una superiorità reale su backend, debugging e ragionamento strutturato.
Kimi K2.6 è più versatile. Visione, UI, agent swarm: se il tuo flusso di lavoro è multimodale, Kimi è la scelta giusta. Ed è anche più economico.
L’embargo NVIDIA sta fallendo. GLM-5, addestrato su 100.000 chip Huawei Ascend, compete alla pari con modelli addestrati su H100/B200. La narrativa del “senza NVIDIA non si può” è morta.
Scegli in base al task, non al benchmark. Backend engineer → GLM-5.1. Full-stack con UI → Kimi K2.6. Due modelli complementari, non rivali.

La vera notizia non è chi ha 0.2 punti in più su un benchmark. È che la Cina ora produce due modelli open-source che, insieme, coprono l’intero spettro dello sviluppo software moderno. E uno dei due lo ha fatto con le mani legate.

Risorse

GLM-5 / GLM-5.1: z.ai - sito ufficiale
GLM-5 pesi: HuggingFace z-ai
Kimi K2.6: moonshot.ai - sito ufficiale
Towards AI comparison: analisi su 15 task reali, 90 esecuzioni totali
SWE-Bench Pro: swebench.com - benchmark ufficiale