SL
Skeptik Log
youtube

DeepSeek V4 + Claude Code: quanto si risparmia davvero

Autore: Skeptik Log

DeepSeek V4 Pro costa circa 7 volte meno di Claude Opus 4.6 per token in output, non 100 volte. La differenza è rilevante, ma il titolo del video è clickbait puro. Ecco i numeri reali, il setup, e i limiti che nessuno ti dice.

🎬 Contenuto da video YouTube. Fonte: Jack Roberts, DeepSeek API docs, Anthropic docs

Perché ti dovrebbe interessare

Se usi Claude Code per lavorare, sai che il costo mensile può facilmente superare i 200 euro. L’idea di sostituire il modello sottostante con qualcosa di più economico, mantenendo la stessa interfaccia e lo stesso tooling, suona bene. DeepSeek V4 lo rende possibile grazie a un’API compatibile con Anthropic. Ma quanto risparmi davvero, e cosa perdi nel cambio?

Cosa c’è di vero nel video

Jack Roberts è un marketer, e il video ne è pieno: 15 minuti di cui metà sono pitch per la sua community. Ma sotto il marketing c’è sostanza.

Ecco i punti che contano:

  • DeepSeek V4 Pro ha 1.6T parametri totali con architettura MoE (49B attivi per token)
  • Supporta 1M di contesto nativo
  • È compatibile con l’ecosistema Claude Code tramite un endpoint API Anthropic-compatible
  • SWE-Bench Verified: 80.6%, a meno di 0.2 punti da Claude Opus 4.6
  • Pesi open con licenza MIT su Hugging Face

Il video mostra un setup con AntiGravity per configurazione rapida, un dual terminal, e una demo di costruzione sito web. Niente di rivoluzionario nel workflow, ma l’integrazione funziona.

I numeri reali (non quelli del titolo)

Il titolo dice “100X Cheaper”. I numeri dicono altro.

Modello Input ($/M token) Output ($/M token)
DeepSeek V4 Flash $0.14 $0.28
DeepSeek V4 Pro $1.74 $3.48
Claude Sonnet 4.6 $3.00 $15.00
Claude Opus 4.6 $15.00 $25.00

Il risparmio reale rispetto a Opus è circa 7X per gli output token e 8.6X per gli input token. Rispetto a Sonnet, il risparmio è meno drammatico: circa 4.3X sugli output con V4 Pro.

Se usi Claude Code 4 ore al giorno con intensità media:

  • Claude Opus 4.6: ~$200+/mese
  • DeepSeek V4 Pro: ~$80-120/mese per throughput comparabile
  • DeepSeek V4 Flash: ancora più economico, ideale per sub-agent e task ripetitivi

Non è “100 volte più economico”. È significativamente più economico, e per molti use case è più che sufficiente. Ma la differenza tra 7X e 100X è la differenza tra un buon risparmio e una promessa impossibile.

Cosa ottieni (e cosa no)

DeepSeek V4 Pro è competitivo con Claude Opus su coding benchmark. Il 80.6% su SWE-Bench Verified è un risultato solido. Ma ci sono sfumature:

  • Il benchmark SWE-Bench è meno validato indipendentemente per DeepSeek rispetto a Claude
  • I benchmark non misurano affidabilità nel tempo, coerenza su task lunghi, o gestione di edge case
  • Claude Opus rimane superiore per task complessi di reasoning e contesti molto lunghi dove la qualità dell’output conta più del costo per token
  • Il tool calling funziona ma non è robusto come l’implementazione nativa di Anthropic

E poi c’è la questione privacy.

🔍 Considerazioni sulla privacy. DeepSeek è un'azienda cinese. I dati che invii alla loro API passano dai loro server. Per codice personale o open source, può essere accettabile. Per codice aziendale con proprietà intellettuale sensibile, è un rischio che va valutato coscientemente. Anthropic ha policy sui dati diverse e giurisdizione americana. Non stiamo dicendo che uno è meglio dell'altro, ma che devi sapere dove finiscono i tuoi dati.

Il setup

Prova tu: Claude Code con DeepSeek V4
  1. Ottieni una API key da platform.deepseek.com
  2. Imposta le variabili d’ambiente:
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=<LA_TUA_API_KEY>
export ANTHROPIC_MODEL=deepseek-v4-pro[1m]
  1. Avvia Claude Code normalmente
  2. Per task più leggeri, usa deepseek-v4-flash come modello per i sub-agent

Risultato atteso: Stessa interfaccia di Claude Code, modello DeepSeek V4 Pro sotto. Funziona tool calling, function calling e structured output.

Per chi vuole approfondire

Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.

Architettura DeepSeek V4

DeepSeek V4 usa un’architettura MoE (Mixture of Experts) con innovazioni chiave:

  • 1.6T parametri totali, 49B attivi per token (Pro), 284B/13B per Flash
  • Token-wise compression e DSA (DeepSeek Sparse Attention) per gestire contesto lungo in modo efficiente
  • Al contesto pieno da 1M token, usa solo il 27% dei FLOPs di V3.2 per single-token inference e il 10% della KV cache memory
  • Ottimizzato per agent capabilities: tool calling, function calling, structured output

Confronto benchmark

Benchmark DeepSeek V4 Pro Claude Opus 4.6 Gap
SWE-Bench Verified 80.6% 80.8% -0.2
LiveCodeBench 93.5% (claim) ~92% +1.5
GPQA 90.1% ~89% +1.1

I benchmark DeepSeek sono self-reported, quelli Claude da valutazioni indipendenti. Il gap è minimo, ma la metodologia non è identica.

API Anthropic-compatibility

L’endpoint https://api.deepseek.com/anthropic espone un’API compatibile con lo standard Anthropic. DeepSeek ha documentazione ufficiale per l’integrazione con Claude Code. Il supporto include:

  • Tool calling e function calling
  • Structured output (JSON mode)
  • Contesto fino a 1M token
  • Streaming

I limiti di rate non sono documentati in modo trasparente. Per uso intensivo da terminale, potresti incorrere in throttling che con Anthropic non avresti.

Il punto

Punti chiave:

  • DeepSeek V4 Pro costa circa 7 volte meno di Claude Opus 4.6 per token in output, non 100 volte
  • Il setup con Claude Code è straightforward: tre variabili d’ambiente e funziona
  • SWE-Bench 80.6% è competitivo con Opus, ma con meno validazione indipendente
  • I tuoi dati passano da server cinesi: fattore da valutare per codice aziendale
  • V4 Flash è il vero affare per task ripetitivi e sub-agent: $0.14/M token input

L’AI coding sta diventando un mercato dove il prezzo conta quanto la qualità. DeepSeek V4 dimostra che non serve pagare il premium per avere risultati comparabili, ma il risparmio reale è un ordine di grandezza, non due.

Risorse

youtube Autore: Skeptik Log