Claude Code gratis: tre modi per usarlo senza aprire il portafoglio

Claude Code non costa nulla se lo fai girare su modelli alternativi. Ollama ti porta GLM-5.1 dal cloud o Gemma 4 in locale, OpenRouter ti offre Elephant Alpha gratis. Il compromesso? Niente Claude sotto il cofano, ma risultati sorprendenti a prezzo zero.

🎬 Articolo basato su un video YouTube. Fonte: Julian Goldie, video YouTube, documentazione Ollama, OpenRouter

Dove andiamo

Se paghi 20€ al mese per Claude Code, forse non sai che esistono tre vie per ottenere un’esperienza simile senza spendere un centesimo. Julian Goldie, in un suo video, le mostra una dopo l’altra: Ollama con un modello cloud, Ollama con un modello locale, e OpenRouter con un modello alpha gratuito. Il video è zeppo di pitch per la sua community, ma il contenuto tecnico c’è.

Claude Code, ma senza Claude

Prima di tutto: chiariamo una cosa. Quando diciamo “Claude Code gratis”, non stiamo usando il modello Claude di Anthropic. Stiamo usando l’interfaccia di Claude Code, il coding agent a riga di comando, collegandola a modelli diversi. Claude Code è un client. Il modello è un altro discorso.

Questo significa che l’esperienza cambia. I modelli più piccoli o meno capaci faranno errori che Claude non farebbe. Ma per tanti task di coding quotidiano, la differenza è meno drammatica di quanto pensi.

Metodo 1: Ollama + GLM-5.1 (cloud)

Il primo approccio è il più semplice: fai girare un modello cloud attraverso Ollama.

ollama run glm-5.1:cloud
ollama launch claude --model glm-5.1:cloud

GLM-5.1 è di Z.AI e ha credenziali solide: SWE-Bench Pro SOTA (al momento del rilascio) e Terminal-Bench 2.0 al 68.5%. È un modello pensato per il coding e l’agentic work, e si vede.

I vantaggi:

Zero setup locale: non ti serve hardware potente, il modello gira sul cloud di Ollama
Velocità buona: la latenza è quella di una chiamata API, non di un’inferenza locale
Qualità alta: GLM-5.1 è fra i modelli open più forti su task di coding

I limiti:

Token limitati: il tier gratuito ha un budget di token per sessione e per settimana. Per un refactoring lungo, potresti finirli
Dipendenza dalla connessione: senza internet, niente coding agent

Approfondimento. Da gennaio 2026 (Ollama v0.14), Ollama espone una **Anthropic Messages API compatibility layer** su `localhost:11434`. Questo significa che Claude Code può connettersi direttamente a qualsiasi modello Ollama senza proxy o configurazioni complesse. Il comando `ollama launch` è il modo nativo per avviare Claude Code con un modello Ollama: si occupa lui di configurare l'endpoint e il modello.

Metodo 2: Ollama + Gemma 4 (locale)

Il secondo approccio è per chi vuole tutto sul proprio computer. Zero cloud, zero costi, zero log.

ollama run gemma4:31b
ollama launch claude --model gemma4:31b

Gemma 4 di Google è un modello open-weight che gira in locale. La versione da 31 miliardi di parametri (dense) è la più capace, ma esiste anche il 26B MoE che richiede meno risorse.

I vantaggi:

Zero costi, zero limiti di token: il modello è sul tuo disco, i token sono illimitati
Privacy totale: il codice non lascia il tuo computer
Offline: funziona anche senza connessione

I limiti:

Hardware: il 31B dense richiede almeno 16GB di RAM unificata (24GB per stare comodi). Il 26B MoE scende a 6GB
Velocità: su un Mac Mini M4 Pro con 24GB, il 31B viaggia a circa 15 token/s. Accettabile per riflessioni, lento per iterazioni rapide
Qualità: Gemma 4 è bravo, ma non è Claude. Su task complessi multi-file la differenza si sente

Prova tu - Requisiti minimi: 16GB RAM per 31B dense, 6GB per 26B MoE - Comando: `ollama run gemma4:31b` poi `ollama launch claude --model gemma4:31b` - Su Mac Mini M4 Pro 24GB: ~15 token/s, 256K contesto

Metodo 3: OpenRouter + Elephant Alpha (API free)

Il terzo è il più curioso. Elephant Alpha è un modello stealth apparso su OpenRouter il 13 aprile 2026. Nessuno sa chi l’abbia addestrato: il provider è OpenRouter stesso. 100 miliardi di parametri, 256K di contesto, zero costi.

Per usarlo con Claude Code, configuri OpenRouter come provider API e punti al modello Elephant Alpha.

I vantaggi:

100B parametri: è il modello più grande dei tre, potenzialmente il più capace
256K contesto: molta memoria per file grandi e codebase estese
Function calling e structured output: supportato nativamente
Gratis: $0/M sia per input che per output

I limiti:

Alpha: è in fase di test. Può cambiare, sparire, o diventare a pagamento da un momento all’altro
Privacy: i prompt possono essere loggati dal provider. Dal modello: “Prompts and completions may be logged by the provider and used to improve the model.” Se ci lavori su codice proprietario, pensaci due volte
Mistero: nessuna documentazione sull’architettura, sul dataset, su chi ci sta dietro. “Elephant Alpha” potrebbe essere qualsiasi cosa

Approfondimento. Elephant Alpha supporta anche **prompt caching**, che riduce i costi (già zero) e la latenza su contesti ripetitivi. La nota sulla privacy è esplicita: i tuoi prompt non sono privati. Per codice open source o esercitazione, nessun problema. Per codice aziendale, è un rischio.

Quale usare? Dipende dal contesto

Non c’è un vincitore chiaro. Ogni metodo ha il suo uso ideale:

Scenario	Metodo	Perché
Prototipazione veloce, task singoli	GLM-5.1 cloud	Veloce, zero setup, qualità alta
Codice sensibile, lavoro offline	Gemma 4 locale	Privacy totale, token illimitati
Codebase grande, contesto lungo	Elephant Alpha	256K contesto, 100B parametri
Refactoring multi-file complesso	GLM-5.1 cloud	Miglior ragionamento agentic
Sperimentazione senza fretta	Gemma 4 locale	Nessun limite di token, iteri quanto vuoi

Approfondimento. Puoi configurare backend diversi per progetto tramite `.claude/settings.local.json`. L'approccio ibrido funziona bene: **locale per task singoli e sperimentazione**, **cloud per refactoring complessi multi-file**. Non devi scegliere uno per tutto.

Per chi vuole approfondire

Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.

La compatibility layer di Ollama

Da Ollama v0.14 (gennaio 2026), il daemon espone un endpoint compatibile con la Anthropic Messages API su localhost:11434/v1/messages. Questo significa che qualsiasi client che parla il protocollo Anthropic, Claude Code incluso, può puntare a Ollama come se fosse l’API ufficiale.

Il flusso:

Ollama scarica e carica il modello (locale o cloud)
Espone l’endpoint compatibile
ollama launch claude configura automaticamente ANTHROPIC_BASE_URL e ANTHROPIC_API_KEY
Claude Code parla con Ollama come se parlasse con Anthropic

Niente proxy, niente litellm, niente configurazione manuale. Funziona e basta.

Elephant Alpha: quello che sappiamo

Poco, a dire il vero. Le specifiche pubblicate da OpenRouter:

Parametro	Valore
Parametri	100B
Contesto	256K token
Input	$0/M
Output	$0/M
Function calling	Sì
Structured output	Sì
Prompt caching	Sì
Provider	OpenRouter (sconosciuto)

La definizione di “intelligence efficiency” suggerisce un modello ottimizzato per produrre risposte di qualità con meno token possibile. Una sorta di reasoning efficiency: ragiona bene, spreca poco. Ma senza paper, senza benchmark indipendenti, è tutto da verificare.

Configurare OpenRouter con Claude Code

Per usare Elephant Alpha (o qualsiasi modello OpenRouter) con Claude Code:

export ANTHROPIC_BASE_URL=https://openrouter.ai/api/v1
export ANTHROPIC_API_KEY=la-tua-api-key-openrouter
claude --model openrouter/elephant-alpha

Oppure tramite il file di configurazione del progetto.

Il punto

Punti chiave:

Claude Code è un client: puoi collegarlo a qualsiasi modello che parla il protocollo Anthropic
Ollama + GLM-5.1 cloud è la via più semplice per qualità immediata a costo zero
Ollama + Gemma 4 locale è la scelta per privacy e offline, al prezzo della velocità
Elephant Alpha è l’incognita: potente, gratis, ma alpha e con rischi sulla privacy

Il coding agent gratuito non è più un esperimento. È una scelta reale, con compromessi reali. La domanda non è più “posso permettermi Claude Code?”, ma “quale compromesso accetto?”.