SL
Skeptik Log
skeptik-log

GPT-5.5 batte Opus 4.7? Dipende da cosa ti serve

Autore: Skeptik Log

GPT-5.5 è uscito il 23 aprile, una settimana dopo Opus 4.7. Entrambi dichiarano di essere il modello più intelligente disponibile. Nessuno dei due ha ragione del tutto. La vera domanda è: per cosa lo usi?

TL;DR: GPT-5.5 domina su esecuzione e automazione, Opus 4.7 vince su ragionamento profondo e affidabilità. Gemini 3.1 Pro è l’opzione economica con 2M di contesto. La scelta dipende dal task, non dal brand.

Fonte: OpenAI, Anthropic, Artificial Analysis

Dove andiamo

Due modelli di punta rilasciati a una settimana di distanza, entrambi con la pretesa di essere il migliore in assoluto. I benchmark dicono una cosa, la pratica un’altra. In questo articolo vediamo chi vince su cosa, quanto costa davvero usarli, e perché il modello di business dietro ciascuno conta tanto quanto i numeri.

I numeri che contano

Ecco come se la cavano i due modelli sui benchmark principali, con Gemini 3.1 Pro come terzo incomodo.

Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro
SWE-Bench Pro 58.6% 64.3% 54.2%
Terminal-Bench 2.0 82.7% 69.4% 68.5%
ARC-AGI-1 (High) 94.5% 92.0% -
ARC-AGI-2 (High) 83.3% 68.3% 77.1%
BrowseComp 84.4% 79.3% 85.9%
GPQA Diamond 93.6% 94.2% 94.3%
OSWorld-Verified 78.7% 78.0% -
GDPval (max reasoning) 84.9% - -
Humanity’s Last Exam (no tools) 40.6% 31.2% -
Humanity’s Last Exam (w/ tools) 52.2% 54.7% -
MCP-Atlas (tool use) - 77.3% 73.9%
BigLaw Bench - 90.9% -

La lettura immediata: GPT-5.5 domina dove serve esecuzione strutturata e navigazione web. Opus 4.7 vince dove conta il ragionamento profondo e l’orchestrazione multi-turno di tool. Non è un caso.

Cosa cambia davvero

I numeri raccontano solo una parte della storia. La differenza reale tra i due modelli è filosofica.

GPT-5.5 è il pragmatico. OpenAI lo ha ottimizzato per completare task: meno token spesi, risposte più dirette, meno overthinking. Rispetto a GPT-5.4, lo stesso lavoro viene completato con meno token (da ~18.000 a ~14.500 su Codex) e con risultati migliori. È il modello che risolve il problema e si ferma. Questa efficienza si nota nei benchmark di esecuzione: Terminal-Bench e ARC-AGI sono dominati da un approccio che non spreca cicli.

Opus 4.7 è il metodico. Anthropic lo ha progettato per ragionare prima di rispondere. Verifica i propri output prima di presentarli, un comportamento nuovo nei LLM. Su SWE-Bench Pro risolve più issue reali perché analizza il problema con più profondità. Su MCP-Atlas gestisce meglio sequenze complesse di tool call. Il costo è la verbosità: nei test pratici, Opus genera circa il 67% di token in più rispetto a GPT-5.5.

In pratica, nei test single-shot su UI/web, giochi e simulazioni, la qualità del codice è comparabile. Ma Opus completa gli stessi task circa 2-2.5 volte più veloce, mentre GPT-5.5 consuma meno token ma impiega più tempo. È un trade-off tra latenza e costo per token.

Per chi vince cosa

  • Scegli GPT-5.5 se: automazioni ripetitive su PC, output in pipeline automatizzate, navigazione web robusta, budget inference vincolato
  • Scegli Opus 4.7 se: codice complesso e debugging multi-file, ragionamento lungo e verificato (ricerca, analisi legale, finanza), affidabilità più importante del costo, orchestrazione di tool multipli in sequenze lunghe
  • Scegli Gemini 3.1 Pro se: finestra di contesto da 2M token, budget stretto ($2/$12 per milione di token), nessuna esigenza estrema su benchmark specifici

Il prezzo che conta

Modello Input ($/M token) Output ($/M token) Contesto
GPT-5.5 5 30 1M
GPT-5.5 Pro 30 180 1M
Opus 4.7 5 25 1M
Gemini 3.1 Pro 2 12 2M

GPT-5.5 costa il doppio di GPT-5.4 in output ($30 vs $15), ma consuma meno token per lo stesso task. Il risultato netto dipende dal caso d’uso: prompt brevi e risposte lunghe fanno sentire il raddoppio del prezzo output. Task strutturati dove GPT-5.5 è più efficiente nel ragionamento possono compensare.

Opus 4.7 costa meno in output ($25 vs $30) ma genera più token. Nei test pratici: un task da $0.50 con GPT-5.5 costa circa $0.79 con Opus. Non drammatico, ma su volumi consistenti si accumula.

Il vero vantaggio competitivo sui costi è Gemini 3.1 Pro: $2/$12 con 2M di contesto. Non è forte come gli altri due sulla maggior parte dei benchmark, ma per task che non richiedono il modello di punta, è il rapporto qualità/prezzo migliore.

Il contesto che manca: modelli business e futuro

La gara tra GPT-5.5 e Opus 4.7 non è solo tecnica. È anche una questione di modelli di business opposti.

OpenAI continua a spingere sulla distribuzione di massa: 4 milioni di sviluppatori settimanali su Codex, ChatGPT come consumer app, GPT-5.5 incluso nell’abbonamento Pro. Il modello è volumi alti, prezzo accessibile, lock-in nell’ecosistema. Il rischio è che l’incentivo commerciale porti a ottimizzare per benchmark visibili piuttosto che per affidabilità profonda.

Anthropic persegue la strada opposta: meno utenti, prezzo più alto, focus su sicurezza e interpretabilità. Opus 4.7 verifica i propri output prima di restituirli, un comportamento che costa token (e quindi soldi) ma riduce le allucinazioni. È un trade-off esplicito tra velocità e affidabilità. BigLaw Bench al 90.9% non è un caso: Opus è il modello che scegli quando l’errore costa più del token.

E poi c’è Gemini 3.1 Pro come terzo contendente. Google non compete sullo stesso piano: offre 2M di contesto a un terzo del prezzo. Non vince molti benchmark, ma per task che richiedono contesto lungo (analisi di documenti, codebase estese) è l’unico che può davvero caricare tutto in memoria senza chunking.

Il prossimo passo? Entrambi i modelli puntano all’agentic computing: non più chatbot, ma agenti che operano sul PC per ore. GPT-5.5 con Codex, Opus 4.7 con Claude Code. La vera differenza la vedremo non su benchmark accademici, ma su quante ore consecutive un agente può lavorare senza perdere il filo o fare errori catastrofici.

Per chi vuole approfondire

Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.

Limitazioni e caveat

I punteggi SWE-Bench, Terminal-Bench e compagni sono misurati su dataset specifici con prompt standardizzati. Nel mondo reale, con prompt ambigui e codebase caotiche, i risultati possono cambiare significativamente.

GPT-5.5 è un retraining completo (non un refinement di GPT-5), ma il nome suggerisce un aggiornamento incrementale. OpenAI ha scelto la numerazione 5.5 invece di 6.0 proprio perché il salto architetturale non c’è. Se aspetti un salto generazionale, non è questo il momento.

Mythos, il modello più potente di Anthropic, non è accessibile al pubblico. I benchmark che vediamo per Opus 4.7 sono per la versione rilasciata. Con Mythos, il divario potrebbe essere molto diverso, ma nessuno può verificarlo.

Infine, i test pratici su coding mostrano che per un utente medio la differenza è minima. La vera differenza emerge su problemi complessi, codebase specifiche e ambiti di ricerca. Se non sei in quei campi, il modello più economico che funziona bene è quasi sempre la scelta migliore.

Il punto

Punti chiave:

  • GPT-5.5 vince su esecuzione e automazione, Opus 4.7 su ragionamento profondo e affidabilità
  • Il costo effettivo dipende dal trade-off token/velocità: GPT-5.5 consuma meno, Opus è più veloce
  • I modelli di business dietro ai due modelli contano tanto quanto i benchmark

Il modello migliore non esiste. Esiste il modello giusto per il tuo task, e spesso costa meno di quello che vorrebbero venderti.

Risorse

skeptik-log Autore: Skeptik Log