GPT-5.5 batte Opus 4.7? Dipende da cosa ti serve
GPT-5.5 è uscito il 23 aprile, una settimana dopo Opus 4.7. Entrambi dichiarano di essere il modello più intelligente disponibile. Nessuno dei due ha ragione del tutto. La vera domanda è: per cosa lo usi?
TL;DR: GPT-5.5 domina su esecuzione e automazione, Opus 4.7 vince su ragionamento profondo e affidabilità. Gemini 3.1 Pro è l’opzione economica con 2M di contesto. La scelta dipende dal task, non dal brand.
Dove andiamo
Due modelli di punta rilasciati a una settimana di distanza, entrambi con la pretesa di essere il migliore in assoluto. I benchmark dicono una cosa, la pratica un’altra. In questo articolo vediamo chi vince su cosa, quanto costa davvero usarli, e perché il modello di business dietro ciascuno conta tanto quanto i numeri.
I numeri che contano
Ecco come se la cavano i due modelli sui benchmark principali, con Gemini 3.1 Pro come terzo incomodo.
| Benchmark | GPT-5.5 | Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | 54.2% |
| Terminal-Bench 2.0 | 82.7% | 69.4% | 68.5% |
| ARC-AGI-1 (High) | 94.5% | 92.0% | - |
| ARC-AGI-2 (High) | 83.3% | 68.3% | 77.1% |
| BrowseComp | 84.4% | 79.3% | 85.9% |
| GPQA Diamond | 93.6% | 94.2% | 94.3% |
| OSWorld-Verified | 78.7% | 78.0% | - |
| GDPval (max reasoning) | 84.9% | - | - |
| Humanity’s Last Exam (no tools) | 40.6% | 31.2% | - |
| Humanity’s Last Exam (w/ tools) | 52.2% | 54.7% | - |
| MCP-Atlas (tool use) | - | 77.3% | 73.9% |
| BigLaw Bench | - | 90.9% | - |
La lettura immediata: GPT-5.5 domina dove serve esecuzione strutturata e navigazione web. Opus 4.7 vince dove conta il ragionamento profondo e l’orchestrazione multi-turno di tool. Non è un caso.
Cosa cambia davvero
I numeri raccontano solo una parte della storia. La differenza reale tra i due modelli è filosofica.
GPT-5.5 è il pragmatico. OpenAI lo ha ottimizzato per completare task: meno token spesi, risposte più dirette, meno overthinking. Rispetto a GPT-5.4, lo stesso lavoro viene completato con meno token (da ~18.000 a ~14.500 su Codex) e con risultati migliori. È il modello che risolve il problema e si ferma. Questa efficienza si nota nei benchmark di esecuzione: Terminal-Bench e ARC-AGI sono dominati da un approccio che non spreca cicli.
Opus 4.7 è il metodico. Anthropic lo ha progettato per ragionare prima di rispondere. Verifica i propri output prima di presentarli, un comportamento nuovo nei LLM. Su SWE-Bench Pro risolve più issue reali perché analizza il problema con più profondità. Su MCP-Atlas gestisce meglio sequenze complesse di tool call. Il costo è la verbosità: nei test pratici, Opus genera circa il 67% di token in più rispetto a GPT-5.5.
In pratica, nei test single-shot su UI/web, giochi e simulazioni, la qualità del codice è comparabile. Ma Opus completa gli stessi task circa 2-2.5 volte più veloce, mentre GPT-5.5 consuma meno token ma impiega più tempo. È un trade-off tra latenza e costo per token.
Per chi vince cosa
- Scegli GPT-5.5 se: automazioni ripetitive su PC, output in pipeline automatizzate, navigazione web robusta, budget inference vincolato
- Scegli Opus 4.7 se: codice complesso e debugging multi-file, ragionamento lungo e verificato (ricerca, analisi legale, finanza), affidabilità più importante del costo, orchestrazione di tool multipli in sequenze lunghe
- Scegli Gemini 3.1 Pro se: finestra di contesto da 2M token, budget stretto ($2/$12 per milione di token), nessuna esigenza estrema su benchmark specifici
Il prezzo che conta
| Modello | Input ($/M token) | Output ($/M token) | Contesto |
|---|---|---|---|
| GPT-5.5 | 5 | 30 | 1M |
| GPT-5.5 Pro | 30 | 180 | 1M |
| Opus 4.7 | 5 | 25 | 1M |
| Gemini 3.1 Pro | 2 | 12 | 2M |
GPT-5.5 costa il doppio di GPT-5.4 in output ($30 vs $15), ma consuma meno token per lo stesso task. Il risultato netto dipende dal caso d’uso: prompt brevi e risposte lunghe fanno sentire il raddoppio del prezzo output. Task strutturati dove GPT-5.5 è più efficiente nel ragionamento possono compensare.
Opus 4.7 costa meno in output ($25 vs $30) ma genera più token. Nei test pratici: un task da $0.50 con GPT-5.5 costa circa $0.79 con Opus. Non drammatico, ma su volumi consistenti si accumula.
Il vero vantaggio competitivo sui costi è Gemini 3.1 Pro: $2/$12 con 2M di contesto. Non è forte come gli altri due sulla maggior parte dei benchmark, ma per task che non richiedono il modello di punta, è il rapporto qualità/prezzo migliore.
Il contesto che manca: modelli business e futuro
La gara tra GPT-5.5 e Opus 4.7 non è solo tecnica. È anche una questione di modelli di business opposti.
OpenAI continua a spingere sulla distribuzione di massa: 4 milioni di sviluppatori settimanali su Codex, ChatGPT come consumer app, GPT-5.5 incluso nell’abbonamento Pro. Il modello è volumi alti, prezzo accessibile, lock-in nell’ecosistema. Il rischio è che l’incentivo commerciale porti a ottimizzare per benchmark visibili piuttosto che per affidabilità profonda.
Anthropic persegue la strada opposta: meno utenti, prezzo più alto, focus su sicurezza e interpretabilità. Opus 4.7 verifica i propri output prima di restituirli, un comportamento che costa token (e quindi soldi) ma riduce le allucinazioni. È un trade-off esplicito tra velocità e affidabilità. BigLaw Bench al 90.9% non è un caso: Opus è il modello che scegli quando l’errore costa più del token.
E poi c’è Gemini 3.1 Pro come terzo contendente. Google non compete sullo stesso piano: offre 2M di contesto a un terzo del prezzo. Non vince molti benchmark, ma per task che richiedono contesto lungo (analisi di documenti, codebase estese) è l’unico che può davvero caricare tutto in memoria senza chunking.
Il prossimo passo? Entrambi i modelli puntano all’agentic computing: non più chatbot, ma agenti che operano sul PC per ore. GPT-5.5 con Codex, Opus 4.7 con Claude Code. La vera differenza la vedremo non su benchmark accademici, ma su quante ore consecutive un agente può lavorare senza perdere il filo o fare errori catastrofici.
Per chi vuole approfondire
Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.
Limitazioni e caveat
I punteggi SWE-Bench, Terminal-Bench e compagni sono misurati su dataset specifici con prompt standardizzati. Nel mondo reale, con prompt ambigui e codebase caotiche, i risultati possono cambiare significativamente.
GPT-5.5 è un retraining completo (non un refinement di GPT-5), ma il nome suggerisce un aggiornamento incrementale. OpenAI ha scelto la numerazione 5.5 invece di 6.0 proprio perché il salto architetturale non c’è. Se aspetti un salto generazionale, non è questo il momento.
Mythos, il modello più potente di Anthropic, non è accessibile al pubblico. I benchmark che vediamo per Opus 4.7 sono per la versione rilasciata. Con Mythos, il divario potrebbe essere molto diverso, ma nessuno può verificarlo.
Infine, i test pratici su coding mostrano che per un utente medio la differenza è minima. La vera differenza emerge su problemi complessi, codebase specifiche e ambiti di ricerca. Se non sei in quei campi, il modello più economico che funziona bene è quasi sempre la scelta migliore.
Il punto
Punti chiave:
- GPT-5.5 vince su esecuzione e automazione, Opus 4.7 su ragionamento profondo e affidabilità
- Il costo effettivo dipende dal trade-off token/velocità: GPT-5.5 consuma meno, Opus è più veloce
- I modelli di business dietro ai due modelli contano tanto quanto i benchmark
Il modello migliore non esiste. Esiste il modello giusto per il tuo task, e spesso costa meno di quello che vorrebbero venderti.