SL
Skeptik Log
skeptik-log

Sulphur 2 e 10Eros: i due modelli open source che spingono il video AI oltre i limiti

Autore: Skeptik Log

Sulphur 2 è un modello di video generation completamente uncensored basato su LTX 2.3. Insieme a 10Eros, una variante ottimizzata per la generazione image-to-video, formano la coppia più interessante del momento per chi vuole generare video AI senza filtri e senza cloud.

Nota: Le sezioni evidenziate in blu sono integrazioni di ricerca autonome non presenti nella fonte originale.

Perché dovresti interessarti

Se il video generativo ti interessa anche solo un po’, questo è uno di quei momenti in cui vale la pena mettere giù il telefono e dare un’occhiata. Non perché sia arrivato il modello definitivo, ma perché qualcosa nel panorama open source sta cambiando direzione.

Fino a ieri il mondo del video AI si divideva in due: da una parte i giganti closed (Sora, Veo, Runway), dall’altra WAN 2.2, il punto di riferimento open source per qualità visiva. LTX 2.3 aveva già provato a competere su un altro campo: velocità e audio nativo. Ma era un modello castrato dai filtri di sicurezza imposti da Lightricks.

Ora due progetti indipendenti hanno preso LTX 2.3 e lo hanno sbloccato. Sulphur 2 elimina ogni censura. 10Eros lo ottimizza per l’image-to-video, il caso d’uso più pratico per chi crea contenuti. Non sono modelli nuovi. Sono la stessa base, finalmente usabile come si deve.

Cosa sono esattamente

Sulphur 2 è un fine-tune uncensored di LTX 2.3, sviluppato da FusionCow e un piccolo team di collaboratori. È un modello text-to-video da 9 miliardi di parametri, basato su architettura Qwen 3.5, che genera video con audio sincronizzato fino a 20 secondi. Il punto centrale: nessun filtro di contenuto. Qualsiasi prompt, qualsiasi soggetto, qualsiasi scena. Il modello genera e basta.

LTX 2.3 è l’ultima versione del modello open-weight di Lightricks, rilasciata ad aprile 2026. Rispetto a LTX 2.2, introduce un nuovo VAE (Variational Autoencoder) che migliora la nitidezza dei dettagli, un text encoder quadruplicato per una migliore aderenza ai prompt, supporto nativo per il portrait 9:16, opzioni 24/48 FPS, e upscaler spaziali e temporali. Supporta text-to-video, image-to-video, audio-to-video e video extension, tutto in un unico modello. Il punto di forza principale è la velocità: su hardware comparabile, LTX 2.3 è circa 18 volte più veloce di WAN 2.2. Un video che WAN genera in 15-18 minuti, LTX lo completa in 1-2 minuti.

10Eros è il secondo protagonista di questa release. Creato da TenStrip, è un merge specializzato di Sulphur 2 ottimizzato specificamente per l’image-to-video. Non è un semplice mix di pesi: usa un layer-scaled merge di diversi step di training, una tecnica che preserva meglio la qualità rispetto ai LoRA tradizionali. L’obiettivo dichiarato è l’I2V di alta qualità, con un’enfasi particolare sul rispetto del prompt e sulla coerenza temporale.

TenStrip è lo stesso sviluppatore che aveva già lavorato su esperimenti con LoRA distillate per LTX, creando versioni “cond_safe” che non degradano il fine-tuning del modello base. Con 10Eros ha fatto un passo oltre: invece di caricare un LoRA sopra il modello, ha fuso direttamente i pesi per ottenere un comportamento più stabile. Il modello richiede prompt enhancement esplicito: LTX ha poca capacità di ragionamento autonomo sul prompt, quindi bisogna descrivere nel dettaglio ogni movimento, evoluzione della scena, dialogo e audio. Se non glielo chiedi, non lo fa. È una caratteristica architetturale di LTX, non un bug.

Perché “uncensored” è più importante di quanto sembri

Il termine “uncensored” nel mondo AI viene spesso associato a contenuti NSFW. Ma qui la questione è più ampia e più tecnica.

I modelli video commerciali applicano filtri di sicurezza a più livelli: sul prompt in ingresso (rifiutano certe parole), sulla generazione intermedia (bloccano la diffusion se rilevano pattern “sensibili”), e sull’output finale (oscurano o rifiutano il video). LTX 2.3 originale includeva questi strati di moderazione, che in pratica limitavano non solo i contenuti espliciti ma anche scene di violenza stilizzata, body horror, contesti medici, o semplicemente soggetti che l’AI interpretava come borderline. Per un creatore che vuole generare un video horror, una scena di combattimento, o un documentario medico, questi filtri sono un ostacolo reale.

Sulphur 2 rimuove ogni livello di moderazione. Il risultato è un modello che risponde esattamente al prompt, senza rifiuti, senza blur, senza “mi dispiace, non posso generare questo contenuto”. Per chi fa ricerca, per chi crea contenuti di nicchia, per chi semplicemente non vuole che un’azienda decida cosa può o non può generare, è una differenza sostanziale.

La pratica: cosa ti serve per provarli

Prova tu

Sulphur 2

  • Download: SulphurAI/Sulphur-2-base su HuggingFace
  • Formato: BF16 (9.53 GB) o GGUF quantizzato
  • ComfyUI: nodi LTXVideo aggiornati
  • VRAM consigliata: 12+ GB per FP8, 16+ GB per BF16
  • Prompt enhancer incluso (mmproj + modello q8_0)

10Eros I2V

Per chi vuole approfondire

Da qui in poi si entra nel tecnico. Se ti interessa l’idea più dell’implementazione, puoi saltare direttamente alla conclusione.

L’architettura LTX 2.3

LTX 2.3 è un Diffusion Transformer (DiT) da 22 miliardi di parametri totali, con Sulphur 2 che ne usa una versione da 9B (la variante base Qwen 3.5). A differenza di WAN 2.2 che usa un’architettura Mixture-of-Experts, LTX adotta un approccio a transformer latente più tradizionale, che spiega il gap di velocità.

Il nuovo VAE di LTX 2.3 è il miglioramento architetturale più significativo. Rispetto alla versione precedente, comprime meglio i dettagli fini nello spazio latente, riducendo artefatti come zip che si sciolgono, volti che si deformano, o texture che “galleggiano” sugli oggetti. Non è un cambiamento vistoso: è l’assenza di piccoli fastidi visivi che prima erano inevitabili.

Il text encoder è stato quadruplicato rispetto a LTX 2.2. Questo significa che il modello capisce prompt molto più complessi e sfumati. Resta però vero che LTX ha poca capacità di “ragionamento” autonomo sul prompt: va guidato con descrizioni dettagliate e strutturate. TenStrip fornisce template specifici per il prompt enhancement, inclusi prompt engineering per scene con dialogo, audio diegetico, e Foley.

Sulphur 2 vs 10Eros: quando usare cosa

Caratteristica Sulphur 2 10Eros
Focus Text-to-Video generale Image-to-Video ottimizzato
Censura Nessuna Nessuna
Prompt enhancement Consigliato Obbligatorio
VRAM (FP8) ~12 GB ~12 GB
VRAM (BF16) ~16 GB ~16 GB
Audio nativo
Durata max 20 sec 20 sec
LoRA compatibili Sì (con cautela) Solo cond_safe

La scelta tra i due dipende dal workflow. Se parti da zero con un prompt testuale, Sulphur 2 è la scelta naturale. Se hai un’immagine di partenza (un frame, un render, una foto) e vuoi animarla, 10Eros è superiore grazie al merge ottimizzato. In pratica molti creator usano entrambi: generano un primo frame con un modello di image generation (Flux, SDXL) e poi lo animano con 10Eros.

Il panorama open source del video AI

Oggi, maggio 2026, il panorama dei modelli video open source si è polarizzato su due contendenti principali:

Modello Parametri Velocità Audio Durata max Punto forte
LTX 2.3 22B totali ⚡ 18x vs WAN Nativo 20 sec Velocità + audio
WAN 2.2 14B MoE 🐢 No 5 sec (estendibile) Qualità cinematografica
Sulphur 2 9B Nativo 20 sec Uncensored T2V
10Eros 9B Nativo 20 sec Uncensored I2V

WAN 2.2 rimane il riferimento per la qualità visiva pura, specialmente su movimento cinematografico e coerenza dei soggetti. Ma genera video di soli 5 secondi (estendibili con tricks), non ha audio nativo, ed è molto più lento. LTX 2.3 e i suoi derivati come Sulphur 2 vincono su velocità, durata, e audio. La strategia ottimale che molti stanno adottando: prototipazione rapida con LTX/Sulphur, raffinamento finale con WAN 2.2.

Fuori dall’open source, i modelli commerciali (Sora 2, Veo 3.1, Kling 3.0) offrono qualità superiore, 4K nativo, e multi-shot storytelling, ma a costi che vanno da $0.10 a $0.50 al secondo di video generato.

Il punto

Punti chiave:

  • Sulphur 2 sblocca LTX 2.3 rimuovendo ogni censura: genera qualsiasi contenuto senza filtri
  • 10Eros è la variante ottimizzata per image-to-video, con merge avanzato dei pesi
  • LTX 2.3 resta ~18x più veloce di WAN 2.2, con audio nativo e video fino a 20 secondi
  • Il panorama video AI open source ora ha una reale alternativa uncensored

Non siamo al punto in cui un modello open source genera video migliori di Veo 3 o Sora 2. Ma siamo al punto in cui puoi generare esattamente quello che vuoi, senza che nessuno decida per te cosa è accettabile. E questa è una differenza che va oltre la qualità visiva.

Risorse

skeptik-log Autore: Skeptik Log