Happy Horse Generator auf Basis von Happy Horse 1.0 ist ein Open-Source-KI-Videomodell für Text-zu-Video und Bild-zu-Video und vereint synchronisiertes Audio, physikalische Realitätsnähe und mehrsprachigen Lip-Sync in einem System.
Basierend auf Tausenden menschlich bewerteten Blindvergleichen in der Artificial Analysis Video Arena führt Happy Horse 1.0 die globalen Rankings für Bildqualität, physikalische Realitätsnähe und Prompt-Treue sowohl bei Text-zu-Video als auch Bild-zu-Video an.
Happy Horse 1.0 wurde Anfang 2026 veröffentlicht und basiert auf einer 40-lagigen Self-Attention-Transformer-Architektur.
Die Veröffentlichung ist vollständig Open Source und kommerziell nutzbar. Sie umfasst das Basismodell, das 8-Schritt-Destillationsmodell, unser proprietäres Super-Resolution-Modul sowie optimierten Inferenzcode für native On-Prem-Infrastruktur.
Ein 40-lagiges Self-Attention-Netzwerk mit robustem Single-Stream-Processing und Kopf-spezifischem Gating für hochstabile Skalierung im Training.
Erzeugt Dialog, Umgebungsgeräusche und Foley nativ zusammen mit den Videoframes, ganz ohne zusätzlichen Post-Production-Schritt.
Reduziert die Anzahl der Denoising-Schritte drastisch ohne CFG und beschleunigt die Generierung mit der MagiCompiler-Laufzeit um bis zu das 10-Fache.
Unterstützt nativ 7 Sprachen (EN, ZH, JP, KO, DE, FR) und erzielt in offenen Arenen branchenführende Word-Error-Rate-Werte.
Erzeugt 5 bis 8 Sekunden lange hochwertige Clips, skaliert nativ auf 1080p und unterstützt gängige Formate wie 16:9 und 9:16.
Ein permissives Open-Source-Modell für den Inhouse-Betrieb, dessen transparenter Code Datenschutz und Kontrolle für Unternehmen unterstützt.
Die Codebasis und Modellgewichte von Happy Horse 1.0 befinden sich derzeit in der finalen Bereitstellungsvorbereitung.
FP8-Quantisierungsziele, destillierte Checkpoints und die öffentliche Dokumentation werden für die erste offene Veröffentlichung finalisiert.