KI-ndervideos 2.0: Neue Version mit einem verbesserten System für deutlich bessere Ergebnisse

KI-ndervideos 2.0: Neue Version mit einem verbesserten System für deutlich bessere  Ergebnisse

Einleitung

Das Projekt  „KI-ndervideos“  hat in seiner ersten Version bereits eindrucksvoll gezeigt, wie die automatisierte Erstellung von Lerninhalten über eine KI-Pipeline aussehen kann. Für uns als neues Entwickler-Team bestand die Aufgabe nun nicht darin, die Grundidee neu zu erfinden. Unser Ziel war es, das bestehende Fundament auf ein neues Qualitätslevel zu heben.

Unser Fokus lag darauf, die veralteten Modelle auszutauschen. Das primäre Ziel der Version 2.0:

  1. Stilistische Konsistenz durch ein eigens trainiertes LoRA.
  2. Höhere physikalische Stabilität bei den Videoanimationen.
  3. Die Einführung von echten, kindgerechten Mitsing-Liedern (Jingles) sowie einer fließenden bilingualen Sprachausgabe.

Teil 1 - Modell-Evaluation und Auswahlprozess:

Um die bestmögliche Qualität für kindgerechte Inhalte zu erzielen, wurden für die qualitätskritischen Komponenten Modelle mit aktuellem SOTA-Status im Open-Source-Bereich ausgewählt. Die Vorauswahl stützte sich auf die Erfahrungswerte aus praxisnahen Reddit-Foren (u. a. r/StableDiffusion, r/LocalLLaMA). Die finale Evaluierung erfolgte durch vergleichende Tests in ComfyUI.

1. Bildgenerierung - FLUX.2-klein-9B vs. Z-Image Turbo:

Obwohl Z-Image Turbo extrem schnelle Inferenzzeiten bietet, fiel unsere Wahl auf FLUX.2-klein-9B. Es gilt im Open-Source-Bereich aktuell als eines der stärksten Modelle für Bilddetails.

  • Prompt Adherence: FLUX.2-klein-9B setzte komplexe Szenenbeschreibungen deutlich präziser um als Z-Image Turbo.
  • Eignung als LoRA-Basis: FLUX.2-klein-9B ist als vollwertiges Basismodell auf Fine-Tuning ausgelegt und bewahrt das vollständige Trainingssignal. Z-Image Turbo ist ein auf Geschwindigkeit destilliertes Turbo-Modell, das als Trainingsbasis für ein eigenes LoRA deutlich schlechter geeignet ist. Da unser Projekt auf unserer ChibiCuddle-LoRA aufbaut, war dies der entscheidende Faktor.
Flux.2-klein-9B Workflows in ComfyUI

2. Videogenerierung - LTX-2.3-22b vs. Wan 2.2:

Da unsere Pipeline auf statischen Bildern aufbaut, lag der Fokus auf der physikalischen Stabilität im Image-to-Video-Modus.

  • Bewegungskonsistenz: Während Wan 2.2 häufig Morphing-Effekte und Verzerrungen zeigte, lieferte LTX-2.3 (aktueller SOTA für Video-Transformer) deutlich stabilere, natürlichere Bewegungsabläufe.
  • Image Conditioning: LTX-2.3 bewahrte den Stil des FLUX-Startframes zuverlässig über die gesamte Clip-Dauer hinweg.

3. Audio & Jingles:

Klare Aufgabentrennung durch Spezialmodelle. Für die Audioproduktion nutzen wir drei getrennte, hochspezialisierte Modelle mit strikt definierten Einsatzbereichen:

  • Sprachführung & Erklärung (Qwen3-TTS-12Hz-1.7B-CustomVoice): Führt erzählend durch die Videos. Das Modell gehört zu den stärksten Open-Source-Lösungen für mehrsprachige Synthese (zehn Sprachen, darunter exzellentes Englisch und gutes Deutsch). Die natürliche Sprachmelodie ist essenziell, damit die Kinder den Inhalt optimal aufnehmen.
  • Gesungene Jingles (ACE-Step 1.5 XL — Turbo): Wird gezielt für unsere kindgerechten Mitsing-Jingles eingesetzt. Das Modell überzeugt durch klaren, verständlichen Gesang. Es ist eines der wenigen Open-Source-Modelle mit einer kindergerechten Stimme.
  • Hintergrundmusik (MusicGen-medium): Für die durchgehende, leise Instrumental-Untermalung (Intro-, Hintergrund- und Quiz-Musik) haben wir bewusst die bewährte Lösung der Vorversion beibehalten. Diese Spur liegt dauerhaft im Hintergrund, wird unter der Sprachausgabe stark abgesenkt und während der Jingles weggeblendet, ein SOTA-Upgrade bringt hier keinen hörbaren Mehrwert.

Architektur-Zusammenfassung (Version 2.0)

Komponente Gewähltes Modell Warum dieses Modell?
Bild black-forest-labs/FLUX.2-klein-9B Beste LoRA-Integration und präziseste Stil-Treue.
Video Lightricks/LTX-2.3 Höchste temporale Stabilität, minimale Artefakte (kein Morphing).
Sprache Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice Herausragende mehrsprachige Sprachmelodie (Intonation) für optimales kindliches Textverständnis.
Jingles/Gesang ACE-Step/acestep-v15-xl-turbo Synthese von klarem, kindgerechtem Gesang für die Mitsing-Jingles.
Hintergrundmusik facebook/musicgen-medium Bewusst aus Version 1 beibehalten. Leise, geduckte Instrumentalspur ohne SOTA-Bedarf.

Teil 2 - Stilistische Konsistenz durch LoRA-Training:

Im Vorgängerprojekt entstand der Bildstil rein prompt-getrieben und war dadurch nur grob steuerbar. Für Version 2.0 wollten wir die volle, gezielte Kontrolle über einen klar definierten Hausstil. Dazu wurde ein dediziertes LoRA (Low-Rank Adaptation) namens ChibiCuddle trainiert, das einen einheitlichen "Soft 3D Children Style" verbindlich durchsetzt, ausgelöst über das Trigger-Word ppstyle, das fest in jeden Bild-Prompt der Pipeline eingebaut ist.

Methodenwahl & Hardware: 

Für das Training wurden zwei führende Open-Source-Lösungen evaluiert: Das Ostris AI-Toolkit und OneTrainer. Unsere finale Wahl fiel auf OneTrainer, da dieser durch eine bis zu 2x höhere Trainingsgeschwindigkeit und spezialisierte VRAM-Optimierungen (8-Bit/FP8-Quantisierung) überzeugte.

OneTrainer ist mächtig, aber bekanntermaßen komplex: Die Vielzahl an Trainings-, Quantisierungs- und Optimizer-Optionen hat eine spürbare Einarbeitungskurve. Statt diese hier vollständig aufzuschlüsseln, verweisen wir auf das offizielle OneTrainer-Wiki, das alle Parameter dokumentiert.

Schrittweiser Datenaufbau (Bootstrapping): 

Der finale Datensatz von 36 Bildern wurde durch KI-generierte Daten in drei Schritten aufgebaut:

  1. Zunächst wurde ein synthetischer Basis-Datensatz mithilfe von Google Gemini (Gemini 3 Flash Image) generiert.
  2. Auf dieser Basis wurde ein initiales LoRA trainiert.
  3. Dieses Vorab-Modell wurde anschließend genutzt, um weitere, noch stilsicherere Bilder zu generieren. Diese Iteration garantierte absolute Kontrolle über die stilistischen Merkmale und schloss Urheberrechtsprobleme von Beginn an aus.

Technische Parameter:

  • Quantisierung: Einsatz von float8 (W8) für Transformer und Text Encoder 1. Dies reduzierte die Modellgröße massiv von ca. 18 GB auf 9 GB.
  • Optimale Konvergenz: Bei 1750 Iterationen (ca. 97 Epochen, Local Batch Size 2) bei einer VRAM-optimierten Auflösung von 512x512.
  • Parameter: Lernrate 3e-05 (CONSTANT Scheduler, 200 Warmup-Steps), aktiviertes Gradient Checkpointing und ein VAE in float32 für maximale Bildstabilität.

Das Ergebnis: Ein verbindlicher Hausstil

Die Wirkung des Trainings zeigt sich im direkten Vergleich bei identischem Prompt und identischem Seed. Ohne ChibiCuddle interpretiert FLUX.2-klein die Vorgabe generisch und flach. Der Look variiert je nach Motiv. Mit aktivem LoRA wird hingegen über alle Motive hinweg derselbe "Soft 3D Children Style" verbindlich durchgesetzt: rundere, freundlichere Proportionen, große, expressive Augen, rosige Wangen und einheitlich gestaltete, kindgerechte Szenen. Genau diese motivübergreifende Geschlossenheit, dass Ball, Hai und Banane denselben Charakter tragen, ist entscheidend, damit die Lernvideos als eine zusammengehörige Welt wahrgenommen werden.

 Links Bilder mit ChibiCuddle-LoRA, rechts ohne.

Teil 3 - Die Pipeline im Detail – Architektur & Code-Lösungen:

Die Integration dieser neuen SOTA-Modelle erforderte tiefgreifende architektonische Umbauten am bestehenden Code.

1. Der Image Generator (Der LoRA-Workaround): 

Die Integration unseres ChibiCuddle-LoRA in die diffusers-Pipeline war eine technische Hürde, da das Standard-Laden (load_lora_weights) für dieses Format fehlschlug. Wir mussten einen Workaround implementieren: Die Tensoren wurden programmatisch aus dem Safetensors-Format in das von Hugging Face erwartete PEFT-Format (lora_A / lora_B) übersetzt und inkompatible .alpha-Keys manuell herausgefiltert, bevor sie gefused werden konnten. 

Integration unser Custom-LoRA, erzwingt einen durchgehend einheitlichen 3D-Look.

2. Der Video Generator (Multi-GPU Isolierung & Idle-Animations):

 Ein häufiges Problem bei KI-Videos sind chaotische Bewegungen. Wir haben den Negative Prompt für LTX-2.3 stark optimiert (z. B. „fast motion, sudden movements“), um gezielt ruhige, pädagogisch sinnvolle Idle-Animationen zu erzwingen. Zudem ist die Videogenerierung extrem speicherintensiv. Um OOM-Abstürze zu verhindern, läuft der Video Generator nun gekapselt in einem eigenen Subprocess. Durch CUDA_VISIBLE_DEVICES="2" wird dieser strikt an eine dedizierte Grafikkarte gebunden, während Audio und Text auf GPU 0 verbleiben. 

Kapselung des Video Generators als isolierter Subprozess, für einen stabilen Ablauf

3. Der Music Generator (Audio-Tags für Jingles): 

Das alte System war auf simple Instrumental-Loops beschränkt. Neu sind die echten, von ACE-Step gesungenen Mitsing-Lieder (Jingles). Um sicherzustellen, dass die Modelle nicht halluzinieren, übergeben wir programmatisch streng validierte Audio-Tags (wie „120 bpm, 4/4 time signature, C major“). Dies fördert die Lernpsychologie, da die Jingles gezielt per Sandwich-Methode als kognitive Pausen zwischen den Lernblöcken eingesetzt werden. 

Durch detaillierte Modell-Parameter und Audio-Tags werden die musikalischen Eigenschaften jedes Jingles präzise gesteuert.

4. Der Audio Generator (Bilinguales TTS-Sanitizing): 

Statt des alten hybriden Ansatzes nutzt Version 2.0 das Qwen3-TTS Modell. Durch feste Voice-Profile ("Aiden" für Englisch, "Sohee" für Deutsch) erreichen wir eine saubere Sprachtrennung. Um Modell-Halluzinationen (z.B. durch Ellipsen) vorzubeugen, durchlaufen alle Skripte nun zwingend einen eigens geschriebenen Sanitizer. 

Normalisiert die Skripte, lädt Qwen3‑TTS‑CustomVoice und erzeugt bilinguales Audio mit fest zugeordneten Voice‑Profilen (Englisch/Deutsch).
Durch Normalisierung von Satzzeichen/Leerzeichen bzw. Erzwingen eines Satz‑Endtokens werden Halluzinationen vor der Übergabe an die TTS‑Synthese verhindert.

5. Der Movie Generator (Audio Ducking): 

Der Movie Generator wurde um Audio Ducking erweitert. Die generierte Hintergrundmusik wird algorithmisch berechnet und exakt an den Stellen weich ausgeblendet (Fade-Out), an denen die gesungenen ACE-Step Jingles starten, und danach wieder eingeblendet (Fade-In).

Die Hintergrundmusik wird zugunsten der Kinder-Jingles reduziert

Fazit und Ausblick

Das Projekt „KI-ndervideos 2.0“ beweist eindrucksvoll, dass die vollautomatisierte Produktion von hochwertigen Lernvideos durch den orchestrierten Einsatz von State-of-the-Art KI-Modellen möglich ist. Der Wechsel auf moderne Architekturen wie FLUX.2, LTX-2.3 und Qwen3-TTS hat die visuelle und auditive Qualität im Vergleich zur Vorversion signifikant gesteigert. Besonders die Integration von ACE-Step zur Generierung echter, themenbezogener Kinderlieder bietet einen enormen pädagogischen Mehrwert, der die auditive Lernmotivation fördert.

Auch auf architektonischer Ebene wurde das System durch die saubere Kapselung der Ressourcen, insbesondere durch striktes Multi-GPU-Handling und isoliertes Cache-Management, für einen stabilen Server-Betrieb optimiert. Insgesamt demonstriert dieses Projekt als voll funktionsfähiges Artefakt, wie generative KI in der modernen Bildungstechnologie (EdTech) eingesetzt werden kann, um personalisiertes Lernen qualitativ hochwertig und skalierbar zu machen.


Quellcode dieses Projektes

ChibiCuddles LoRa

Autoren:

Emilio Vullo: https://github.com/EmilioVullo

Adrian Berisha: https://github.com/alb-0802