Video-Generierung

Use Case · Nachfragetreiber

Video-Generierung

Text-zu-Video und Bild-zu-Video sind der rechen- und speicherintensivste Generativ-Use-Case. Für die These zählt vor allem: Video ist ein Storage-Monster — sowohl bei den Trainingsdaten als auch beim erzeugten Output — und treibt zusätzlich erhebliche Inferenz-Last auf den Beschleunigern. Die strukturelle Achse für die Speicher-These ist hier NAND (Flash-Speicher, der dichte nichtflüchtige Massenspeicher hinter Datacenter-SSDs), nicht HBM (High Bandwidth Memory, gestapelter Hochgeschwindigkeitsspeicher direkt am Beschleuniger).

Profil: Storage-geführt Reifegrad: früh, schnelle Entwicklung Last v. a. im Datacenter IP-Intensität: hoch Stand: 2026-05-21

Bedarfssignatur

DimensionBedarfKurzbegründung
HBM (High Bandwidth Memory, Beschleuniger)MDiffusions-/Transformer-Modelle (siehe Was es ist) für Video sind groß, aber die KV-Cache-Dynamik (Key-Value-Cache, der bei Sprach-LLMs mit der Kontextlänge wächst) der Sprach-LLMs fehlt; Speicherdruck v. a. durch Auflösung × Bildanzahl.
DRAM (Dynamic Random Access Memory, Server-Arbeitsspeicher)MPre-/Post-Processing-Pipelines und Frame-Puffer, aber keine riesigen Embedding-Tabellen.
NAND / StorageHNAND (Flash-Speicher) trägt Trainings-Videokorpora (Petabyte-Größenordnung) und laufend erzeugte, große Output-Dateien. Engpass: niedrigNAND/SSD ist breit verfügbar, kein struktureller Flaschenhals wie HBM.
Compute (Kontext)HZeitdimension: Kosten skalieren mit Sekunden × Auflösung × Framerate (fps, Frames per Second / Bilder pro Sekunde) — pro Ausgabe-Sekunde sehr teuer.

Was es ist & Reifegrad

Generierung bewegter Bilder aus Text-Prompts, Standbildern oder vorhandenem Videomaterial. Anwendungen: Marketing-/Social-Clips, Pre-Visualisierung in Film/Werbung, Produkt- und Erklärvideos, perspektivisch Stock-Footage-Ersatz.

Architektur (technischer Kontext): Die führenden Video-Modelle sind Diffusionsmodelle (Diffusionsmodell — ein Generator, der aus Rauschen schrittweise ein Bild/Video „herausfiltert") mit Transformer-Rückgrat (Transformer — neuronale Architektur mit Aufmerksamkeitsmechanismus, Grundlage moderner Generativmodelle), oft „Diffusion Transformer" genannt. Sie arbeiten meist im Latent Space (latenter Raum — eine komprimierte numerische Repräsentation, in der das Modell rechnet statt auf rohen Pixeln), erzeugt und zurückübersetzt durch einen VAE (Variational Autoencoder, ein lernender Encoder/Decoder zwischen Pixeln und Latent Space). Der erzeugte Latent-Tensor wird zu Frames dekodiert und am Ende über einen Codec (Coder-Decoder, Kompressionsverfahren wie H.264/H.265) in eine Videodatei verpackt. Die Token-Logik (Token — kleinste Verarbeitungseinheit; bei Video Raum-Zeit-Patches statt Wörter) entscheidet mit über Speicher- und Compute-Last: mehr Raum-Zeit-Token = mehr Auflösung × Bildanzahl = mehr Last.

IP-Intensität (Einschätzung): hoch — der Burggraben der Modell-Anbieter beruht auf proprietären Architekturen, kuratierten Trainingskorpora, Rechenskalierung und Trainings-Know-how. Für die Speicher-These ist das eine Eigenschaft der Modell-Ebene, nicht der Speicher-Hardware: NAND-/DRAM-Standardspeicher bleibt Commodity (IP-Intensität: niedrig), während der differenzierte Beschleuniger- und HBM-Teil bei den Hardware-Akteuren liegt.

Reifegrad (Einschätzung): früh, aber mit hoher Entwicklungsgeschwindigkeit. Clip-Länge, zeitliche Konsistenz, Auflösung (Pixel-Raster wie 1080p/4K) und Steuerbarkeit verbessern sich schnell; die Stückkosten je Sekunde sinken, bleiben aber hoch im Vergleich zu Text/Bild. Produktionsreife für längere, kohärente Sequenzen ist noch nicht durchgängig erreicht.

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

  • Modelllandschaft: Mehrere Text-zu-Video-Modellfamilien konkurrieren — u. a. Sora (OpenAI), Veo (Google DeepMind), Runway sowie Kling (Kuaishou). Das sind Modell-/SaaS-Anbieter ohne eigenen Hardware-/Halbleiter-Dossier-Anspruch und werden daher hier nicht als fehlendes Dossier markiert. Konkrete Versionen/Fähigkeiten beim Review nachtragen. (Sekundärinfo, Anbieter-Seiten verlinkt.)
  • Fähigkeits-Frontier: Trend zu längeren Clips, höherer Auflösung, besserer zeitlicher Konsistenz und Audio-Synchronität.
  • Adoption: Wächst in Marketing/Social; Stückkosten und Rechtefragen (Trainingsdaten) sind die Bremsen. Adoptionsgrad mit harten Zahlen noch zu belegen — bislang nur Sekundär-Marktreports (siehe Kennzahlen).
  • Hardware-Seite: Training und Generierung laufen auf Datacenter-Beschleunigern — überwiegend GPUs von Nvidia (siehe Teilmarkt Chip-Fertigung). Der Storage-Unterbau (NAND/SSD) speist die Arbeitsspeicher-These auf der Flash-Seite.
  • Kostenrichtung: $/Sekunde generiertes Video sinkt, ist aber Größenordnungen über $/Bild — was die Compute- und Storage-Last je Nutzungseinheit hoch hält.

Aussagen hier sind aktuell Einschätzungen/Sekundärinfos. Vor Verwendung in der These mit Primär-/belastbaren Quellen härten.

Treiber-Mechanik → Hardware

Warum Video gerade Storage (und Compute) zieht:

Storage (NAND) — der Kerntreiber

  • Trainingsdaten: Videokorpora sind je Stunde Material um Größenordnungen größer als Text-/Bilddaten → Petabyte-Datenseen.
  • Output: Jede erzeugte Sekunde produziert eine relativ große Datei; bei Massennutzung wächst der Bestand schnell (Größenordnung siehe Diagramm unten).
  • Pipeline-Artefakte: Zwischenframes, mehrere Auflösungen/Varianten, Caches.
  • Investment-Brücke: Der Nutznießer ist die NAND-/Flash-Seite — Kioxia, SanDisk und die NAND-Sparte von Micron — weniger die reinen DRAM-Häuser.

Speicher (HBM/DRAM)

  • HBM: Modellgewichte plus die Zwischenrepräsentation über viele Frames; Druck steigt mit Auflösung × Frameanzahl, nicht mit Kontextlänge wie bei Sprach-LLMs. HBM ist die knappe Ressource — geliefert v. a. von SK Hynix, Samsung und Micron. Engpass: hoch
  • DRAM: Frame-Puffer, En-/Decoding und Pipeline-Staging.

Storage je Minute generiertem Video nach Auflösung

Zeitraum: Stand 2026 · Einheit: Megabyte (MB) je Minute fertiges Video · Annahme: 30 fps, SDR, H.264-Codec, YouTube-empfohlene Upload-Bitraten; Rechnung MB/min = Mbps × 60 / 8. Illustrative Ingenieur-Rechnung, keine Modell-spezifische Messung — zeigt die Größenordnung, in der Auflösung das Output-Volumen treibt.

1080p
~60 MB
1440p (2K)
~120 MB
2160p (4K)
~300 MB

Quelle: YouTube — empfohlene Upload-Encoding-Einstellungen (Bitraten je Auflösung, SDR, 30 fps). Rohdaten: assets/data/video-storage-je-minute.csv. 4K als Mittelwert der empfohlenen 35–45 Mbps. Generative Modelle erzeugen Frames; das Ausgabevolumen hängt zusätzlich von Codec, Bildrate und Bewegungskomplexität ab — die Werte sind Größenordnungs-Anker, keine Obergrenze.

Übersetzung in die These: Video ist primär ein NAND/Storage-Treiber (Trainingsseen + Medien-Output) und ein Compute-Treiber; für HBM/DRAM moderat. Es stützt also stärker die Storage-Seite als die HBM-Seite der Memory-These.

Kennzahlen

Quantitative Anker — vor Eintrag belegen (Quelle, Zeitraum, Einheit, reported/geschätzt).

KennzahlWertZeitraumQuelle
Marktgröße AI-Video-Generator (2030, Prognose)~1,96–2,34 Mrd. USD (Sekundär-Spanne)2030eGrand View Research · MarkNtel Advisors
Wachstum (CAGR, bis 2030)~12,8–32,8 % (je Quelle; weite Spanne)2025–2030eResearch and Markets · MarkNtel
Storage je Minute Output (1080p)~60 MBStand 2026YouTube-Bitratenempfehlung (8 Mbps, 30 fps, H.264; eigene Rechnung)
Storage je Minute Output (4K/2160p)~300 MBStand 2026YouTube-Bitratenempfehlung (35–45 Mbps, 30 fps, H.264; eigene Rechnung)
Storage je Stunde Trainingsvideok. A.k. A.Recherche ausstehend
$ je Sekunde generiertes Videok. A.k. A.Recherche ausstehend
HBM je Modellklassek. A.k. A.Recherche ausstehend

Marktgröße/CAGR sind Sekundär-Schätzungen mit auffällig weiter Spanne (Methodik/Marktabgrenzung der Häuser unterscheiden sich stark) — nur als grober Richtungsanker zu lesen, vor These-Verwendung gegen Primärquellen härten. Die Storage-MB-Werte sind eigene Rechnung aus Codec-Bitraten (siehe Diagramm oben). Übrige Zeilen Platzhalter — belegte Rohdaten nach assets/data/ legen und mit dieser Tabelle synchron halten.

Edge vs. Datacenter

Vollständig Datacenter: sowohl Training als auch Inferenz (Generierung) laufen auf Beschleunigern im Rechenzentrum. Kein nennenswerter Edge-Anteil. Damit zählt Video voll für Datacenter-Compute und -Storage.

Bedeutung für die Speicher-/Storage-These

Video ist der klarste Storage-Wachstumstreiber unter den Generativ-Use-Cases (NAND, Datacenter-SSD) und ein starker Compute-Treiber. Im Teilmarkt Arbeitsspeicher begünstigt das vor allem die NAND-/Flash-Seite — Kioxia, SanDisk und die NAND-Sparte von Micron. Für die reine HBM/DRAM-These (HBM-Häuser SK Hynix und Samsung) ist der Beitrag moderat. Wenn Video-Adoption breit hochläuft, ist der erste Effekt auf der NAND-/Storage-Seite zu erwarten. Das speicher-leichtere Pendant ist Bild-Generierung; der Compute-/Beschleuniger-Unterbau läuft über das Data-Center.

Beobachten / offene Fragen

  • Stückkosten je Sekunde Video und ihr Verlauf — entscheidend für Massen-Adoption und damit Storage-Volumen.
  • Verhältnis Trainings-Storage zu Output-Storage über die Zeit.
  • Welche Plattformen Video-Generierung in großem Maßstab in Produkte einbauen (Social, Werbung).
  • Rechte-/Lizenzfragen bei Trainingsvideos als möglicher Adoptions-Bremser.

Quellen & Update-Log

Quellen mit klickbaren Links (Primär- vor Sekundärquellen). Marktzahlen sind Sekundär-Schätzungen mit weiter Spanne; Storage-Größenordnungen sind eigene Rechnung aus Codec-Bitraten.

QuelleTypVerwendet für
YouTube — empfohlene Upload-Encoding-EinstellungenPrimär (Plattform-Doku)Bitraten je Auflösung → Storage je Minute Output (Diagramm, Kennzahlen)
Grand View Research — AI Video Generator MarketSekundär (Marktreport)Marktgröße 2030, CAGR-Spanne
MarkNtel Advisors — AI Video Generator MarketSekundär (Marktreport)Marktgröße 2030, CAGR-Spanne
Research and Markets — AI Video Generator ForecastsSekundär (Marktreport)CAGR-Untergrenze der Spanne
OpenAI Sora, Google Veo, Runway, KlingPrimär (Anbieter)Modelllandschaft (Stand der Dinge)

Update-Log

DatumÄnderung
2026-05-21Strukturelle Verfeinerung: Akronyme inline aufgelöst (Diffusion/Transformer/Latent Space/VAE/Codec/Token/fps/HBM/DRAM/NAND), Querverweise auf NAND-/HBM-Häuser und Data-Center/Nvidia gesetzt, Engpass- und IP-Intensitäts-Pills ergänzt, Storage-je-Minute-Balkendiagramm + CSV, Markt-/Storage-Kennzahlen mit Quellen befüllt, Quellenapparat angelegt.
2026-05-20Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).