Use Case · Nachfragetreiber
Video-Generierung
Text-zu-Video und Bild-zu-Video sind der rechen- und speicherintensivste Generativ-Use-Case. Für die These zählt vor allem: Video ist ein Storage-Monster — sowohl bei den Trainingsdaten als auch beim erzeugten Output — und treibt zusätzlich erhebliche Inferenz-Last auf den Beschleunigern. Die strukturelle Achse für die Speicher-These ist hier NAND (Flash-Speicher, der dichte nichtflüchtige Massenspeicher hinter Datacenter-SSDs), nicht HBM (High Bandwidth Memory, gestapelter Hochgeschwindigkeitsspeicher direkt am Beschleuniger).
Bedarfssignatur
| Dimension | Bedarf | Kurzbegründung |
|---|---|---|
| HBM (High Bandwidth Memory, Beschleuniger) | M | Diffusions-/Transformer-Modelle (siehe Was es ist) für Video sind groß, aber die KV-Cache-Dynamik (Key-Value-Cache, der bei Sprach-LLMs mit der Kontextlänge wächst) der Sprach-LLMs fehlt; Speicherdruck v. a. durch Auflösung × Bildanzahl. |
| DRAM (Dynamic Random Access Memory, Server-Arbeitsspeicher) | M | Pre-/Post-Processing-Pipelines und Frame-Puffer, aber keine riesigen Embedding-Tabellen. |
| NAND / Storage | H | NAND (Flash-Speicher) trägt Trainings-Videokorpora (Petabyte-Größenordnung) und laufend erzeugte, große Output-Dateien. Engpass: niedrig — NAND/SSD ist breit verfügbar, kein struktureller Flaschenhals wie HBM. |
| Compute (Kontext) | H | Zeitdimension: Kosten skalieren mit Sekunden × Auflösung × Framerate (fps, Frames per Second / Bilder pro Sekunde) — pro Ausgabe-Sekunde sehr teuer. |
Was es ist & Reifegrad
Generierung bewegter Bilder aus Text-Prompts, Standbildern oder vorhandenem Videomaterial. Anwendungen: Marketing-/Social-Clips, Pre-Visualisierung in Film/Werbung, Produkt- und Erklärvideos, perspektivisch Stock-Footage-Ersatz.
Architektur (technischer Kontext): Die führenden Video-Modelle sind Diffusionsmodelle (Diffusionsmodell — ein Generator, der aus Rauschen schrittweise ein Bild/Video „herausfiltert") mit Transformer-Rückgrat (Transformer — neuronale Architektur mit Aufmerksamkeitsmechanismus, Grundlage moderner Generativmodelle), oft „Diffusion Transformer" genannt. Sie arbeiten meist im Latent Space (latenter Raum — eine komprimierte numerische Repräsentation, in der das Modell rechnet statt auf rohen Pixeln), erzeugt und zurückübersetzt durch einen VAE (Variational Autoencoder, ein lernender Encoder/Decoder zwischen Pixeln und Latent Space). Der erzeugte Latent-Tensor wird zu Frames dekodiert und am Ende über einen Codec (Coder-Decoder, Kompressionsverfahren wie H.264/H.265) in eine Videodatei verpackt. Die Token-Logik (Token — kleinste Verarbeitungseinheit; bei Video Raum-Zeit-Patches statt Wörter) entscheidet mit über Speicher- und Compute-Last: mehr Raum-Zeit-Token = mehr Auflösung × Bildanzahl = mehr Last.
IP-Intensität (Einschätzung): hoch — der Burggraben der Modell-Anbieter beruht auf proprietären Architekturen, kuratierten Trainingskorpora, Rechenskalierung und Trainings-Know-how. Für die Speicher-These ist das eine Eigenschaft der Modell-Ebene, nicht der Speicher-Hardware: NAND-/DRAM-Standardspeicher bleibt Commodity (IP-Intensität: niedrig), während der differenzierte Beschleuniger- und HBM-Teil bei den Hardware-Akteuren liegt.
Reifegrad (Einschätzung): früh, aber mit hoher Entwicklungsgeschwindigkeit. Clip-Länge, zeitliche Konsistenz, Auflösung (Pixel-Raster wie 1080p/4K) und Steuerbarkeit verbessern sich schnell; die Stückkosten je Sekunde sinken, bleiben aber hoch im Vergleich zu Text/Bild. Produktionsreife für längere, kohärente Sequenzen ist noch nicht durchgängig erreicht.
Stand der Dinge / Dynamik
Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.
- Modelllandschaft: Mehrere Text-zu-Video-Modellfamilien konkurrieren — u. a. Sora (OpenAI), Veo (Google DeepMind), Runway sowie Kling (Kuaishou). Das sind Modell-/SaaS-Anbieter ohne eigenen Hardware-/Halbleiter-Dossier-Anspruch und werden daher hier nicht als fehlendes Dossier markiert. Konkrete Versionen/Fähigkeiten beim Review nachtragen. (Sekundärinfo, Anbieter-Seiten verlinkt.)
- Fähigkeits-Frontier: Trend zu längeren Clips, höherer Auflösung, besserer zeitlicher Konsistenz und Audio-Synchronität.
- Adoption: Wächst in Marketing/Social; Stückkosten und Rechtefragen (Trainingsdaten) sind die Bremsen. Adoptionsgrad mit harten Zahlen noch zu belegen — bislang nur Sekundär-Marktreports (siehe Kennzahlen).
- Hardware-Seite: Training und Generierung laufen auf Datacenter-Beschleunigern — überwiegend GPUs von Nvidia (siehe Teilmarkt Chip-Fertigung). Der Storage-Unterbau (NAND/SSD) speist die Arbeitsspeicher-These auf der Flash-Seite.
- Kostenrichtung: $/Sekunde generiertes Video sinkt, ist aber Größenordnungen über $/Bild — was die Compute- und Storage-Last je Nutzungseinheit hoch hält.
Aussagen hier sind aktuell Einschätzungen/Sekundärinfos. Vor Verwendung in der These mit Primär-/belastbaren Quellen härten.
Treiber-Mechanik → Hardware
Warum Video gerade Storage (und Compute) zieht:
Storage (NAND) — der Kerntreiber
- Trainingsdaten: Videokorpora sind je Stunde Material um Größenordnungen größer als Text-/Bilddaten → Petabyte-Datenseen.
- Output: Jede erzeugte Sekunde produziert eine relativ große Datei; bei Massennutzung wächst der Bestand schnell (Größenordnung siehe Diagramm unten).
- Pipeline-Artefakte: Zwischenframes, mehrere Auflösungen/Varianten, Caches.
- Investment-Brücke: Der Nutznießer ist die NAND-/Flash-Seite — Kioxia, SanDisk und die NAND-Sparte von Micron — weniger die reinen DRAM-Häuser.
Speicher (HBM/DRAM)
- HBM: Modellgewichte plus die Zwischenrepräsentation über viele Frames; Druck steigt mit Auflösung × Frameanzahl, nicht mit Kontextlänge wie bei Sprach-LLMs. HBM ist die knappe Ressource — geliefert v. a. von SK Hynix, Samsung und Micron. Engpass: hoch
- DRAM: Frame-Puffer, En-/Decoding und Pipeline-Staging.
Storage je Minute generiertem Video nach Auflösung
Zeitraum: Stand 2026 · Einheit: Megabyte (MB) je Minute fertiges Video · Annahme: 30 fps, SDR, H.264-Codec, YouTube-empfohlene Upload-Bitraten; Rechnung MB/min = Mbps × 60 / 8. Illustrative Ingenieur-Rechnung, keine Modell-spezifische Messung — zeigt die Größenordnung, in der Auflösung das Output-Volumen treibt.
Quelle: YouTube — empfohlene Upload-Encoding-Einstellungen (Bitraten je Auflösung, SDR, 30 fps). Rohdaten: assets/data/video-storage-je-minute.csv. 4K als Mittelwert der empfohlenen 35–45 Mbps. Generative Modelle erzeugen Frames; das Ausgabevolumen hängt zusätzlich von Codec, Bildrate und Bewegungskomplexität ab — die Werte sind Größenordnungs-Anker, keine Obergrenze.
Kennzahlen
Quantitative Anker — vor Eintrag belegen (Quelle, Zeitraum, Einheit, reported/geschätzt).
| Kennzahl | Wert | Zeitraum | Quelle |
|---|---|---|---|
| Marktgröße AI-Video-Generator (2030, Prognose) | ~1,96–2,34 Mrd. USD (Sekundär-Spanne) | 2030e | Grand View Research · MarkNtel Advisors |
| Wachstum (CAGR, bis 2030) | ~12,8–32,8 % (je Quelle; weite Spanne) | 2025–2030e | Research and Markets · MarkNtel |
| Storage je Minute Output (1080p) | ~60 MB | Stand 2026 | YouTube-Bitratenempfehlung (8 Mbps, 30 fps, H.264; eigene Rechnung) |
| Storage je Minute Output (4K/2160p) | ~300 MB | Stand 2026 | YouTube-Bitratenempfehlung (35–45 Mbps, 30 fps, H.264; eigene Rechnung) |
| Storage je Stunde Trainingsvideo | k. A. | k. A. | Recherche ausstehend |
| $ je Sekunde generiertes Video | k. A. | k. A. | Recherche ausstehend |
| HBM je Modellklasse | k. A. | k. A. | Recherche ausstehend |
Marktgröße/CAGR sind Sekundär-Schätzungen mit auffällig weiter Spanne (Methodik/Marktabgrenzung der Häuser unterscheiden sich stark) — nur als grober Richtungsanker zu lesen, vor These-Verwendung gegen Primärquellen härten. Die Storage-MB-Werte sind eigene Rechnung aus Codec-Bitraten (siehe Diagramm oben). Übrige Zeilen Platzhalter — belegte Rohdaten nach assets/data/ legen und mit dieser Tabelle synchron halten.
Edge vs. Datacenter
Vollständig Datacenter: sowohl Training als auch Inferenz (Generierung) laufen auf Beschleunigern im Rechenzentrum. Kein nennenswerter Edge-Anteil. Damit zählt Video voll für Datacenter-Compute und -Storage.
Bedeutung für die Speicher-/Storage-These
Beobachten / offene Fragen
- Stückkosten je Sekunde Video und ihr Verlauf — entscheidend für Massen-Adoption und damit Storage-Volumen.
- Verhältnis Trainings-Storage zu Output-Storage über die Zeit.
- Welche Plattformen Video-Generierung in großem Maßstab in Produkte einbauen (Social, Werbung).
- Rechte-/Lizenzfragen bei Trainingsvideos als möglicher Adoptions-Bremser.
Quellen & Update-Log
Quellen mit klickbaren Links (Primär- vor Sekundärquellen). Marktzahlen sind Sekundär-Schätzungen mit weiter Spanne; Storage-Größenordnungen sind eigene Rechnung aus Codec-Bitraten.
| Quelle | Typ | Verwendet für |
|---|---|---|
| YouTube — empfohlene Upload-Encoding-Einstellungen | Primär (Plattform-Doku) | Bitraten je Auflösung → Storage je Minute Output (Diagramm, Kennzahlen) |
| Grand View Research — AI Video Generator Market | Sekundär (Marktreport) | Marktgröße 2030, CAGR-Spanne |
| MarkNtel Advisors — AI Video Generator Market | Sekundär (Marktreport) | Marktgröße 2030, CAGR-Spanne |
| Research and Markets — AI Video Generator Forecasts | Sekundär (Marktreport) | CAGR-Untergrenze der Spanne |
| OpenAI Sora, Google Veo, Runway, Kling | Primär (Anbieter) | Modelllandschaft (Stand der Dinge) |
Update-Log
| Datum | Änderung |
|---|---|
| 2026-05-21 | Strukturelle Verfeinerung: Akronyme inline aufgelöst (Diffusion/Transformer/Latent Space/VAE/Codec/Token/fps/HBM/DRAM/NAND), Querverweise auf NAND-/HBM-Häuser und Data-Center/Nvidia gesetzt, Engpass- und IP-Intensitäts-Pills ergänzt, Storage-je-Minute-Balkendiagramm + CSV, Markt-/Storage-Kennzahlen mit Quellen befüllt, Quellenapparat angelegt. |
| 2026-05-20 | Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen). |