Bild-Generierung — Nachfragetreiber

Bedarfssignatur

Dimension	Bedarf	Kurzbegründung
HBM (Beschleuniger)	M	HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher direkt am Beschleuniger) trägt Modellgewichte und moderate Aktivierungen; Diffusionsmodelle haben ein kleineres Speicherprofil als große Sprach-LLMs (Large Language Models, große Sprachmodelle), da kein KV-Cache (Key-Value-Cache, mit der Sequenzlänge wachsender Token-Zwischenspeicher) entsteht. Vergleich: Text & Reasoning.
DRAM (Server)	M	DRAM (Dynamic Random Access Memory, flüchtiger Arbeitsspeicher) für Pipeline-Staging, Pre-/Post-Processing — kein außergewöhnlicher Bedarf.
NAND / Storage	M	NAND (nicht-flüchtiger Flash-Speicher): laufend erzeugte Bilder akkumulieren, plus Trainingsbild-Datasets — groß, aber kleiner als Videokorpora (siehe Video-Generierung).
Compute (Kontext)	H	Hohe Stückzahl an Generierungen treibt die Gesamt-Compute-Last (Rechenarbeit auf GPU/NPU) trotz moderater Kosten je Bild.

Was es ist & Reifegrad

Text-zu-Bild, Bildbearbeitung, Inpainting (gezieltes Füllen ausgewählter Bildbereiche) und Outpainting (Erweitern eines Bildes über seinen Rand hinaus). Anwendungen: Marketing, Design, Stock-Ersatz. Technisch dominieren Diffusionsmodelle: Sie lernen, schrittweise aus Rauschen ein Bild zu rekonstruieren, und arbeiten dabei meist im komprimierten Latent Space (latenter Raum, niedrigdimensionale Repräsentation eines Bildes) — der Übergang dorthin und zurück läuft über einen VAE (Variational Autoencoder, Encoder-Decoder, der Bilder in den Latent Space und zurück überführt), die eigentliche Entrauschung über ein U-Net (faltungsbasiertes Encoder-Decoder-Netz in U-Form) oder zunehmend einen Transformer (Attention-basierte Netzarchitektur). Verbreitete Modellfamilien sind Stable Diffusion (offen), FLUX, DALL·E, Midjourney und Imagen.

Reifegrad (Einschätzung): produktiv, breit genutzt, niedrige Stückkosten. Diffusionsbasierte Modelle sind im breiten Einsatz; die Kosten je Bild sind stark gefallen und ermöglichen Massennutzung. Größenordnung des Massenmarkts: über 15 Mrd. KI-Bilder seit 2022, rund 34 Mio. pro Tag (alle Plattformen, Stand Aug. 2023, Everypixel-Schätzung) — zum Vergleich brauchte die klassische Fotografie ab 1826 etwa 149 Jahre für dieselbe Menge. Siehe Diagramme und Kennzahlen.

Stand der Dinge / Dynamik

Lebender Teil der Seite — beim nächsten Review aktualisieren. Stand 2026-05-21:

Massenmarkt etabliert: Über 15 Mrd. KI-Bilder seit 2022, rund 34 Mio. pro Tag über alle Plattformen; rund 80 % davon entstehen mit Stable-Diffusion-basierten Modellen/Apps (Open Source), der Rest verteilt sich auf Adobe Firefly, Midjourney und DALL·E (Everypixel, Aug. 2023, Schätzung). Niveau-Caveat: das Zählen von Open-Source-Generierungen ist methodisch unscharf, die Größenordnung steht.
Bildqualität als Commodity: Hohe Bildqualität ist breit erreicht; der Wettbewerb verlagert sich auf Steuerbarkeit, Konsistenz (gleicher Stil/Charakter über Serien) und Workflow. (Einschätzung, qualitativ.)
Workflow-Integration: Trend zu integrierten Editier-Workflows (Inpainting, Outpainting, stilkonsistente Serien) statt Einzelbild-Generierung.
On-Device wird real: Diffusionsmodelle laufen zunehmend on-device (lokal auf dem Endgerät statt in der Cloud). Qualcomm zeigte bereits Feb. 2023 Stable Diffusion auf einem Snapdragon-8-Gen-2-Smartphone (512×512 Bild, 20 Schritte, unter 15 s) und nennt für Snapdragon 8 Gen 3 eine Generierung in unter 1 s (Qualcomm, Hackster). Forschung (SnapFusion) zeigt Mobil-Generierung in unter 2 s (arXiv). Das verlagert Inferenz-Last vom Datacenter zur NPU (Neural Processing Unit, KI-Beschleunigerkern im Endgerät-Chip).
Rechtslage: Offene Rechtefragen bei Trainingsbildern als struktureller Unsicherheitsfaktor.

Volumen- und On-Device-Zahlen sind belegt (Sekundär- bzw. Herstellerquellen); Aussagen zu Bildqualität/Workflow sind qualitative Einschätzungen. Vor harter Verwendung in der These gegen weitere Quellen prüfen.

Treiber-Mechanik → Hardware

Warum Bild-Generierung Storage und Compute zieht:

Storage über Stückzahl

Output-Bestand: Niedrige Kosten je Bild führen zu massenhafter Generierung — der Output-Bestand wächst schnell und treibt Storage kumulativ.
Trainingsdaten: Trainingsbild-Datasets sind umfangreich, liegen aber unter dem Volumen von Videokorpora.

Speicher (HBM/DRAM)

HBM: Diffusionsmodelle moderat im Speicherbedarf — deutlich unter dem Profil großer Sprach-LLMs, da kein KV-Cache-Wachstum mit der Sequenzlänge. HBM/DRAM-Module liefern u. a. SK Hynix, Micron und Samsung; das HBM sitzt auf Beschleunigern u. a. von Nvidia.
DRAM: Pre-/Post-Processing und Pipeline-Staging, kein außergewöhnlicher Bedarf.

Übersetzung in die These: Bild-Generierung ist ein ausgeglichener, moderater Treiber auf allen Speicher-Achsen. Der Storage-Beitrag entsteht v. a. durch das Output-Volumen — nicht durch einzelne große Dateien, sondern durch die schiere Stückzahl (~34 Mio. Bilder/Tag). Anders als bei Text & Reasoning oder Code fehlt der HBM-Multiplikator durch lange Kontexte.

Diagramme

Womit KI-Bilder erzeugt werden — Anteil nach Modell-/Plattform-Familie

Zeitraum: kumuliert 2022 – Aug. 2023 · Einheit: Anteil an > 15 Mrd. erzeugten KI-Bildern (Summe = 100 %) · Legende rechts. Aussage: Der Massenmarkt läuft überwiegend über die offene Stable-Diffusion-Familie — der proprietäre IP-Anteil (Firefly, Midjourney, DALL·E) ist die Minderheit der Stückzahl.

Stable-Diffusion-basiert (Open Source, viele Apps): 12,59 Mrd. ~80 %
Adobe Firefly: 1,0 Mrd. ~6 %
Midjourney: 0,96 Mrd. ~6 %
DALL·E 2: 0,92 Mrd. ~6 %
Sonstige / k. A.: 0,27 Mrd. ~2 %

Quelle: Everypixel — AI Image Statistics (Aug. 2023). Geschätzt; der Stable-Diffusion-Anteil ist über Open-Source-Apps methodisch schwer exakt zu zählen — die Größenordnung (offen > proprietär) ist die Aussage. Rohdaten: assets/data/bild-modell-anteil.csv.

Tempo der Bildmenge — klassische Fotografie vs. KI-Bildgenerierung

Zeitraum: Fotografie ab 1826, KI ab 2022 · Einheit: Jahre bis ~15 Mrd. erzeugte Bilder (logarithmischer Größenunterschied, Balken gestaucht) · Legende: klassische Fotografie · KI-Text-zu-Bild.

Klassische Fotografie

~149 Jahre

KI-Text-zu-Bild

~1,5 Jahre

Quelle: Everypixel — AI Image Statistics (Aug. 2023) (~149 Jahre für die Fotografie, ~1,5 Jahre für KI bis 15 Mrd. Bilder; rund 34 Mio. KI-Bilder pro Tag). Geschätzt. Der KI-Balken ist im Verhältnis kaum sichtbar — genau das ist die Aussage zum Output-Tempo, das den kumulativen Storage-Bedarf treibt. Rohdaten: assets/data/bild-bilder-pro-tag.csv.

Kennzahlen

Quantitative Anker. Typ: reported = vom Anbieter genannt, geschätzt = Branchenrichtwert/Sekundärquelle, k. A. = noch nicht belegt.

Kennzahl	Wert	Zeitraum	Typ	Quelle
KI-Bilder kumuliert seit Markteinführung	> 15 Mrd.	2022 – Aug. 2023	geschätzt	Everypixel
Generierte Bilder pro Tag (alle Plattformen)	~34 Mio./Tag (~393/s)	Aug. 2023	geschätzt	Everypixel
Anteil Stable-Diffusion-basiert an Stückzahl	~80 % (12,59 Mrd.)	2022 – Aug. 2023	geschätzt	Everypixel
Tempo bis 15 Mrd. Bilder: KI vs. Fotografie	~1,5 Jahre vs. ~149 Jahre	2022–23 / ab 1826	geschätzt	Everypixel
On-Device-Generierung (Stable Diffusion, Smartphone)	< 15 s (8 Gen 2) → < 1 s (8 Gen 3)	2023–24	reported	Qualcomm / Hackster
Marktgröße Bild-Generierung (TAM)	k. A.	k. A.	k. A.	Recherche ausstehend
Storage je 1.000 generierte Bilder	k. A.	k. A.	k. A.	Recherche ausstehend
HBM-GB je Diffusions-Modellklasse	k. A.	k. A.	k. A.	Recherche ausstehend
Anteil On-Device- vs. Datacenter-Generierung	k. A.	k. A.	k. A.	Recherche ausstehend

Rohdaten zu den Diagrammen: assets/data/bild-modell-anteil.csv und assets/data/bild-bilder-pro-tag.csv — mit dieser Tabelle synchron halten. Volumen-/Anteilszahlen sind eine Everypixel-Schätzung von Aug. 2023 (heute eher Untergrenze), On-Device-Zeiten sind Hersteller-Demowerte. Ein belastbarer TAM (Total Addressable Market, adressierbarer Gesamtmarkt), Storage-GB je Bild und HBM-GB je Modellklasse sowie ein konkreter On-Device-Anteil sind noch offen.

Edge vs. Datacenter

Heute überwiegend Datacenter (siehe Themendossier Data Center): die meisten Generierungen laufen auf GPU-Beschleunigern (Graphics Processing Unit, massiv parallele Recheneinheit) im Rechenzentrum, u. a. von Nvidia und konkurrierenden Anbietern aus der Chip-Fertigung. Anders als bei großen Sprachmodellen ist die On-Device-Verlagerung hier real und belegt: Diffusionsmodelle sind kompakt genug, um on-device (lokal am Endgerät) auf der NPU eines Smartphones zu laufen — Qualcomm zeigte Stable Diffusion in unter 1 s auf Snapdragon 8 Gen 3 (Hackster). Je mehr Inferenz ans Gerät wandert, desto geringer der Datacenter-Speicherbedarf je Bild — ein struktureller Gegenwind für die HBM-/DRAM-Seite dieses Use Case (anders als bei Code oder Text & Reasoning, wo die Frontier-Modelle in der Cloud bleiben).

Bedeutung für die Speicher-/Storage-These

Bild-Generierung ist ein moderater, ausgeglichener Treiber — kein dominierender Einzeltreiber, aber durch die Massen-Stückzahl (~34 Mio. Bilder/Tag) ein relevanter kumulativer Storage-Beitrag, der eher NAND/DRAM als HBM zieht. Für die HBM-Seite der Arbeitsspeicher-These (Profiteure: SK Hynix, Micron, Samsung) ist der Beitrag überschaubar, zumal die belegte On-Device-Verlagerung perspektivisch Datacenter-Last abzieht. Das speicher- und storage-intensivere Pendant ist Video-Generierung.

Beobachten / offene Fragen

Output-Volumen-Wachstum — entscheidend dafür, ob der kumulative Storage-Beitrag materiell wird. Die Everypixel-Zahlen (~34 Mio./Tag) sind von Aug. 2023; eine aktuellere belastbare Schätzung fehlt.
Verlagerung zu On-Device: je mehr Inferenz am Gerät (NPU) stattfindet, desto geringer der Datacenter-Bedarf. Konkreter On-Device- vs. Cloud-Anteil ist noch unbelegt (offen, siehe Kennzahlen).
Storage-GB je Bild und je 1.000 Bilder — die fehlende Brücke vom Stückzahl-Wachstum zum konkreten NAND/DRAM-Bedarf.
Trainingsdaten-Rechtefragen als möglicher Bremser für weitere Modellentwicklung.
Modellgrößen-Trend: werden Diffusionsmodelle größer (mehr HBM-Bedarf, eher Cloud) oder kleiner (On-Device-fähig)? Bestimmt, auf welche Speicher-Achse der Treiber langfristig wirkt.
Belastbarer TAM für Bild-Generierung — bislang nur Volumen-Schätzungen, kein konsolidierter Markt belegt.

Quellen & Update-Log

Quellen mit klickbaren Links (Hersteller- bzw. branchennah vor reinen Sekundärquellen). Volumen-/Anteilszahlen sind eine Branchenschätzung (Everypixel), On-Device-Zeiten sind Hersteller-Demowerte.

#	Quelle	Belegt	Typ
1	Everypixel Journal — AI Image Statistics (Aug. 2023)	> 15 Mrd. Bilder, ~34 Mio./Tag, ~80 % Stable-Diffusion-Anteil, Fotografie-Vergleich	sekundär (geschätzt)
2	Qualcomm — World's first on-device Stable Diffusion on Android (Feb. 2023)	On-Device Stable Diffusion, Snapdragon 8 Gen 2, 512×512 / 20 Schritte	hersteller (primär)
3	Hackster — Sub-second Stable Diffusion on Snapdragon 8 Gen 3	On-Device-Generierung unter 1 s	sekundär
4	SnapFusion — Text-to-Image Diffusion Model on Mobile Devices within Two Seconds (arXiv)	Mobil-Diffusion unter 2 s (Forschung)	primär (Paper)

Update-Log

Datum	Änderung
2026-05-21	Web-Recherche eingearbeitet: belegte Volumen-/Anteilszahlen (Everypixel) und On-Device-Anker (Qualcomm/SnapFusion); Donut „Modell-/Plattform-Anteil" + Balken „Tempo der Bildmenge" mit CSVs (`bild-modell-anteil.csv`, `bild-bilder-pro-tag.csv`); Kennzahlen-Tabelle gefüllt (+ Typ-Spalte); Quellenapparat angelegt; Akronyme inline aufgelöst (Diffusion, VAE, U-Net, Latent Space, Transformer, GPU, HBM, DRAM, NAND, NPU, Token, on-device); Querverweise (Micron, Samsung, SK Hynix, Nvidia, Arbeitsspeicher, Data Center, Chip-Fertigung, Schwesterseiten); Engpass-/IP-Pills.
2026-05-20	Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).