Bild-Generierung

Use Case · Nachfragetreiber

Bild-Generierung

Text-zu-Bild und Bildbearbeitung auf Basis von Diffusionsmodellen (Generatoren, die aus Zufallsrauschen schrittweise ein Bild „entrauschen"). Moderater Speicherbedarf je Bild, aber sehr hohe Stückzahl — über 15 Mrd. KI-Bilder seit 2022, rund 34 Mio. pro Tag (Stand Aug. 2023, Everypixel-Schätzung). Der Storage-Beitrag kommt v. a. aus dem Output-Volumen, nicht aus einzelnen großen Dateien.

Profil: ausgeglichen Reifegrad: produktiv, breit genutzt Last überwiegend Datacenter Engpass HBM/Beschleuniger: niedrig IP-Intensität: mittel Stand: 2026-05-21

Bedarfssignatur

DimensionBedarfKurzbegründung
HBM (Beschleuniger)MHBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher direkt am Beschleuniger) trägt Modellgewichte und moderate Aktivierungen; Diffusionsmodelle haben ein kleineres Speicherprofil als große Sprach-LLMs (Large Language Models, große Sprachmodelle), da kein KV-Cache (Key-Value-Cache, mit der Sequenzlänge wachsender Token-Zwischenspeicher) entsteht. Vergleich: Text & Reasoning.
DRAM (Server)MDRAM (Dynamic Random Access Memory, flüchtiger Arbeitsspeicher) für Pipeline-Staging, Pre-/Post-Processing — kein außergewöhnlicher Bedarf.
NAND / StorageMNAND (nicht-flüchtiger Flash-Speicher): laufend erzeugte Bilder akkumulieren, plus Trainingsbild-Datasets — groß, aber kleiner als Videokorpora (siehe Video-Generierung).
Compute (Kontext)HHohe Stückzahl an Generierungen treibt die Gesamt-Compute-Last (Rechenarbeit auf GPU/NPU) trotz moderater Kosten je Bild.

Was es ist & Reifegrad

Text-zu-Bild, Bildbearbeitung, Inpainting (gezieltes Füllen ausgewählter Bildbereiche) und Outpainting (Erweitern eines Bildes über seinen Rand hinaus). Anwendungen: Marketing, Design, Stock-Ersatz. Technisch dominieren Diffusionsmodelle: Sie lernen, schrittweise aus Rauschen ein Bild zu rekonstruieren, und arbeiten dabei meist im komprimierten Latent Space (latenter Raum, niedrigdimensionale Repräsentation eines Bildes) — der Übergang dorthin und zurück läuft über einen VAE (Variational Autoencoder, Encoder-Decoder, der Bilder in den Latent Space und zurück überführt), die eigentliche Entrauschung über ein U-Net (faltungsbasiertes Encoder-Decoder-Netz in U-Form) oder zunehmend einen Transformer (Attention-basierte Netzarchitektur). Verbreitete Modellfamilien sind Stable Diffusion (offen), FLUX, DALL·E, Midjourney und Imagen.

Reifegrad (Einschätzung): produktiv, breit genutzt, niedrige Stückkosten. Diffusionsbasierte Modelle sind im breiten Einsatz; die Kosten je Bild sind stark gefallen und ermöglichen Massennutzung. Größenordnung des Massenmarkts: über 15 Mrd. KI-Bilder seit 2022, rund 34 Mio. pro Tag (alle Plattformen, Stand Aug. 2023, Everypixel-Schätzung) — zum Vergleich brauchte die klassische Fotografie ab 1826 etwa 149 Jahre für dieselbe Menge. Siehe Diagramme und Kennzahlen.

Stand der Dinge / Dynamik

Lebender Teil der Seite — beim nächsten Review aktualisieren. Stand 2026-05-21:

  • Massenmarkt etabliert: Über 15 Mrd. KI-Bilder seit 2022, rund 34 Mio. pro Tag über alle Plattformen; rund 80 % davon entstehen mit Stable-Diffusion-basierten Modellen/Apps (Open Source), der Rest verteilt sich auf Adobe Firefly, Midjourney und DALL·E (Everypixel, Aug. 2023, Schätzung). Niveau-Caveat: das Zählen von Open-Source-Generierungen ist methodisch unscharf, die Größenordnung steht.
  • Bildqualität als Commodity: Hohe Bildqualität ist breit erreicht; der Wettbewerb verlagert sich auf Steuerbarkeit, Konsistenz (gleicher Stil/Charakter über Serien) und Workflow. (Einschätzung, qualitativ.)
  • Workflow-Integration: Trend zu integrierten Editier-Workflows (Inpainting, Outpainting, stilkonsistente Serien) statt Einzelbild-Generierung.
  • On-Device wird real: Diffusionsmodelle laufen zunehmend on-device (lokal auf dem Endgerät statt in der Cloud). Qualcomm zeigte bereits Feb. 2023 Stable Diffusion auf einem Snapdragon-8-Gen-2-Smartphone (512×512 Bild, 20 Schritte, unter 15 s) und nennt für Snapdragon 8 Gen 3 eine Generierung in unter 1 s (Qualcomm, Hackster). Forschung (SnapFusion) zeigt Mobil-Generierung in unter 2 s (arXiv). Das verlagert Inferenz-Last vom Datacenter zur NPU (Neural Processing Unit, KI-Beschleunigerkern im Endgerät-Chip).
  • Rechtslage: Offene Rechtefragen bei Trainingsbildern als struktureller Unsicherheitsfaktor.

Volumen- und On-Device-Zahlen sind belegt (Sekundär- bzw. Herstellerquellen); Aussagen zu Bildqualität/Workflow sind qualitative Einschätzungen. Vor harter Verwendung in der These gegen weitere Quellen prüfen.

Treiber-Mechanik → Hardware

Warum Bild-Generierung Storage und Compute zieht:

Storage über Stückzahl

  • Output-Bestand: Niedrige Kosten je Bild führen zu massenhafter Generierung — der Output-Bestand wächst schnell und treibt Storage kumulativ.
  • Trainingsdaten: Trainingsbild-Datasets sind umfangreich, liegen aber unter dem Volumen von Videokorpora.

Speicher (HBM/DRAM)

  • HBM: Diffusionsmodelle moderat im Speicherbedarf — deutlich unter dem Profil großer Sprach-LLMs, da kein KV-Cache-Wachstum mit der Sequenzlänge. HBM/DRAM-Module liefern u. a. SK Hynix, Micron und Samsung; das HBM sitzt auf Beschleunigern u. a. von Nvidia.
  • DRAM: Pre-/Post-Processing und Pipeline-Staging, kein außergewöhnlicher Bedarf.
Übersetzung in die These: Bild-Generierung ist ein ausgeglichener, moderater Treiber auf allen Speicher-Achsen. Der Storage-Beitrag entsteht v. a. durch das Output-Volumen — nicht durch einzelne große Dateien, sondern durch die schiere Stückzahl (~34 Mio. Bilder/Tag). Anders als bei Text & Reasoning oder Code fehlt der HBM-Multiplikator durch lange Kontexte.

Diagramme

Womit KI-Bilder erzeugt werden — Anteil nach Modell-/Plattform-Familie

Zeitraum: kumuliert 2022 – Aug. 2023 · Einheit: Anteil an > 15 Mrd. erzeugten KI-Bildern (Summe = 100 %) · Legende rechts. Aussage: Der Massenmarkt läuft überwiegend über die offene Stable-Diffusion-Familie — der proprietäre IP-Anteil (Firefly, Midjourney, DALL·E) ist die Minderheit der Stückzahl.

  • Stable-Diffusion-basiert (Open Source, viele Apps): 12,59 Mrd. ~80 %
  • Adobe Firefly: 1,0 Mrd. ~6 %
  • Midjourney: 0,96 Mrd. ~6 %
  • DALL·E 2: 0,92 Mrd. ~6 %
  • Sonstige / k. A.: 0,27 Mrd. ~2 %

Quelle: Everypixel — AI Image Statistics (Aug. 2023). Geschätzt; der Stable-Diffusion-Anteil ist über Open-Source-Apps methodisch schwer exakt zu zählen — die Größenordnung (offen > proprietär) ist die Aussage. Rohdaten: assets/data/bild-modell-anteil.csv.

Tempo der Bildmenge — klassische Fotografie vs. KI-Bildgenerierung

Zeitraum: Fotografie ab 1826, KI ab 2022 · Einheit: Jahre bis ~15 Mrd. erzeugte Bilder (logarithmischer Größenunterschied, Balken gestaucht) · Legende: klassische Fotografie · KI-Text-zu-Bild.

Klassische Fotografie
~149 Jahre
KI-Text-zu-Bild
~1,5 Jahre

Quelle: Everypixel — AI Image Statistics (Aug. 2023) (~149 Jahre für die Fotografie, ~1,5 Jahre für KI bis 15 Mrd. Bilder; rund 34 Mio. KI-Bilder pro Tag). Geschätzt. Der KI-Balken ist im Verhältnis kaum sichtbar — genau das ist die Aussage zum Output-Tempo, das den kumulativen Storage-Bedarf treibt. Rohdaten: assets/data/bild-bilder-pro-tag.csv.

Kennzahlen

Quantitative Anker. Typ: reported = vom Anbieter genannt, geschätzt = Branchenrichtwert/Sekundärquelle, k. A. = noch nicht belegt.

KennzahlWertZeitraumTypQuelle
KI-Bilder kumuliert seit Markteinführung> 15 Mrd.2022 – Aug. 2023geschätztEverypixel
Generierte Bilder pro Tag (alle Plattformen)~34 Mio./Tag (~393/s)Aug. 2023geschätztEverypixel
Anteil Stable-Diffusion-basiert an Stückzahl~80 % (12,59 Mrd.)2022 – Aug. 2023geschätztEverypixel
Tempo bis 15 Mrd. Bilder: KI vs. Fotografie~1,5 Jahre vs. ~149 Jahre2022–23 / ab 1826geschätztEverypixel
On-Device-Generierung (Stable Diffusion, Smartphone)< 15 s (8 Gen 2) → < 1 s (8 Gen 3)2023–24reportedQualcomm / Hackster
Marktgröße Bild-Generierung (TAM)k. A.k. A.k. A.Recherche ausstehend
Storage je 1.000 generierte Bilderk. A.k. A.k. A.Recherche ausstehend
HBM-GB je Diffusions-Modellklassek. A.k. A.k. A.Recherche ausstehend
Anteil On-Device- vs. Datacenter-Generierungk. A.k. A.k. A.Recherche ausstehend

Rohdaten zu den Diagrammen: assets/data/bild-modell-anteil.csv und assets/data/bild-bilder-pro-tag.csv — mit dieser Tabelle synchron halten. Volumen-/Anteilszahlen sind eine Everypixel-Schätzung von Aug. 2023 (heute eher Untergrenze), On-Device-Zeiten sind Hersteller-Demowerte. Ein belastbarer TAM (Total Addressable Market, adressierbarer Gesamtmarkt), Storage-GB je Bild und HBM-GB je Modellklasse sowie ein konkreter On-Device-Anteil sind noch offen.

Edge vs. Datacenter

Heute überwiegend Datacenter (siehe Themendossier Data Center): die meisten Generierungen laufen auf GPU-Beschleunigern (Graphics Processing Unit, massiv parallele Recheneinheit) im Rechenzentrum, u. a. von Nvidia und konkurrierenden Anbietern aus der Chip-Fertigung. Anders als bei großen Sprachmodellen ist die On-Device-Verlagerung hier real und belegt: Diffusionsmodelle sind kompakt genug, um on-device (lokal am Endgerät) auf der NPU eines Smartphones zu laufen — Qualcomm zeigte Stable Diffusion in unter 1 s auf Snapdragon 8 Gen 3 (Hackster). Je mehr Inferenz ans Gerät wandert, desto geringer der Datacenter-Speicherbedarf je Bild — ein struktureller Gegenwind für die HBM-/DRAM-Seite dieses Use Case (anders als bei Code oder Text & Reasoning, wo die Frontier-Modelle in der Cloud bleiben).

Bedeutung für die Speicher-/Storage-These

Bild-Generierung ist ein moderater, ausgeglichener Treiber — kein dominierender Einzeltreiber, aber durch die Massen-Stückzahl (~34 Mio. Bilder/Tag) ein relevanter kumulativer Storage-Beitrag, der eher NAND/DRAM als HBM zieht. Für die HBM-Seite der Arbeitsspeicher-These (Profiteure: SK Hynix, Micron, Samsung) ist der Beitrag überschaubar, zumal die belegte On-Device-Verlagerung perspektivisch Datacenter-Last abzieht. Das speicher- und storage-intensivere Pendant ist Video-Generierung.

Beobachten / offene Fragen

  • Output-Volumen-Wachstum — entscheidend dafür, ob der kumulative Storage-Beitrag materiell wird. Die Everypixel-Zahlen (~34 Mio./Tag) sind von Aug. 2023; eine aktuellere belastbare Schätzung fehlt.
  • Verlagerung zu On-Device: je mehr Inferenz am Gerät (NPU) stattfindet, desto geringer der Datacenter-Bedarf. Konkreter On-Device- vs. Cloud-Anteil ist noch unbelegt (offen, siehe Kennzahlen).
  • Storage-GB je Bild und je 1.000 Bilder — die fehlende Brücke vom Stückzahl-Wachstum zum konkreten NAND/DRAM-Bedarf.
  • Trainingsdaten-Rechtefragen als möglicher Bremser für weitere Modellentwicklung.
  • Modellgrößen-Trend: werden Diffusionsmodelle größer (mehr HBM-Bedarf, eher Cloud) oder kleiner (On-Device-fähig)? Bestimmt, auf welche Speicher-Achse der Treiber langfristig wirkt.
  • Belastbarer TAM für Bild-Generierung — bislang nur Volumen-Schätzungen, kein konsolidierter Markt belegt.

Quellen & Update-Log

Quellen mit klickbaren Links (Hersteller- bzw. branchennah vor reinen Sekundärquellen). Volumen-/Anteilszahlen sind eine Branchenschätzung (Everypixel), On-Device-Zeiten sind Hersteller-Demowerte.

#QuelleBelegtTyp
1Everypixel Journal — AI Image Statistics (Aug. 2023)> 15 Mrd. Bilder, ~34 Mio./Tag, ~80 % Stable-Diffusion-Anteil, Fotografie-Vergleichsekundär (geschätzt)
2Qualcomm — World's first on-device Stable Diffusion on Android (Feb. 2023)On-Device Stable Diffusion, Snapdragon 8 Gen 2, 512×512 / 20 Schrittehersteller (primär)
3Hackster — Sub-second Stable Diffusion on Snapdragon 8 Gen 3On-Device-Generierung unter 1 ssekundär
4SnapFusion — Text-to-Image Diffusion Model on Mobile Devices within Two Seconds (arXiv)Mobil-Diffusion unter 2 s (Forschung)primär (Paper)

Update-Log

DatumÄnderung
2026-05-21Web-Recherche eingearbeitet: belegte Volumen-/Anteilszahlen (Everypixel) und On-Device-Anker (Qualcomm/SnapFusion); Donut „Modell-/Plattform-Anteil" + Balken „Tempo der Bildmenge" mit CSVs (bild-modell-anteil.csv, bild-bilder-pro-tag.csv); Kennzahlen-Tabelle gefüllt (+ Typ-Spalte); Quellenapparat angelegt; Akronyme inline aufgelöst (Diffusion, VAE, U-Net, Latent Space, Transformer, GPU, HBM, DRAM, NAND, NPU, Token, on-device); Querverweise (Micron, Samsung, SK Hynix, Nvidia, Arbeitsspeicher, Data Center, Chip-Fertigung, Schwesterseiten); Engpass-/IP-Pills.
2026-05-20Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).