Use Case · Nachfragetreiber
Bild-Generierung
Text-zu-Bild und Bildbearbeitung auf Basis von Diffusionsmodellen (Generatoren, die aus Zufallsrauschen schrittweise ein Bild „entrauschen"). Moderater Speicherbedarf je Bild, aber sehr hohe Stückzahl — über 15 Mrd. KI-Bilder seit 2022, rund 34 Mio. pro Tag (Stand Aug. 2023, Everypixel-Schätzung). Der Storage-Beitrag kommt v. a. aus dem Output-Volumen, nicht aus einzelnen großen Dateien.
Bedarfssignatur
| Dimension | Bedarf | Kurzbegründung |
|---|---|---|
| HBM (Beschleuniger) | M | HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher direkt am Beschleuniger) trägt Modellgewichte und moderate Aktivierungen; Diffusionsmodelle haben ein kleineres Speicherprofil als große Sprach-LLMs (Large Language Models, große Sprachmodelle), da kein KV-Cache (Key-Value-Cache, mit der Sequenzlänge wachsender Token-Zwischenspeicher) entsteht. Vergleich: Text & Reasoning. |
| DRAM (Server) | M | DRAM (Dynamic Random Access Memory, flüchtiger Arbeitsspeicher) für Pipeline-Staging, Pre-/Post-Processing — kein außergewöhnlicher Bedarf. |
| NAND / Storage | M | NAND (nicht-flüchtiger Flash-Speicher): laufend erzeugte Bilder akkumulieren, plus Trainingsbild-Datasets — groß, aber kleiner als Videokorpora (siehe Video-Generierung). |
| Compute (Kontext) | H | Hohe Stückzahl an Generierungen treibt die Gesamt-Compute-Last (Rechenarbeit auf GPU/NPU) trotz moderater Kosten je Bild. |
Was es ist & Reifegrad
Text-zu-Bild, Bildbearbeitung, Inpainting (gezieltes Füllen ausgewählter Bildbereiche) und Outpainting (Erweitern eines Bildes über seinen Rand hinaus). Anwendungen: Marketing, Design, Stock-Ersatz. Technisch dominieren Diffusionsmodelle: Sie lernen, schrittweise aus Rauschen ein Bild zu rekonstruieren, und arbeiten dabei meist im komprimierten Latent Space (latenter Raum, niedrigdimensionale Repräsentation eines Bildes) — der Übergang dorthin und zurück läuft über einen VAE (Variational Autoencoder, Encoder-Decoder, der Bilder in den Latent Space und zurück überführt), die eigentliche Entrauschung über ein U-Net (faltungsbasiertes Encoder-Decoder-Netz in U-Form) oder zunehmend einen Transformer (Attention-basierte Netzarchitektur). Verbreitete Modellfamilien sind Stable Diffusion (offen), FLUX, DALL·E, Midjourney und Imagen.
Reifegrad (Einschätzung): produktiv, breit genutzt, niedrige Stückkosten. Diffusionsbasierte Modelle sind im breiten Einsatz; die Kosten je Bild sind stark gefallen und ermöglichen Massennutzung. Größenordnung des Massenmarkts: über 15 Mrd. KI-Bilder seit 2022, rund 34 Mio. pro Tag (alle Plattformen, Stand Aug. 2023, Everypixel-Schätzung) — zum Vergleich brauchte die klassische Fotografie ab 1826 etwa 149 Jahre für dieselbe Menge. Siehe Diagramme und Kennzahlen.
Stand der Dinge / Dynamik
Lebender Teil der Seite — beim nächsten Review aktualisieren. Stand 2026-05-21:
- Massenmarkt etabliert: Über 15 Mrd. KI-Bilder seit 2022, rund 34 Mio. pro Tag über alle Plattformen; rund 80 % davon entstehen mit Stable-Diffusion-basierten Modellen/Apps (Open Source), der Rest verteilt sich auf Adobe Firefly, Midjourney und DALL·E (Everypixel, Aug. 2023, Schätzung). Niveau-Caveat: das Zählen von Open-Source-Generierungen ist methodisch unscharf, die Größenordnung steht.
- Bildqualität als Commodity: Hohe Bildqualität ist breit erreicht; der Wettbewerb verlagert sich auf Steuerbarkeit, Konsistenz (gleicher Stil/Charakter über Serien) und Workflow. (Einschätzung, qualitativ.)
- Workflow-Integration: Trend zu integrierten Editier-Workflows (Inpainting, Outpainting, stilkonsistente Serien) statt Einzelbild-Generierung.
- On-Device wird real: Diffusionsmodelle laufen zunehmend on-device (lokal auf dem Endgerät statt in der Cloud). Qualcomm zeigte bereits Feb. 2023 Stable Diffusion auf einem Snapdragon-8-Gen-2-Smartphone (512×512 Bild, 20 Schritte, unter 15 s) und nennt für Snapdragon 8 Gen 3 eine Generierung in unter 1 s (Qualcomm, Hackster). Forschung (SnapFusion) zeigt Mobil-Generierung in unter 2 s (arXiv). Das verlagert Inferenz-Last vom Datacenter zur NPU (Neural Processing Unit, KI-Beschleunigerkern im Endgerät-Chip).
- Rechtslage: Offene Rechtefragen bei Trainingsbildern als struktureller Unsicherheitsfaktor.
Volumen- und On-Device-Zahlen sind belegt (Sekundär- bzw. Herstellerquellen); Aussagen zu Bildqualität/Workflow sind qualitative Einschätzungen. Vor harter Verwendung in der These gegen weitere Quellen prüfen.
Treiber-Mechanik → Hardware
Warum Bild-Generierung Storage und Compute zieht:
Storage über Stückzahl
- Output-Bestand: Niedrige Kosten je Bild führen zu massenhafter Generierung — der Output-Bestand wächst schnell und treibt Storage kumulativ.
- Trainingsdaten: Trainingsbild-Datasets sind umfangreich, liegen aber unter dem Volumen von Videokorpora.
Speicher (HBM/DRAM)
- HBM: Diffusionsmodelle moderat im Speicherbedarf — deutlich unter dem Profil großer Sprach-LLMs, da kein KV-Cache-Wachstum mit der Sequenzlänge. HBM/DRAM-Module liefern u. a. SK Hynix, Micron und Samsung; das HBM sitzt auf Beschleunigern u. a. von Nvidia.
- DRAM: Pre-/Post-Processing und Pipeline-Staging, kein außergewöhnlicher Bedarf.
Diagramme
Womit KI-Bilder erzeugt werden — Anteil nach Modell-/Plattform-Familie
Zeitraum: kumuliert 2022 – Aug. 2023 · Einheit: Anteil an > 15 Mrd. erzeugten KI-Bildern (Summe = 100 %) · Legende rechts. Aussage: Der Massenmarkt läuft überwiegend über die offene Stable-Diffusion-Familie — der proprietäre IP-Anteil (Firefly, Midjourney, DALL·E) ist die Minderheit der Stückzahl.
- Stable-Diffusion-basiert (Open Source, viele Apps): 12,59 Mrd. ~80 %
- Adobe Firefly: 1,0 Mrd. ~6 %
- Midjourney: 0,96 Mrd. ~6 %
- DALL·E 2: 0,92 Mrd. ~6 %
- Sonstige / k. A.: 0,27 Mrd. ~2 %
Quelle: Everypixel — AI Image Statistics (Aug. 2023). Geschätzt; der Stable-Diffusion-Anteil ist über Open-Source-Apps methodisch schwer exakt zu zählen — die Größenordnung (offen > proprietär) ist die Aussage. Rohdaten: assets/data/bild-modell-anteil.csv.
Tempo der Bildmenge — klassische Fotografie vs. KI-Bildgenerierung
Zeitraum: Fotografie ab 1826, KI ab 2022 · Einheit: Jahre bis ~15 Mrd. erzeugte Bilder (logarithmischer Größenunterschied, Balken gestaucht) · Legende: klassische Fotografie · KI-Text-zu-Bild.
Quelle: Everypixel — AI Image Statistics (Aug. 2023) (~149 Jahre für die Fotografie, ~1,5 Jahre für KI bis 15 Mrd. Bilder; rund 34 Mio. KI-Bilder pro Tag). Geschätzt. Der KI-Balken ist im Verhältnis kaum sichtbar — genau das ist die Aussage zum Output-Tempo, das den kumulativen Storage-Bedarf treibt. Rohdaten: assets/data/bild-bilder-pro-tag.csv.
Kennzahlen
Quantitative Anker. Typ: reported = vom Anbieter genannt, geschätzt = Branchenrichtwert/Sekundärquelle, k. A. = noch nicht belegt.
| Kennzahl | Wert | Zeitraum | Typ | Quelle |
|---|---|---|---|---|
| KI-Bilder kumuliert seit Markteinführung | > 15 Mrd. | 2022 – Aug. 2023 | geschätzt | Everypixel |
| Generierte Bilder pro Tag (alle Plattformen) | ~34 Mio./Tag (~393/s) | Aug. 2023 | geschätzt | Everypixel |
| Anteil Stable-Diffusion-basiert an Stückzahl | ~80 % (12,59 Mrd.) | 2022 – Aug. 2023 | geschätzt | Everypixel |
| Tempo bis 15 Mrd. Bilder: KI vs. Fotografie | ~1,5 Jahre vs. ~149 Jahre | 2022–23 / ab 1826 | geschätzt | Everypixel |
| On-Device-Generierung (Stable Diffusion, Smartphone) | < 15 s (8 Gen 2) → < 1 s (8 Gen 3) | 2023–24 | reported | Qualcomm / Hackster |
| Marktgröße Bild-Generierung (TAM) | k. A. | k. A. | k. A. | Recherche ausstehend |
| Storage je 1.000 generierte Bilder | k. A. | k. A. | k. A. | Recherche ausstehend |
| HBM-GB je Diffusions-Modellklasse | k. A. | k. A. | k. A. | Recherche ausstehend |
| Anteil On-Device- vs. Datacenter-Generierung | k. A. | k. A. | k. A. | Recherche ausstehend |
Rohdaten zu den Diagrammen: assets/data/bild-modell-anteil.csv und assets/data/bild-bilder-pro-tag.csv — mit dieser Tabelle synchron halten. Volumen-/Anteilszahlen sind eine Everypixel-Schätzung von Aug. 2023 (heute eher Untergrenze), On-Device-Zeiten sind Hersteller-Demowerte. Ein belastbarer TAM (Total Addressable Market, adressierbarer Gesamtmarkt), Storage-GB je Bild und HBM-GB je Modellklasse sowie ein konkreter On-Device-Anteil sind noch offen.
Edge vs. Datacenter
Heute überwiegend Datacenter (siehe Themendossier Data Center): die meisten Generierungen laufen auf GPU-Beschleunigern (Graphics Processing Unit, massiv parallele Recheneinheit) im Rechenzentrum, u. a. von Nvidia und konkurrierenden Anbietern aus der Chip-Fertigung. Anders als bei großen Sprachmodellen ist die On-Device-Verlagerung hier real und belegt: Diffusionsmodelle sind kompakt genug, um on-device (lokal am Endgerät) auf der NPU eines Smartphones zu laufen — Qualcomm zeigte Stable Diffusion in unter 1 s auf Snapdragon 8 Gen 3 (Hackster). Je mehr Inferenz ans Gerät wandert, desto geringer der Datacenter-Speicherbedarf je Bild — ein struktureller Gegenwind für die HBM-/DRAM-Seite dieses Use Case (anders als bei Code oder Text & Reasoning, wo die Frontier-Modelle in der Cloud bleiben).
Bedeutung für die Speicher-/Storage-These
Beobachten / offene Fragen
- Output-Volumen-Wachstum — entscheidend dafür, ob der kumulative Storage-Beitrag materiell wird. Die Everypixel-Zahlen (~34 Mio./Tag) sind von Aug. 2023; eine aktuellere belastbare Schätzung fehlt.
- Verlagerung zu On-Device: je mehr Inferenz am Gerät (NPU) stattfindet, desto geringer der Datacenter-Bedarf. Konkreter On-Device- vs. Cloud-Anteil ist noch unbelegt (offen, siehe Kennzahlen).
- Storage-GB je Bild und je 1.000 Bilder — die fehlende Brücke vom Stückzahl-Wachstum zum konkreten NAND/DRAM-Bedarf.
- Trainingsdaten-Rechtefragen als möglicher Bremser für weitere Modellentwicklung.
- Modellgrößen-Trend: werden Diffusionsmodelle größer (mehr HBM-Bedarf, eher Cloud) oder kleiner (On-Device-fähig)? Bestimmt, auf welche Speicher-Achse der Treiber langfristig wirkt.
- Belastbarer TAM für Bild-Generierung — bislang nur Volumen-Schätzungen, kein konsolidierter Markt belegt.
Quellen & Update-Log
Quellen mit klickbaren Links (Hersteller- bzw. branchennah vor reinen Sekundärquellen). Volumen-/Anteilszahlen sind eine Branchenschätzung (Everypixel), On-Device-Zeiten sind Hersteller-Demowerte.
| # | Quelle | Belegt | Typ |
|---|---|---|---|
| 1 | Everypixel Journal — AI Image Statistics (Aug. 2023) | > 15 Mrd. Bilder, ~34 Mio./Tag, ~80 % Stable-Diffusion-Anteil, Fotografie-Vergleich | sekundär (geschätzt) |
| 2 | Qualcomm — World's first on-device Stable Diffusion on Android (Feb. 2023) | On-Device Stable Diffusion, Snapdragon 8 Gen 2, 512×512 / 20 Schritte | hersteller (primär) |
| 3 | Hackster — Sub-second Stable Diffusion on Snapdragon 8 Gen 3 | On-Device-Generierung unter 1 s | sekundär |
| 4 | SnapFusion — Text-to-Image Diffusion Model on Mobile Devices within Two Seconds (arXiv) | Mobil-Diffusion unter 2 s (Forschung) | primär (Paper) |
Update-Log
| Datum | Änderung |
|---|---|
| 2026-05-21 | Web-Recherche eingearbeitet: belegte Volumen-/Anteilszahlen (Everypixel) und On-Device-Anker (Qualcomm/SnapFusion); Donut „Modell-/Plattform-Anteil" + Balken „Tempo der Bildmenge" mit CSVs (bild-modell-anteil.csv, bild-bilder-pro-tag.csv); Kennzahlen-Tabelle gefüllt (+ Typ-Spalte); Quellenapparat angelegt; Akronyme inline aufgelöst (Diffusion, VAE, U-Net, Latent Space, Transformer, GPU, HBM, DRAM, NAND, NPU, Token, on-device); Querverweise (Micron, Samsung, SK Hynix, Nvidia, Arbeitsspeicher, Data Center, Chip-Fertigung, Schwesterseiten); Engpass-/IP-Pills. |
| 2026-05-20 | Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen). |