Use Case · Nachfragetreiber

Text, Chat & Reasoning

Der Kern des aktuellen LLM-Booms (Large Language Model, großes Sprachmodell) — Chat, Schreiben, Übersetzung, Zusammenfassung und Reasoning. Für die These der HBM-Treiber Nr. 1: KV-Cache (Key-Value-Cache, zwischengespeicherte Attention-Schlüssel/-Werte) und Kontextlänge bestimmen den Speicherdruck am Beschleuniger. HBM (High Bandwidth Memory, hochbandbreitiger Stapelspeicher) ist hier der primäre Engpass — geliefert v. a. von SK Hynix, Micron und Samsung, verbaut auf Beschleunigern von Nvidia und AMD.

Profil: HBM-geführt Reifegrad: produktiv, breit genutzt Last v. a. im Datacenter Engpass: hoch (HBM) IP-Intensität: hoch Stand: 2026-05-21

Pills als Einschätzung: Engpass: hoch — HBM-Kapazität und -Bandbreite limitieren den Inferenz-Durchsatz; HBM ist über 2025/26 ausverkauft (siehe Themendossier Arbeitsspeicher). IP-Intensität: hoch — Wert konzentriert sich auf proprietäre Modellgewichte, Beschleuniger-Architektur (Nvidia CUDA/Tensor-Cores) und HBM-Stapeltechnik; Standard-Server-DRAM dagegen niedrig.

Bedarfssignatur

Dimension	Bedarf	Kurzbegründung
HBM (Beschleuniger)	H	Modellgewichte + KV-Cache am Beschleuniger; der KV-Cache wächst linear mit Kontextlänge × Batch — HBM-Kapazität und -Bandbreite sind der Inferenz-Flaschenhals (ein Token = kleinste Verarbeitungseinheit, ~0,75 Wörter).
DRAM (Server)	H	DRAM (Dynamic Random Access Memory, dynamischer Arbeitsspeicher): KV-Cache-Offload, Host-Memory für Modell-Sharding, große Server-RAM-Konfigurationen.
NAND / Storage	M	NAND (nichtflüchtiger Flash-Speicher): Trainingskorpora groß, aber teils einmalig; Inferenz-Logs, Reasoning-Traces.
Compute (Kontext)	H	Training von Frontier-Modellen plus Reasoning-Inferenz mit Test-time-compute (zusätzliche Rechenzeit zur Antwortzeit, statt nur beim Training), die viele Tokens erzeugt — FLOPS (Floating Point Operations per Second, Gleitkommaoperationen je Sekunde) als Compute-Maß.

Was es ist & Reifegrad

Chat-Assistenten, Schreiben, Übersetzung, Zusammenfassung und Reasoning-Modelle. Der Use Case deckt den breitesten Teil des LLM-Markts ab — von einfachen Chat-Interfaces bis hin zu komplexen Reasoning-Pipelines.

Reifegrad (Einschätzung): produktiv und breit genutzt. Chat und Texterstellung sind Commodity; Reasoning-Modelle (mit Chain-of-Thought, einer ausgeschriebenen Gedankenkette als Zwischenschritte, und Test-time-compute) sind die aktuelle Wachstumsfront mit deutlich höherer Compute- und HBM-Last je Anfrage. Die Last fällt bei der Inferenz an (das Ausführen des fertigen Modells, im Unterschied zum einmaligen Training).

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

Reasoning / Test-time-compute: Haupttrend — Modelle erzeugen deutlich mehr Tokens je Anfrage (lange Chain-of-Thought-Sequenzen, Selbstkorrektur). Belegbarer Anker: das Reasoning-Modell deepseek-reasoner erlaubt per Default 32 000, maximal 64 000 Output-Tokens inklusive der internen Gedankenkette (DeepSeek API-Doku) — vielfaches der wenigen hundert bis tausend Tokens einer klassischen Chat-Antwort. Ein einheitlicher Token-Multiplikator über alle Anbieter ist nicht primär belegt → bleibt als Spannweite geführt.
Sehr lange Kontextfenster: 100k bis zu Millionen Tokens sind zunehmend Standard; Gemini 1.5 Pro bietet ein 2-Mio.-Token-Fenster für alle Entwickler. Der KV-Cache wächst proportional zur Kontextlänge × Batch (siehe Mechanik).
MoE-Architekturen: Mixture-of-Experts (gemischte Experten — nur ein Teil der Parameter ist je Token aktiv) reduziert aktive Parameter je Token, ändert aber nicht die Gesamtgröße im HBM-Speicher.
Effizienzdruck: Quantisierung (Reduktion der Zahlengenauigkeit der Gewichte/Aktivierungen, z. B. von 16 auf 8 oder 4 Bit), KV-Cache-Kompression und Speculative Decoding (ein kleines Hilfsmodell entwirft Tokens, das große Modell prüft sie) dämpfen den HBM-Bedarf je Anfrage — Gegenwind für die These. Adoption, lange Kontexte und Reasoning überwiegen bisher; der dramatische Preisverfall (siehe Kennzahlen) zeigt den Effizienzfortschritt, ging aber mit steigendem Gesamt-Token-Volumen einher.

Quellen: DeepSeek API-Doku · Google Developers Blog (Gemini 2M). Architektur-Aussagen (MoE/Quantisierung) sind allgemein etablierte Verfahren; Token-Multiplikator über alle Anbieter bleibt Spannweite/Einschätzung.

Treiber-Mechanik → Hardware

Warum Text & Reasoning vor allem HBM zieht:

HBM — der Kerntreiber

KV-Cache-Wachstum: Der Cache wächst linear mit Kontextlänge × Batch. Konkret: Llama 3-70B belegt rund 160 KB je Token (int8, Grouped-Query-Attention) — bei 32 000 Tokens Kontext sind das ~5,3 GB je Sequenz (JAX Scaling Book, Google DeepMind). Über viele parallele Sequenzen (Batch) hinweg übersteigt der KV-Cache schnell die Modellgewichte.
Bandbreiten-Flaschenhals: HBM-Bandbreite limitiert den Token-Durchsatz bei der Inferenz; „bei langen Kontexten dominiert das KV-Laden die gesamte Schrittzeit" (ebd.). Reasoning erzeugt deutlich mehr Output-Tokens je Anfrage und vervielfacht die Inferenz-Last.
Kapazitätsdruck: Frontier-Modelle plus langer Kontext plus Batch-Parallelismus übersteigen schnell eine einzelne HBM-Instanz — Llama 3.1-405B benötigt bei bf16 allein ~810 GB Gewichte und damit mehrere Nvidia-/AMD-Beschleuniger.

DRAM & Storage

DRAM: KV-Cache-Offload vom Beschleuniger ins Host-RAM und Modell-Sharding benötigen große Server-Speicherkonfigurationen.
Storage: Trainingskorpora (groß, aber weitgehend einmalig); Inferenz-Logs und Reasoning-Traces wachsen mit Nutzung, bleiben aber moderat.

Modellgewichte je Klasse (HBM-Grundlast, bf16)

Zeitraum: Modellstände 2024/25 · Einheit: GB Gewichte bei bfloat16 (= Parameterzahl × 2 Byte). Nur die statische Gewichts-Grundlast; KV-Cache und Batch kommen on top.

Llama 7-8B

~14-16 GB

Llama 3-70B

140 GB

Llama 3.1-405B

~810 GB

Quelle: JAX Scaling Book (Google DeepMind), 70B = 140 GB bf16 / 70 GB int8; 405B = 405 Mrd. × 2 Byte ≈ 810 GB (eigene Rechnung); 7-8B = 7-8 Mrd. × 2 Byte (eigene Rechnung). Rohdaten: assets/data/text-reasoning-kv-cache.csv.

Übersetzung in die These: Text & Reasoning ist der strukturelle HBM-Treiber. Reasoning + lange Kontexte heben den HBM-Bedarf strukturell — nicht nur zyklisch. Das unterscheidet diesen Use Case von Storage-geführten Use Cases wie Video.

Kennzahlen

Quantitative Anker — Quelle, Zeitraum, Einheit und Belegtyp (reported / geschätzt / eigene Annahme) je Zeile.

Kennzahl	Wert	Zeitraum	Quelle
Gewichte je Modellklasse (bf16): 70B / 405B	140 GB / ~810 GB (reported / eigene Rechnung)	Modellstand 2024/25	JAX Scaling Book (DeepMind)
KV-Cache je Token (Llama 3-70B, int8, GQA)	160 KB/Token; ~5,3 GB bei 32 k Kontext (reported)	Modellstand 2024	JAX Scaling Book (DeepMind)
Max. Output-Tokens Reasoning (deepseek-reasoner, inkl. CoT)	32 k Default / 64 k max. (reported)	Stand 2025/26	DeepSeek API-Doku
Max. Kontextfenster (Gemini 1.5 Pro)	2 Mio. Tokens (reported)	2024 (für alle Entwickler)	Google Developers Blog
$/Mio. Tokens — GPT-3.5-Niveau (MMLU 64,8 %)	20,00 → 0,07 USD; ~280× (reported)	Nov 2022 → Okt 2024	Stanford AI Index 2025
$/Mio. Tokens — medianer Preisverfall	~50×/Jahr (2020–2025); ~200×/Jahr seit Jan 2024 (reported)	2020 – Anfang 2025	Epoch AI
Inferenz- vs. Trainings-Compute-Anteil	Inferenz ~⅓ (2023) → ½ (2025) → ⅔ (2026) (reported, gerundet)	2023–2026	Deloitte TMT 2026
Durchschn. Output-Tokens je typischer Reasoning-Anfrage (über Anbieter)	k. A. — Recherche ausstehend	k. A.	kein belastbarer aggregierter Primärwert

$/Mio. Tokens — Preisverfall bei GPT-3.5-Niveau

Zeitraum: Nov 2022 → Okt 2024 · Einheit: USD je 1 Mio. Tokens · Qualität: GPT-3.5-Niveau (MMLU 64,8 %). Logarithmischer Effekt, Balkenbreite skaliert hier auf den Logarithmus zur Lesbarkeit.

Nov 2022

20,00 USD

Okt 2024

0,07 USD

Quelle: Stanford AI Index 2025 (Gemini-1.5-Flash-8B als günstigster Anbieter Okt 2024). Rohdaten: assets/data/text-reasoning-token-preis.csv.

Compute-Anteil: Inferenz vs. Training (2026)

Zeitraum: Prognose 2026 · Einheit: Anteil am gesamten KI-Compute (%) · gerundet.

Inferenz ~67 %
Training ~33 %

Quelle: Deloitte TMT Predictions 2026 — Inferenz „roughly two-thirds" 2026 (⅓ 2023, ½ 2025). Stützt die These: Inferenz-Last (HBM-getrieben) wird zur Mehrheit. Rohdaten: assets/data/text-reasoning-inferenz-training.csv.

Edge vs. Datacenter

Überwiegend Datacenter: Frontier- und Reasoning-Modelle laufen ausschließlich im Rechenzentrum. Kleine, quantisierte Modelle (z. B. 7B/8B) werden teils am Edge oder auf Consumer-Geräten eingesetzt, tragen aber keinen relevanten Anteil an der HBM-Last — diese entsteht durch die großen Modelle in der Cloud-Inferenz.

Bedeutung für die Speicher-/Storage-These

Text & Reasoning ist direkt relevant für die HBM-Seite der These. Reasoning-Modelle und lange Kontexte machen den HBM-Bedarf strukturell statt rein zyklisch — das ist der zentrale Unterschied zu früheren GPU-Zyklen. Profiteure auf der HBM-Lieferseite: SK Hynix, Micron, Samsung; verbaut auf Beschleunigern von Nvidia und AMD (Fertigung: TSMC). Kontext zum Markt: Themendossier Arbeitsspeicher und Data Center.

Beobachten / offene Fragen

Verbreitung von Reasoning-Modellen und ihr Token-Verbrauch je Anfrage — entscheidend für den HBM-Multiplikator.
Entwicklung der Kontextfenster-Längen in Produktiv-Deployments (nicht nur Modell-Maxima).
Effizienzfortschritte (Quantisierung, KV-Cache-Kompression, Speculative Decoding), die den HBM-Bedarf je Anfrage dämpfen könnten.
$/Token-Trend — sinkende Preise können Adoption und Volumen steigern und so die Effizienzgewinne überkompensieren.

Quellen & Update-Log

Genutzte Quellen mit klickbaren Links (Primär- vor Sekundärquellen).

Quelle	Typ	Verwendung	Link
JAX Scaling Book — Applied Inference (Google DeepMind)	Primär / technisch	KV-Cache 160 KB/Token, 5,3 GB @ 32k; Gewichte 70B = 140 GB bf16 / 70 GB int8	jax-ml.github.io
DeepSeek API-Dokumentation — Reasoning Model	Primär (Hersteller)	Output-Limit deepseek-reasoner: 32k Default / 64k max. inkl. CoT	api-docs.deepseek.com
Google Developers Blog — Gemini API 2M-Kontext	Primär (Hersteller)	Kontextfenster Gemini 1.5 Pro = 2 Mio. Tokens	developers.googleblog.com
Stanford HAI — AI Index Report 2025	Sekundär / Report	Token-Preis GPT-3.5-Niveau: 20,00 → 0,07 USD/Mio. (~280×), Nov 2022 → Okt 2024	hai.stanford.edu
Epoch AI — LLM Inference Price Trends	Sekundär / Datenanalyse	Medianer Preisverfall ~50×/Jahr; ~200×/Jahr seit Jan 2024; Spannweite 9–900×	epoch.ai
Deloitte — TMT Predictions 2026 (Compute Power)	Sekundär / Prognose	Inferenz-Anteil am KI-Compute: ⅓ (2023) → ½ (2025) → ⅔ (2026)	deloitte.com

Update-Log

Datum	Änderung
2026-05-21	Web-Recherche: Kennzahlen belegt (KV-Cache, Gewichte, Reasoning-Output, Kontextfenster, Token-Preisverfall, Inferenz/Training-Split). Zwei Balkendiagramme + ein Donut ergänzt, drei CSVs unter `assets/data/` angelegt. Akronyme inline aufgelöst, Querverweise auf HBM-/Beschleuniger-Dossiers gesetzt, Engpass-/IP-Pills mit Begründung.
2026-05-20	Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).