Use Case · Nachfragetreiber
Text, Chat & Reasoning
Der Kern des aktuellen LLM-Booms (Large Language Model, großes Sprachmodell) — Chat, Schreiben, Übersetzung, Zusammenfassung und Reasoning. Für die These der HBM-Treiber Nr. 1: KV-Cache (Key-Value-Cache, zwischengespeicherte Attention-Schlüssel/-Werte) und Kontextlänge bestimmen den Speicherdruck am Beschleuniger. HBM (High Bandwidth Memory, hochbandbreitiger Stapelspeicher) ist hier der primäre Engpass — geliefert v. a. von SK Hynix, Micron und Samsung, verbaut auf Beschleunigern von Nvidia und AMD.
Pills als Einschätzung: Engpass: hoch — HBM-Kapazität und -Bandbreite limitieren den Inferenz-Durchsatz; HBM ist über 2025/26 ausverkauft (siehe Themendossier Arbeitsspeicher). IP-Intensität: hoch — Wert konzentriert sich auf proprietäre Modellgewichte, Beschleuniger-Architektur (Nvidia CUDA/Tensor-Cores) und HBM-Stapeltechnik; Standard-Server-DRAM dagegen niedrig.
Bedarfssignatur
| Dimension | Bedarf | Kurzbegründung |
|---|---|---|
| HBM (Beschleuniger) | H | Modellgewichte + KV-Cache am Beschleuniger; der KV-Cache wächst linear mit Kontextlänge × Batch — HBM-Kapazität und -Bandbreite sind der Inferenz-Flaschenhals (ein Token = kleinste Verarbeitungseinheit, ~0,75 Wörter). |
| DRAM (Server) | H | DRAM (Dynamic Random Access Memory, dynamischer Arbeitsspeicher): KV-Cache-Offload, Host-Memory für Modell-Sharding, große Server-RAM-Konfigurationen. |
| NAND / Storage | M | NAND (nichtflüchtiger Flash-Speicher): Trainingskorpora groß, aber teils einmalig; Inferenz-Logs, Reasoning-Traces. |
| Compute (Kontext) | H | Training von Frontier-Modellen plus Reasoning-Inferenz mit Test-time-compute (zusätzliche Rechenzeit zur Antwortzeit, statt nur beim Training), die viele Tokens erzeugt — FLOPS (Floating Point Operations per Second, Gleitkommaoperationen je Sekunde) als Compute-Maß. |
Was es ist & Reifegrad
Chat-Assistenten, Schreiben, Übersetzung, Zusammenfassung und Reasoning-Modelle. Der Use Case deckt den breitesten Teil des LLM-Markts ab — von einfachen Chat-Interfaces bis hin zu komplexen Reasoning-Pipelines.
Reifegrad (Einschätzung): produktiv und breit genutzt. Chat und Texterstellung sind Commodity; Reasoning-Modelle (mit Chain-of-Thought, einer ausgeschriebenen Gedankenkette als Zwischenschritte, und Test-time-compute) sind die aktuelle Wachstumsfront mit deutlich höherer Compute- und HBM-Last je Anfrage. Die Last fällt bei der Inferenz an (das Ausführen des fertigen Modells, im Unterschied zum einmaligen Training).
Stand der Dinge / Dynamik
Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.
- Reasoning / Test-time-compute: Haupttrend — Modelle erzeugen deutlich mehr Tokens je Anfrage (lange Chain-of-Thought-Sequenzen, Selbstkorrektur). Belegbarer Anker: das Reasoning-Modell deepseek-reasoner erlaubt per Default 32 000, maximal 64 000 Output-Tokens inklusive der internen Gedankenkette (DeepSeek API-Doku) — vielfaches der wenigen hundert bis tausend Tokens einer klassischen Chat-Antwort. Ein einheitlicher Token-Multiplikator über alle Anbieter ist nicht primär belegt → bleibt als Spannweite geführt.
- Sehr lange Kontextfenster: 100k bis zu Millionen Tokens sind zunehmend Standard; Gemini 1.5 Pro bietet ein 2-Mio.-Token-Fenster für alle Entwickler. Der KV-Cache wächst proportional zur Kontextlänge × Batch (siehe Mechanik).
- MoE-Architekturen: Mixture-of-Experts (gemischte Experten — nur ein Teil der Parameter ist je Token aktiv) reduziert aktive Parameter je Token, ändert aber nicht die Gesamtgröße im HBM-Speicher.
- Effizienzdruck: Quantisierung (Reduktion der Zahlengenauigkeit der Gewichte/Aktivierungen, z. B. von 16 auf 8 oder 4 Bit), KV-Cache-Kompression und Speculative Decoding (ein kleines Hilfsmodell entwirft Tokens, das große Modell prüft sie) dämpfen den HBM-Bedarf je Anfrage — Gegenwind für die These. Adoption, lange Kontexte und Reasoning überwiegen bisher; der dramatische Preisverfall (siehe Kennzahlen) zeigt den Effizienzfortschritt, ging aber mit steigendem Gesamt-Token-Volumen einher.
Quellen: DeepSeek API-Doku · Google Developers Blog (Gemini 2M). Architektur-Aussagen (MoE/Quantisierung) sind allgemein etablierte Verfahren; Token-Multiplikator über alle Anbieter bleibt Spannweite/Einschätzung.
Treiber-Mechanik → Hardware
Warum Text & Reasoning vor allem HBM zieht:
HBM — der Kerntreiber
- KV-Cache-Wachstum: Der Cache wächst linear mit Kontextlänge × Batch. Konkret: Llama 3-70B belegt rund 160 KB je Token (int8, Grouped-Query-Attention) — bei 32 000 Tokens Kontext sind das ~5,3 GB je Sequenz (JAX Scaling Book, Google DeepMind). Über viele parallele Sequenzen (Batch) hinweg übersteigt der KV-Cache schnell die Modellgewichte.
- Bandbreiten-Flaschenhals: HBM-Bandbreite limitiert den Token-Durchsatz bei der Inferenz; „bei langen Kontexten dominiert das KV-Laden die gesamte Schrittzeit" (ebd.). Reasoning erzeugt deutlich mehr Output-Tokens je Anfrage und vervielfacht die Inferenz-Last.
- Kapazitätsdruck: Frontier-Modelle plus langer Kontext plus Batch-Parallelismus übersteigen schnell eine einzelne HBM-Instanz — Llama 3.1-405B benötigt bei bf16 allein ~810 GB Gewichte und damit mehrere Nvidia-/AMD-Beschleuniger.
DRAM & Storage
- DRAM: KV-Cache-Offload vom Beschleuniger ins Host-RAM und Modell-Sharding benötigen große Server-Speicherkonfigurationen.
- Storage: Trainingskorpora (groß, aber weitgehend einmalig); Inferenz-Logs und Reasoning-Traces wachsen mit Nutzung, bleiben aber moderat.
Modellgewichte je Klasse (HBM-Grundlast, bf16)
Zeitraum: Modellstände 2024/25 · Einheit: GB Gewichte bei bfloat16 (= Parameterzahl × 2 Byte). Nur die statische Gewichts-Grundlast; KV-Cache und Batch kommen on top.
Quelle: JAX Scaling Book (Google DeepMind), 70B = 140 GB bf16 / 70 GB int8; 405B = 405 Mrd. × 2 Byte ≈ 810 GB (eigene Rechnung); 7-8B = 7-8 Mrd. × 2 Byte (eigene Rechnung). Rohdaten: assets/data/text-reasoning-kv-cache.csv.
Kennzahlen
Quantitative Anker — Quelle, Zeitraum, Einheit und Belegtyp (reported / geschätzt / eigene Annahme) je Zeile.
| Kennzahl | Wert | Zeitraum | Quelle |
|---|---|---|---|
| Gewichte je Modellklasse (bf16): 70B / 405B | 140 GB / ~810 GB (reported / eigene Rechnung) | Modellstand 2024/25 | JAX Scaling Book (DeepMind) |
| KV-Cache je Token (Llama 3-70B, int8, GQA) | 160 KB/Token; ~5,3 GB bei 32 k Kontext (reported) | Modellstand 2024 | JAX Scaling Book (DeepMind) |
| Max. Output-Tokens Reasoning (deepseek-reasoner, inkl. CoT) | 32 k Default / 64 k max. (reported) | Stand 2025/26 | DeepSeek API-Doku |
| Max. Kontextfenster (Gemini 1.5 Pro) | 2 Mio. Tokens (reported) | 2024 (für alle Entwickler) | Google Developers Blog |
| $/Mio. Tokens — GPT-3.5-Niveau (MMLU 64,8 %) | 20,00 → 0,07 USD; ~280× (reported) | Nov 2022 → Okt 2024 | Stanford AI Index 2025 |
| $/Mio. Tokens — medianer Preisverfall | ~50×/Jahr (2020–2025); ~200×/Jahr seit Jan 2024 (reported) | 2020 – Anfang 2025 | Epoch AI |
| Inferenz- vs. Trainings-Compute-Anteil | Inferenz ~⅓ (2023) → ½ (2025) → ⅔ (2026) (reported, gerundet) | 2023–2026 | Deloitte TMT 2026 |
| Durchschn. Output-Tokens je typischer Reasoning-Anfrage (über Anbieter) | k. A. — Recherche ausstehend | k. A. | kein belastbarer aggregierter Primärwert |
$/Mio. Tokens — Preisverfall bei GPT-3.5-Niveau
Zeitraum: Nov 2022 → Okt 2024 · Einheit: USD je 1 Mio. Tokens · Qualität: GPT-3.5-Niveau (MMLU 64,8 %). Logarithmischer Effekt, Balkenbreite skaliert hier auf den Logarithmus zur Lesbarkeit.
Quelle: Stanford AI Index 2025 (Gemini-1.5-Flash-8B als günstigster Anbieter Okt 2024). Rohdaten: assets/data/text-reasoning-token-preis.csv.
Compute-Anteil: Inferenz vs. Training (2026)
Zeitraum: Prognose 2026 · Einheit: Anteil am gesamten KI-Compute (%) · gerundet.
- Inferenz ~67 %
- Training ~33 %
Quelle: Deloitte TMT Predictions 2026 — Inferenz „roughly two-thirds" 2026 (⅓ 2023, ½ 2025). Stützt die These: Inferenz-Last (HBM-getrieben) wird zur Mehrheit. Rohdaten: assets/data/text-reasoning-inferenz-training.csv.
Edge vs. Datacenter
Überwiegend Datacenter: Frontier- und Reasoning-Modelle laufen ausschließlich im Rechenzentrum. Kleine, quantisierte Modelle (z. B. 7B/8B) werden teils am Edge oder auf Consumer-Geräten eingesetzt, tragen aber keinen relevanten Anteil an der HBM-Last — diese entsteht durch die großen Modelle in der Cloud-Inferenz.
Bedeutung für die Speicher-/Storage-These
Beobachten / offene Fragen
- Verbreitung von Reasoning-Modellen und ihr Token-Verbrauch je Anfrage — entscheidend für den HBM-Multiplikator.
- Entwicklung der Kontextfenster-Längen in Produktiv-Deployments (nicht nur Modell-Maxima).
- Effizienzfortschritte (Quantisierung, KV-Cache-Kompression, Speculative Decoding), die den HBM-Bedarf je Anfrage dämpfen könnten.
- $/Token-Trend — sinkende Preise können Adoption und Volumen steigern und so die Effizienzgewinne überkompensieren.
Quellen & Update-Log
Genutzte Quellen mit klickbaren Links (Primär- vor Sekundärquellen).
| Quelle | Typ | Verwendung | Link |
|---|---|---|---|
| JAX Scaling Book — Applied Inference (Google DeepMind) | Primär / technisch | KV-Cache 160 KB/Token, 5,3 GB @ 32k; Gewichte 70B = 140 GB bf16 / 70 GB int8 | jax-ml.github.io |
| DeepSeek API-Dokumentation — Reasoning Model | Primär (Hersteller) | Output-Limit deepseek-reasoner: 32k Default / 64k max. inkl. CoT | api-docs.deepseek.com |
| Google Developers Blog — Gemini API 2M-Kontext | Primär (Hersteller) | Kontextfenster Gemini 1.5 Pro = 2 Mio. Tokens | developers.googleblog.com |
| Stanford HAI — AI Index Report 2025 | Sekundär / Report | Token-Preis GPT-3.5-Niveau: 20,00 → 0,07 USD/Mio. (~280×), Nov 2022 → Okt 2024 | hai.stanford.edu |
| Epoch AI — LLM Inference Price Trends | Sekundär / Datenanalyse | Medianer Preisverfall ~50×/Jahr; ~200×/Jahr seit Jan 2024; Spannweite 9–900× | epoch.ai |
| Deloitte — TMT Predictions 2026 (Compute Power) | Sekundär / Prognose | Inferenz-Anteil am KI-Compute: ⅓ (2023) → ½ (2025) → ⅔ (2026) | deloitte.com |
Update-Log
| Datum | Änderung |
|---|---|
| 2026-05-21 | Web-Recherche: Kennzahlen belegt (KV-Cache, Gewichte, Reasoning-Output, Kontextfenster, Token-Preisverfall, Inferenz/Training-Split). Zwei Balkendiagramme + ein Donut ergänzt, drei CSVs unter assets/data/ angelegt. Akronyme inline aufgelöst, Querverweise auf HBM-/Beschleuniger-Dossiers gesetzt, Engpass-/IP-Pills mit Begründung. |
| 2026-05-20 | Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen). |