Use Case · Nachfragetreiber
Code & Coding-Assistenten
Coding-Assistenten und zunehmend autonome Coding-Agents. Speicherprofil ähnlich Text & Reasoning, aber mit sehr langen Repo-Kontexten (Repo = Quellcode-Verzeichnis eines Projekts) und agentischen Schleifen, die HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher direkt am Beschleuniger) und Inferenz (das Ausführen eines trainierten Modells) vervielfachen.
Bedarfssignatur
| Dimension | Bedarf | Kurzbegründung |
|---|---|---|
| HBM (Beschleuniger) | H | Sehr lange Kontexte für ganze Repos → großer KV-Cache (Key-Value-Cache, Zwischenspeicher der bisherigen Tokens, der mit der Kontextlänge wächst); ähnliche Dynamik wie bei Text & Reasoning, aber mit noch längeren Kontextfenstern (Kontextfenster = maximal gleichzeitig verarbeitbare Token-Menge) je Aufgabe. |
| DRAM (Server) | H | DRAM (Dynamic Random Access Memory, flüchtiger Arbeitsspeicher) für Kontext-Offload ins Host-RAM, Modell-Sharding; große Server-Konfigurationen für parallelisierte Entwickler-Workloads. |
| NAND / Storage | M | NAND (nicht-flüchtiger Flash-Speicher) für Code-/Repo-Indizes und Embeddings für RAG-unterstütztes Coding (RAG = Retrieval-Augmented Generation, Generierung mit gezieltem Nachschlagen aus einer Wissensquelle); kleiner als Mediendaten, aber wächst mit Codebase-Größe. |
| Compute (Kontext) | H | Agentische Mehrfachaufrufe (Plan → Code → Test → Fix-Schleife) vervielfachen den Inferenz-Bedarf je Entwickler-Aufgabe. |
Was es ist & Reifegrad
Vom LLM (Large Language Model, großes Sprachmodell) getrieben: Code-Vervollständigung (Autocomplete) direkt in der IDE (Integrated Development Environment, Entwicklungsumgebung wie VS Code), Coding-Assistenten (Chat-basiert), agentic coding (autonome Coding-Agents, die ganze Aufgaben in mehrstufigen Plan-Code-Test-Schleifen selbstständig lösen) und Code-Review. Der Use Case hat eine besonders hohe Zahlungsbereitschaft, da Entwickler-Produktivität direkt messbar ist.
Reifegrad (Einschätzung): skaliert schnell. Autocomplete ist etabliert (siehe Adoptions-Kennzahlen unten); Coding-Assistenten wachsen; agentic coding ist die Frontier mit dem größten Compute-Multiplikator. Hohe Adoptionsbereitschaft: laut Stack Overflow Developer Survey 2025 nutzen oder planen 84 % der befragten Entwickler KI-Werkzeuge (n > 49.000), 51 % der Profis täglich.
Stand der Dinge / Dynamik
Lebender Teil der Seite — beim nächsten Review aktualisieren. Stand 2026-05-21:
- Adoption skaliert breit: GitHub Copilot (Microsoft/GitHub) erreichte im Juli 2025 rund 20 Mio. Nutzer (all-time), nach 15 Mio. im April 2025 — von Microsoft-CEO Satya Nadella im Earnings Call genannt (TechCrunch, GitHub-Zahl). Cursor (Anysphere) meldete > 1 Mio. tägliche Nutzer und kletterte von ~100 Mio. USD ARR (Annual Recurring Revenue, jährlich wiederkehrender Umsatz) im Januar 2025 auf rund 500 Mio. USD im Juni 2025 (TechCrunch).
- Verschiebung zu agentic coding: Statt einzelner Zeilen lösen Agents ganze Aufgaben autonom — mehrere Modellaufrufe, Tool-Use, Selbstkorrektur. Auf SWE-bench Verified (500 reale GitHub-Issues aus 12 Python-Repos, von 93 Entwicklern human-validiert; erstellt 2024 von OpenAI mit den Princeton-Autoren) erreichten Frontier-Modelle Ende 2025 ~80 % gelöster Aufgaben (z. B. Claude Opus 4.5 = 80,9 %, llm-stats Leaderboard) — gegenüber unter ~20 % zwei Jahre zuvor. Caveat (Forschungs-Ehrlichkeit): OpenAI hat SWE-bench Verified am 23.02.2026 als Frontier-Maßstab deprekiert (Test-Mängel, Trainingsdaten-Kontamination, OpenAI); die Werte zeigen den Trend, sind aber kein exakter Fähigkeitsmaßstab mehr.
- Sehr große Kontextfenster: Ganze Codebasen oder Repository-Subsets im Kontext; Coding-fähige Modelle bieten zunehmend 1 Mio. Token Kontext (z. B. Claude Opus 4.6 mit 1-Mio.-Token-Kontextfenster in der Beta, Anthropic). Ein Token ist die kleinste Verarbeitungseinheit (grob ~4 Zeichen / ¾ Wort).
- Intensiver Tool-Use: Code-Ausführung, Test-Runner, Datenbankabfragen, Web-Search — jeder Tool-Call triggert weitere Modellaufrufe. Agentische Traces sind stark input-lastig: SemiAnalysis berichtet aus realen Traces Input-zu-Output-Verhältnisse von ~80:1 (Codex) bis ~100:1 (Claude Code) (SemiAnalysis) — d. h. der HBM-Druck entsteht v. a. beim Einlesen, nicht beim Schreiben.
- Mehrschichtige autonome Läufe → hoher Token-Verbrauch: Plan → Implementierung → Test → Debugging-Schleife. Ein agentischer Coding-Lauf im SWE-bench-Stil verbraucht inkl. Retries grob 1–3,5 Mio. Token, das 5- bis 30-fache einer einfachen Chat-Interaktion (iternal.ai Token-Guide, geschätzt). Siehe Kennzahlen und das Token-Diagramm unten.
Adoptions- und Benchmark-Zahlen sind belegt (Primär-/branchennah); Token-Größenordnungen sind geschätzte Branchenrichtwerte mit hoher Varianz (laut Quelle bis zu 10× zwischen Läufen derselben Aufgabe). Vor harter Verwendung in der These gegen Primärquellen prüfen.
Treiber-Mechanik → Hardware
Warum Code & Coding-Agents HBM und Inferenz-Compute zieht:
HBM — langer Kontext
- Repo-Kontext: Ganze Codebasen im Kontext → KV-Cache wächst proportional zur Kontextlänge; bei typischen Unternehmens-Repos liegt die Kontextlänge deutlich über dem, was ein Chat-Turn benötigt. Die input-lastigen Traces (~80:1–100:1) unterstreichen: es wird viel mehr eingelesen als geschrieben.
- Bandbreiten-Druck: Lange Kontexte bei jeder Anfrage halten den HBM-Auslastungsdruck dauerhaft hoch, auch bei moderaten Batch-Größen. HBM und das Packaging dafür sitzen fast vollständig auf den Beschleunigern von Nvidia; die Module liefern u. a. SK Hynix und Micron.
- Modellgröße: Coding-Modelle tendieren zu großen Parameterzahlen für Code-Verständnis — hoher HBM-Grundbedarf für Gewichte.
Compute-Multiplikator
- Agentic coding: Jede Aufgabe löst eine Kette von Modellaufrufen aus — vervielfachter Inferenz-Bedarf gegenüber einmaligem Chat.
- Storage (moderat): Repo-Indizes und Embedding-Datenbanken für RAG-unterstütztes Coding wachsen mit Codebase-Größe, bleiben aber kleiner als Medien-Daten.
- DRAM: Kontext-Offload und Parallelisierung für viele gleichzeitige Entwickler-Sessions.
Diagramme
Adoption GitHub Copilot — all-time Nutzer
Zeitraum: Feb. 2024 – Juli 2025 · Einheit: Mio. all-time Nutzer (kumuliert, nicht monatlich/täglich aktiv) · Legende: all-time Nutzer.
Quelle: TechCrunch (GitHub/Microsoft-Zahl, Earnings Call Juli 2025), Februar-2024-Anker via CIO Dive. Reported. „all-time" zählt jeden je registrierten Nutzer, nicht aktive — Niveau überzeichnet, Trend ist die Aussage. Rohdaten: assets/data/code-adoption.csv.
Token-Verbrauch je Vorgang — agentisch vs. einfache Completion
Zeitraum: Richtwerte 2025/2026 · Einheit: Token je Vorgang (logische Größenordnung, Balken gestaucht) · Legende: einfacher Vorgang · agentischer Lauf.
Quelle: iternal.ai Token-Usage-Guide (agentisches Coding ~1–3,5 Mio. Token/Aufgabe, 5–30× einer Chat-Interaktion; geschätzt). Balkenlängen sind nur grobe Größenordnungen — die ersten beiden Balken sind im Verhältnis kaum sichtbar, genau das ist die Aussage: der Sprung zu agentic coding ist enorm. Rohdaten: assets/data/code-tokens.csv.
Kennzahlen
Quantitative Anker. Typ: reported = vom Anbieter genannt, geschätzt = Branchenrichtwert/Sekundärquelle, k. A. = noch nicht belegt.
| Kennzahl | Wert | Zeitraum | Typ | Quelle |
|---|---|---|---|---|
| GitHub Copilot — all-time Nutzer | 20 Mio. (15 Mio. im Apr.) | Jul 2025 | reported | TechCrunch / GitHub |
| Cursor (Anysphere) — tägliche Nutzer | > 1 Mio. DAU | 2025 | reported | TechCrunch |
| Cursor — ARR-Verlauf | ~100 → ~500 Mio. USD | Jan → Jun 2025 | reported | TechCrunch |
| KI-Werkzeug-Adoption bei Entwicklern | 84 % nutzen/planen; 51 % der Profis täglich | 2025 (n > 49 k) | reported | Stack Overflow Dev Survey 2025 |
| SWE-bench Verified — Spitzenwert (gelöste Aufgaben) | ~80 % (Claude Opus 4.5 = 80,9 %) | Ende 2025 | reported | llm-stats Leaderboard |
| Tokens je agentischem Coding-Lauf (inkl. Retries) | ~1–3,5 Mio.; 5–30× Chat | 2025/26 | geschätzt | iternal.ai |
| Input-zu-Output-Verhältnis agentisches Coding | ~80:1 (Codex) – 100:1 (Claude Code) | 2026 | geschätzt | SemiAnalysis |
| Kontextfenster Coding-fähiger Frontier-Modelle | bis 1 Mio. Token (Beta) | 2025/26 | reported | Anthropic (Opus 4.6) |
| HBM je eingesetzter Modellklasse (Coding) | k. A. | k. A. | k. A. | Recherche ausstehend |
| Marktgröße Coding-Assistenten (TAM) | k. A. | k. A. | k. A. | Recherche ausstehend |
Rohdaten zu den Diagrammen: assets/data/code-adoption.csv und assets/data/code-tokens.csv — mit dieser Tabelle synchron halten. „all-time Nutzer" überzeichnet das aktive Niveau (keine MAU/DAU-Aufschlüsselung von GitHub). HBM-GB je Coding-Modellklasse und ein belastbarer TAM (Total Addressable Market, adressierbarer Gesamtmarkt) sind noch offen.
Edge vs. Datacenter
Überwiegend Datacenter (siehe Themendossier Data Center): Cloud-Inferenz dominiert, da die eingesetzten Frontier-Modelle zu groß für Client-seitige Ausführung sind. Client-seitige Komponenten (IDE-Plugins, lokale Autocomplete) sind dünn und nutzen kleine, quantisierte Modelle — der relevante HBM-Druck entsteht in der Cloud, auf Beschleunigern von Nvidia und konkurrierenden Anbietern aus der Chip-Fertigung.
Bedeutung für die Speicher-/Storage-These
Beobachten / offene Fragen
- Anteil agentic coding vs. Autocomplete — bestimmt den Inferenz-Multiplikator und damit den HBM-Bedarf je Entwickler-Seat. (Noch keine belastbare Aufschlüsselung gefunden.)
- Tatsächlich genutzte Kontextlänge in Coding-Produkten, nicht nur das Modell-Maximum (1 Mio. Token ist verfügbar — wie oft wird es ausgereizt?).
- HBM-GB je eingesetzter Coding-Modellklasse — die fehlende Brücke von Token-Last zu konkretem Speicherbedarf (offen, siehe Kennzahlen).
- Belastbarer TAM für Coding-Assistenten — bislang nur einzelne Anbieter-ARR-Zahlen, kein konsolidierter Markt belegt.
- Benchmark-Verlässlichkeit: SWE-bench Verified ist deprekiert; Nachfolge-Maßstäbe (SWE-bench Pro o. ä.) für künftige Reviews beobachten.
- Effizienz-Gegenwind: KV-Cache-Kompression (z. B. ~90 % Reduktion laut SemiAnalysis-Beispiel) könnte den HBM-Bedarf je Anfrage dämpfen — gegen Adoptions-/Token-Wachstum abwägen.
Quellen & Update-Log
Quellen mit klickbaren Links (Primär- bzw. anbieternah vor Sekundärquellen). Adoptions- und Benchmark-Zahlen sind belegt; Token-Größenordnungen sind geschätzte Branchenrichtwerte.
Update-Log
| Datum | Änderung |
|---|---|
| 2026-05-21 | Web-Recherche eingearbeitet: belegte Kennzahlen (Copilot/Cursor-Adoption, Stack-Overflow-Survey, SWE-bench, Token-Größenordnungen), zwei HTML/CSS-Balkendiagramme + CSVs (code-adoption.csv, code-tokens.csv), Quellenapparat, Akronyme inline aufgelöst, Querverweise (Nvidia, Micron, SK Hynix, Data Center, Schwesterseiten), Engpass-/IP-Pills. |
| 2026-05-20 | Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen). |