Code

Use Case · Nachfragetreiber

Code & Coding-Assistenten

Coding-Assistenten und zunehmend autonome Coding-Agents. Speicherprofil ähnlich Text & Reasoning, aber mit sehr langen Repo-Kontexten (Repo = Quellcode-Verzeichnis eines Projekts) und agentischen Schleifen, die HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher direkt am Beschleuniger) und Inferenz (das Ausführen eines trainierten Modells) vervielfachen.

Profil: HBM-/speichergeführt Reifegrad: skaliert schnell Last v. a. im Datacenter Engpass HBM/Beschleuniger: hoch IP-Intensität: mittel Stand: 2026-05-21

Bedarfssignatur

DimensionBedarfKurzbegründung
HBM (Beschleuniger)HSehr lange Kontexte für ganze Repos → großer KV-Cache (Key-Value-Cache, Zwischenspeicher der bisherigen Tokens, der mit der Kontextlänge wächst); ähnliche Dynamik wie bei Text & Reasoning, aber mit noch längeren Kontextfenstern (Kontextfenster = maximal gleichzeitig verarbeitbare Token-Menge) je Aufgabe.
DRAM (Server)HDRAM (Dynamic Random Access Memory, flüchtiger Arbeitsspeicher) für Kontext-Offload ins Host-RAM, Modell-Sharding; große Server-Konfigurationen für parallelisierte Entwickler-Workloads.
NAND / StorageMNAND (nicht-flüchtiger Flash-Speicher) für Code-/Repo-Indizes und Embeddings für RAG-unterstütztes Coding (RAG = Retrieval-Augmented Generation, Generierung mit gezieltem Nachschlagen aus einer Wissensquelle); kleiner als Mediendaten, aber wächst mit Codebase-Größe.
Compute (Kontext)HAgentische Mehrfachaufrufe (Plan → Code → Test → Fix-Schleife) vervielfachen den Inferenz-Bedarf je Entwickler-Aufgabe.

Was es ist & Reifegrad

Vom LLM (Large Language Model, großes Sprachmodell) getrieben: Code-Vervollständigung (Autocomplete) direkt in der IDE (Integrated Development Environment, Entwicklungsumgebung wie VS Code), Coding-Assistenten (Chat-basiert), agentic coding (autonome Coding-Agents, die ganze Aufgaben in mehrstufigen Plan-Code-Test-Schleifen selbstständig lösen) und Code-Review. Der Use Case hat eine besonders hohe Zahlungsbereitschaft, da Entwickler-Produktivität direkt messbar ist.

Reifegrad (Einschätzung): skaliert schnell. Autocomplete ist etabliert (siehe Adoptions-Kennzahlen unten); Coding-Assistenten wachsen; agentic coding ist die Frontier mit dem größten Compute-Multiplikator. Hohe Adoptionsbereitschaft: laut Stack Overflow Developer Survey 2025 nutzen oder planen 84 % der befragten Entwickler KI-Werkzeuge (n > 49.000), 51 % der Profis täglich.

Stand der Dinge / Dynamik

Lebender Teil der Seite — beim nächsten Review aktualisieren. Stand 2026-05-21:

  • Adoption skaliert breit: GitHub Copilot (Microsoft/GitHub) erreichte im Juli 2025 rund 20 Mio. Nutzer (all-time), nach 15 Mio. im April 2025 — von Microsoft-CEO Satya Nadella im Earnings Call genannt (TechCrunch, GitHub-Zahl). Cursor (Anysphere) meldete > 1 Mio. tägliche Nutzer und kletterte von ~100 Mio. USD ARR (Annual Recurring Revenue, jährlich wiederkehrender Umsatz) im Januar 2025 auf rund 500 Mio. USD im Juni 2025 (TechCrunch).
  • Verschiebung zu agentic coding: Statt einzelner Zeilen lösen Agents ganze Aufgaben autonom — mehrere Modellaufrufe, Tool-Use, Selbstkorrektur. Auf SWE-bench Verified (500 reale GitHub-Issues aus 12 Python-Repos, von 93 Entwicklern human-validiert; erstellt 2024 von OpenAI mit den Princeton-Autoren) erreichten Frontier-Modelle Ende 2025 ~80 % gelöster Aufgaben (z. B. Claude Opus 4.5 = 80,9 %, llm-stats Leaderboard) — gegenüber unter ~20 % zwei Jahre zuvor. Caveat (Forschungs-Ehrlichkeit): OpenAI hat SWE-bench Verified am 23.02.2026 als Frontier-Maßstab deprekiert (Test-Mängel, Trainingsdaten-Kontamination, OpenAI); die Werte zeigen den Trend, sind aber kein exakter Fähigkeitsmaßstab mehr.
  • Sehr große Kontextfenster: Ganze Codebasen oder Repository-Subsets im Kontext; Coding-fähige Modelle bieten zunehmend 1 Mio. Token Kontext (z. B. Claude Opus 4.6 mit 1-Mio.-Token-Kontextfenster in der Beta, Anthropic). Ein Token ist die kleinste Verarbeitungseinheit (grob ~4 Zeichen / ¾ Wort).
  • Intensiver Tool-Use: Code-Ausführung, Test-Runner, Datenbankabfragen, Web-Search — jeder Tool-Call triggert weitere Modellaufrufe. Agentische Traces sind stark input-lastig: SemiAnalysis berichtet aus realen Traces Input-zu-Output-Verhältnisse von ~80:1 (Codex) bis ~100:1 (Claude Code) (SemiAnalysis) — d. h. der HBM-Druck entsteht v. a. beim Einlesen, nicht beim Schreiben.
  • Mehrschichtige autonome Läufe → hoher Token-Verbrauch: Plan → Implementierung → Test → Debugging-Schleife. Ein agentischer Coding-Lauf im SWE-bench-Stil verbraucht inkl. Retries grob 1–3,5 Mio. Token, das 5- bis 30-fache einer einfachen Chat-Interaktion (iternal.ai Token-Guide, geschätzt). Siehe Kennzahlen und das Token-Diagramm unten.

Adoptions- und Benchmark-Zahlen sind belegt (Primär-/branchennah); Token-Größenordnungen sind geschätzte Branchenrichtwerte mit hoher Varianz (laut Quelle bis zu 10× zwischen Läufen derselben Aufgabe). Vor harter Verwendung in der These gegen Primärquellen prüfen.

Treiber-Mechanik → Hardware

Warum Code & Coding-Agents HBM und Inferenz-Compute zieht:

HBM — langer Kontext

  • Repo-Kontext: Ganze Codebasen im Kontext → KV-Cache wächst proportional zur Kontextlänge; bei typischen Unternehmens-Repos liegt die Kontextlänge deutlich über dem, was ein Chat-Turn benötigt. Die input-lastigen Traces (~80:1–100:1) unterstreichen: es wird viel mehr eingelesen als geschrieben.
  • Bandbreiten-Druck: Lange Kontexte bei jeder Anfrage halten den HBM-Auslastungsdruck dauerhaft hoch, auch bei moderaten Batch-Größen. HBM und das Packaging dafür sitzen fast vollständig auf den Beschleunigern von Nvidia; die Module liefern u. a. SK Hynix und Micron.
  • Modellgröße: Coding-Modelle tendieren zu großen Parameterzahlen für Code-Verständnis — hoher HBM-Grundbedarf für Gewichte.

Compute-Multiplikator

  • Agentic coding: Jede Aufgabe löst eine Kette von Modellaufrufen aus — vervielfachter Inferenz-Bedarf gegenüber einmaligem Chat.
  • Storage (moderat): Repo-Indizes und Embedding-Datenbanken für RAG-unterstütztes Coding wachsen mit Codebase-Größe, bleiben aber kleiner als Medien-Daten.
  • DRAM: Kontext-Offload und Parallelisierung für viele gleichzeitige Entwickler-Sessions.
Übersetzung in die These: Code verstärkt die HBM-Seite über lange Repo-Kontexte und ist über agentic coding ein Inferenz-Multiplikator. Verwandter Multiplikator-Effekt: Agents.

Diagramme

Adoption GitHub Copilot — all-time Nutzer

Zeitraum: Feb. 2024 – Juli 2025 · Einheit: Mio. all-time Nutzer (kumuliert, nicht monatlich/täglich aktiv) · Legende: all-time Nutzer.

Feb 2024 (~)
~1,3 Mio.
Apr 2025
15 Mio.
Jul 2025
20 Mio.

Quelle: TechCrunch (GitHub/Microsoft-Zahl, Earnings Call Juli 2025), Februar-2024-Anker via CIO Dive. Reported. „all-time" zählt jeden je registrierten Nutzer, nicht aktive — Niveau überzeichnet, Trend ist die Aussage. Rohdaten: assets/data/code-adoption.csv.

Token-Verbrauch je Vorgang — agentisch vs. einfache Completion

Zeitraum: Richtwerte 2025/2026 · Einheit: Token je Vorgang (logische Größenordnung, Balken gestaucht) · Legende: einfacher Vorgang · agentischer Lauf.

Inline-Completion
~10²–10³
Chat-Anfrage
~10³–10⁴
Agentischer Lauf
1–3,5 Mio.

Quelle: iternal.ai Token-Usage-Guide (agentisches Coding ~1–3,5 Mio. Token/Aufgabe, 5–30× einer Chat-Interaktion; geschätzt). Balkenlängen sind nur grobe Größenordnungen — die ersten beiden Balken sind im Verhältnis kaum sichtbar, genau das ist die Aussage: der Sprung zu agentic coding ist enorm. Rohdaten: assets/data/code-tokens.csv.

Kennzahlen

Quantitative Anker. Typ: reported = vom Anbieter genannt, geschätzt = Branchenrichtwert/Sekundärquelle, k. A. = noch nicht belegt.

KennzahlWertZeitraumTypQuelle
GitHub Copilot — all-time Nutzer20 Mio. (15 Mio. im Apr.)Jul 2025reportedTechCrunch / GitHub
Cursor (Anysphere) — tägliche Nutzer> 1 Mio. DAU2025reportedTechCrunch
Cursor — ARR-Verlauf~100 → ~500 Mio. USDJan → Jun 2025reportedTechCrunch
KI-Werkzeug-Adoption bei Entwicklern84 % nutzen/planen; 51 % der Profis täglich2025 (n > 49 k)reportedStack Overflow Dev Survey 2025
SWE-bench Verified — Spitzenwert (gelöste Aufgaben)~80 % (Claude Opus 4.5 = 80,9 %)Ende 2025reportedllm-stats Leaderboard
Tokens je agentischem Coding-Lauf (inkl. Retries)~1–3,5 Mio.; 5–30× Chat2025/26geschätztiternal.ai
Input-zu-Output-Verhältnis agentisches Coding~80:1 (Codex) – 100:1 (Claude Code)2026geschätztSemiAnalysis
Kontextfenster Coding-fähiger Frontier-Modellebis 1 Mio. Token (Beta)2025/26reportedAnthropic (Opus 4.6)
HBM je eingesetzter Modellklasse (Coding)k. A.k. A.k. A.Recherche ausstehend
Marktgröße Coding-Assistenten (TAM)k. A.k. A.k. A.Recherche ausstehend

Rohdaten zu den Diagrammen: assets/data/code-adoption.csv und assets/data/code-tokens.csv — mit dieser Tabelle synchron halten. „all-time Nutzer" überzeichnet das aktive Niveau (keine MAU/DAU-Aufschlüsselung von GitHub). HBM-GB je Coding-Modellklasse und ein belastbarer TAM (Total Addressable Market, adressierbarer Gesamtmarkt) sind noch offen.

Edge vs. Datacenter

Überwiegend Datacenter (siehe Themendossier Data Center): Cloud-Inferenz dominiert, da die eingesetzten Frontier-Modelle zu groß für Client-seitige Ausführung sind. Client-seitige Komponenten (IDE-Plugins, lokale Autocomplete) sind dünn und nutzen kleine, quantisierte Modelle — der relevante HBM-Druck entsteht in der Cloud, auf Beschleunigern von Nvidia und konkurrierenden Anbietern aus der Chip-Fertigung.

Bedeutung für die Speicher-/Storage-These

Code & Coding-Assistenten verstärken die HBM-Seite der These über lange Repo-Kontexte und sind über agentic coding ein Inferenz-Multiplikator: Adoption skaliert (Copilot ~20 Mio., Cursor > 1 Mio. DAU), und ein einzelner agentischer Lauf zieht 1–3,5 Mio. input-lastige Token — das ist struktureller, kein zyklischer HBM-Bedarf. Profitierende Speicher-Investments: SK Hynix und Micron (HBM/DRAM), eingebettet im Themendossier Arbeitsspeicher. Verwandter Use Case mit ähnlichem Multiplikator-Effekt: Agents; methodisch eng verwandt: Text & Reasoning und RAG & Dokumente.

Beobachten / offene Fragen

  • Anteil agentic coding vs. Autocomplete — bestimmt den Inferenz-Multiplikator und damit den HBM-Bedarf je Entwickler-Seat. (Noch keine belastbare Aufschlüsselung gefunden.)
  • Tatsächlich genutzte Kontextlänge in Coding-Produkten, nicht nur das Modell-Maximum (1 Mio. Token ist verfügbar — wie oft wird es ausgereizt?).
  • HBM-GB je eingesetzter Coding-Modellklasse — die fehlende Brücke von Token-Last zu konkretem Speicherbedarf (offen, siehe Kennzahlen).
  • Belastbarer TAM für Coding-Assistenten — bislang nur einzelne Anbieter-ARR-Zahlen, kein konsolidierter Markt belegt.
  • Benchmark-Verlässlichkeit: SWE-bench Verified ist deprekiert; Nachfolge-Maßstäbe (SWE-bench Pro o. ä.) für künftige Reviews beobachten.
  • Effizienz-Gegenwind: KV-Cache-Kompression (z. B. ~90 % Reduktion laut SemiAnalysis-Beispiel) könnte den HBM-Bedarf je Anfrage dämpfen — gegen Adoptions-/Token-Wachstum abwägen.

Quellen & Update-Log

Quellen mit klickbaren Links (Primär- bzw. anbieternah vor Sekundärquellen). Adoptions- und Benchmark-Zahlen sind belegt; Token-Größenordnungen sind geschätzte Branchenrichtwerte.

#QuelleBelegtTyp
1TechCrunch — GitHub Copilot crosses 20M all-time users (zitiert Microsoft Earnings Call)Copilot 20 Mio. (Jul 2025), 15 Mio. (Apr 2025)anbieternah
2CIO Dive — Copilot Subscriber/Revenue Growthfrüher Nutzer-/Abonnenten-Ankersekundär
3TechCrunch — Cursor/Anysphere $9,9 Mrd. Bewertung, > $500M ARRCursor ARR-Verlauf, > 1 Mio. DAUanbieternah
4Wikipedia — Anysphere (Cursor)Firmenkontext, Zeitleistesekundär
5Stack Overflow Developer Survey 2025 — AI84 % Adoption, 51 % täglich, 46 % Misstrauenprimär
6SWE-bench (offizielle Seite) / princeton-nlp/SWE-bench_Verified (Datensatz)500 Tasks, 12 Python-Repos, human-validiertprimär
7llm-stats — SWE-bench Verified LeaderboardSpitzenwerte ~80–94 % gelöstsekundär
8OpenAI — Warum wir SWE-bench Verified nicht mehr nutzen (Deprecation 23.02.2026)Benchmark-Caveat / Kontaminationprimär
9Anthropic — Claude Opus 4.61-Mio.-Token-Kontextfenster, SWE-bench-Scoreprimär
10iternal.ai — AI Token Usage Guide (2026)1–3,5 Mio. Token/agentischer Lauf, 5–30× Chatsekundär (geschätzt)
11SemiAnalysis — The Coding Assistant Breakdown: More Tokens PleaseInput:Output ~80:1–100:1, KV-Cache-Kompressionsekundär

Update-Log

DatumÄnderung
2026-05-21Web-Recherche eingearbeitet: belegte Kennzahlen (Copilot/Cursor-Adoption, Stack-Overflow-Survey, SWE-bench, Token-Größenordnungen), zwei HTML/CSS-Balkendiagramme + CSVs (code-adoption.csv, code-tokens.csv), Quellenapparat, Akronyme inline aufgelöst, Querverweise (Nvidia, Micron, SK Hynix, Data Center, Schwesterseiten), Engpass-/IP-Pills.
2026-05-20Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).