Use Case · Nachfragetreiber
Agents & Automatisierung
Agents (autonome bzw. halbautonome KI-Systeme, die ein Ziel selbstständig in Teilschritte zerlegen und ausführen) lösen mehrschrittige Aufgaben mit Tool-Use (Werkzeug-Nutzung: Web-Suche, Code-Ausführung, Datenbankzugriff). Für die These der wichtigste Nachfrage-Hebel: Agents vervielfachen Token (kleinste Verarbeitungseinheit eines Sprachmodells, ~0,75 Wörter), Kontext und damit Speicherbedarf auf bestehenden Modellen — laut Anthropic ein Einzel-Agent ~4×, ein Multi-Agent-System ~15× der Token eines reinen Chats.
Bedarfssignatur
| Dimension | Bedarf | Kurzbegründung |
|---|---|---|
| HBM (High Bandwidth Memory, gestapelter Hochgeschwindigkeitsspeicher am Beschleuniger) | H | Langer, über die Schritte akkumulierender Kontext plus parallele Agent-Instanzen → mehr KV-Cache-Druck (Key-Value-Cache: die zwischengespeicherten Aufmerksamkeits-Vektoren des Kontextfensters) auf HBM. Der KV-Cache wächst linear mit der Sequenzlänge (The Register). |
| DRAM (Dynamic Random Access Memory, Server-Arbeitsspeicher) | H | Agent-State und -Memory, Kontext-Offload bei langen Läufen, Pufferbedarf bei parallelen Instanzen. KV-Cache-Offload in Host-/CXL-RAM kann die GPU-Speichernutzung um bis zu 87 % senken (The Register) — verlagert Last auf DRAM. |
| NAND / Storage | M | Persistenter Agent-Memory, Traces, Logs und Zwischenartefakte; wachsend mit steigendem Autonomiegrad. |
| Compute (Kontext) | H | Multiplikator: eine Aufgabe erzeugt viele Modellaufrufe, lange Laufzeiten und parallele Instanzen — Vielfaches der Inferenz (Anwendung eines trainierten Modells zur Antwortgenerierung) gegenüber einem Chat-Turn. ~4×–15× Token je Aufgabe (Anthropic). |
Was es ist & Reifegrad
Autonome und halbautonome KI-Systeme auf Basis großer Sprachmodelle (LLM, Large Language Model), die mit Tool-Use mehrschrittige Aufgaben selbstständig planen und ausführen. Das verbreitete Grundmuster ist ReAct (Reasoning + Acting: das Modell wechselt im Loop zwischen Überlegen, Werkzeug-Aufruf und Beobachten des Ergebnisses). Dazu gehören Multi-Agent-Systeme, in denen ein Orchestrator (steuernder Lead-Agent, der Teilaufgaben verteilt und Ergebnisse zusammenführt — die Orchestrierung) Aufgaben auf spezialisierte Sub-Agents delegiert, sowie Workflow-Automatisierung, bei der Agents Prozesse ohne menschliche Eingriffe durchlaufen. Die so vervielfachten Modelle sind primär die unter Text & Reasoning, Code und RAG & Dokumente beschriebenen.
Reifegrad (Einschätzung): aufkommend — viel Pilotierung in Unternehmen, produktiver Einsatz noch begrenzt. Laut McKinsey State of AI 2025 skalieren 23 % der befragten Organisationen ein agentisches System in mindestens einer Funktion, weitere 39 % experimentieren — voll skaliert ist je einzelner Funktion aber max. ~10 %. Zuverlässigkeit (Fehlerrate je Schritt potenziert sich über lange Ketten) und Kosten je Aufgabe sind die zentralen Adoptionsbremsen.
Stand der Dinge / Dynamik
Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.
- Adoption real, aber früh: 23 % der von McKinsey (State of AI, Befragung Juni–Juli 2025) befragten Organisationen skalieren agentische KI in mindestens einer Funktion, 39 % experimentieren — voll skaliert je einzelner Funktion aber max. ~10 %. Höchste Adoption: IT-Service-Desk, internes Wissens-Retrieval, Engineering-Copilots, Customer Operations.
- Multi-Agent-Architekturen: Orchestrator-/Sub-Agent-Muster sind etabliert; Anthropic berichtet, dass ein Multi-Agent-System (Claude Opus 4 als Lead, Claude Sonnet 4 als Sub-Agents) einen Einzel-Agenten in der internen Research-Eval um 90,2 % übertrifft — zum Preis des ~15×-Token-Verbrauchs.
- Token-Verbrauch erklärt die Leistung: Laut Anthropic erklärt allein der Token-Verbrauch 80 % der Leistungsvarianz (im BrowseComp-Eval), zusammen mit Zahl der Tool-Aufrufe und Modellwahl 95 %. Heißt: mehr Tokens ≈ mehr Speicher- und Inferenz-Last bei besserem Ergebnis.
- Lange Laufzeiten / wachsende Ketten: Agent-Aufgaben laufen über viele Schritte; der Token-Multiplikator wächst mit der Schrittzahl — laut LeanOps ~3,2× bei 5 Schritten, >30× bei 50, >100× bei 200 Schritten (z. B. autonomes Debugging). (Anbieter-Audit, Sekundärquelle.)
- Speicher-Hierarchie unter Druck: Akkumulierende Kontexte und viele parallele Sessions lassen den KV-Cache linear mit der Sequenzlänge wachsen; HBM ist die teure, fixe Engstelle, weshalb KV-Cache-Offload in DRAM/CXL und NAND-SSDs aufkommt (The Register, Samsung-Whitepaper).
- Kosten/Zuverlässigkeit als Engpass: Token-Kosten je Aufgabe variieren laut Forschung um bis zu 30× bei identischer Aufgabe (Stanford Digital Economy Lab); Fehler akkumulieren über Schritte. Kostenreduktion und Zuverlässigkeit sind Voraussetzung für breite Adoption.
Primärquelle für die Token-Multiplikatoren: Anthropic Engineering. Schritt-Multiplikatoren (LeanOps) sind ein Anbieter-Audit (Sekundärquelle), als solche gekennzeichnet.
Treiber-Mechanik → Hardware
Warum Agents den Speicherbedarf auf bestehenden Modellen potenzieren:
Der Nachfrage-Hebel
- Multiplikator auf Inferenz: Agents vervielfachen Tokens und Kontext auf bestehenden Modellen — gleiche Modelle, ein Vielfaches an Inferenz. Belegt: ~4× (Einzel-Agent) bis ~15× (Multi-Agent) je Aufgabe (Anthropic); abhängig von der Schrittzahl 10–100× (LeanOps, Anbieter-Audit).
- Statelessness treibt Input-Tokens: Jeder Modellaufruf ist zustandslos — der Agent sendet bei jedem Tool-Aufruf die gesamte bisherige Historie erneut. Input-Tokens dominieren so den Verbrauch, der Kontext wächst kumulativ über die Schritte (Stanford Digital Economy Lab).
- Parallele Instanzen: Mehrere Agents arbeiten gleichzeitig; der HBM- und DRAM-Bedarf skaliert mit der Parallelität.
- KV-Cache-Akkumulation: Langer, über Schritte aufgebauter Kontext belastet den KV-Cache stärker als kurze Chat-Turns; er wächst linear mit der Sequenzlänge.
Speicher & Storage
- HBM/DRAM: Langer akkumulierender Kontext plus parallele Instanzen → erhöhter KV-Cache-Druck auf HBM; Agent-State und Kontext-Offload belasten DRAM. KV-Cache-Offload in CXL-/Host-DRAM kann die GPU-Speichernutzung um bis zu 87 % senken — verschiebt Last von HBM auf DRAM (The Register).
- Storage (NAND-Flash): Persistenter Agent-Memory (episodisches Gedächtnis), Traces und Logs wachsen mit Autonomiegrad und Nutzungsvolumen; KV-Cache wird zunehmend auf SSDs ausgelagert (Solidigm).
- Laufzeit: Lange, asynchrone Aufgaben halten Ressourcen über Minuten bis Stunden belegt — andere Auslastungscharakteristik als interaktive Inferenz.
Token-Multiplikator agentischer Workflows
Token je Aufgabe relativ zum reinen Chat (Chat = 1×, log-nahe Achsenskalierung der Balkenbreite). Zeitraum: 2025-06 (Anthropic) bzw. 2026-03–05 (LeanOps).
Einheit: Faktor (× Token je Aufgabe vs. Chat). Legende: blau = belegt/reported (Anthropic), andersfarbig = geschätzt/Anbieter-Audit (LeanOps). Rohdaten: assets/data/agents-token-multiplikator.csv.
Kennzahlen
Quantitative Anker (Quelle, Zeitraum, Einheit; reported = berichtet, geschätzt = Schätzung/Anbieter-Audit, Annahme = eigene Annahme).
| Kennzahl | Wert | Zeitraum | Quelle |
|---|---|---|---|
| Token je Aufgabe — Einzel-Agent vs. Chat | ~4× (reported) | 2025-06 | Anthropic Engineering |
| Token je Aufgabe — Multi-Agent vs. Chat | ~15× (reported) | 2025-06 | Anthropic Engineering |
| Token-Multiplikator nach Schrittzahl (5 / 50 / 200) | ~3,2× / >30× / >100× (geschätzt) | 2026-03–05 | LeanOps (Audit, 30 Teams) |
| Anteil Token-Verbrauch an Leistungsvarianz | 80 % (95 % mit Tool-Calls + Modellwahl) (reported) | 2025-06 | Anthropic Engineering |
| Mehrleistung Multi-Agent vs. Einzel-Agent (interne Eval) | +90,2 % (reported) | 2025-06 | Anthropic Engineering |
| Kostenvarianz je identischer Agent-Aufgabe | bis zu 30× (reported) | 2026 (Studie) | Stanford Digital Economy Lab |
| GPU-Speicherentlastung durch KV-Cache-Offload (CXL) | bis zu 87 % (reported) | 2026-01 | The Register |
| Organisationen, die agentische KI skalieren / experimentieren | 23 % / 39 % (reported) | 2025-06–07 | McKinsey State of AI 2025 |
| Durchschnittliche Modellaufrufe je Agent-Aufgabe | k. A. — Recherche ausstehend | k. A. | k. A. |
Belegte Rohdaten in assets/data/agents-token-multiplikator.csv und assets/data/agents-adoption.csv, mit dieser Tabelle synchron gehalten. Schritt-Multiplikatoren (LeanOps) sind ein Anbieter-Audit, daher „geschätzt".
Adoption agentischer KI in Unternehmen
Selbstauskunft der befragten Organisationen, Anteil in %. Zeitraum: Befragung Juni–Juli 2025, n = 1.993.
- Skaliert (mind. 1 Funktion) 23 %
- Experimentiert 39 %
- Noch kein Agent-Einsatz 38 %
Quelle: McKinsey, The state of AI 2025 (23 % / 39 % reported; 38 % als Rest auf 100 % — eigene Annahme). Voll skaliert je einzelner Funktion: max. ~10 %. Rohdaten: assets/data/agents-adoption.csv.
Edge vs. Datacenter
Überwiegend Datacenter: Agent-Workloads laufen auf Frontier-Modellen, die ausschließlich im Rechenzentrum betrieben werden. Lange, asynchrone Laufzeiten und hohe Parallelität passen nicht zu Edge-Hardware. Kein nennenswerter Edge-Anteil in absehbarer Zeit.
Bedeutung für die Speicher-/Storage-These
Beobachten / offene Fragen
- Tokens je Agent-Aufgabe und deren Verlauf — das ist der direkte Proxy für den HBM/DRAM-Multiplikator.
- Zuverlässigkeit und Adoption: entscheidet, ob der Multiplikator real wird oder in der Pilotierungsphase bleibt.
- Kosten je Aufgabe und ihr Rückgang — Voraussetzung für breite Adoption im Unternehmensumfeld.
- Verbreitung von Multi-Agent-Architekturen und deren Parallelitätsgrad — treibt den gleichzeitigen HBM-Bedarf.
Quellen & Update-Log
Quellen mit klickbaren Links, Primär- vor Sekundärquellen. Token-Multiplikatoren stützen sich auf die Anthropic-Primärquelle; LeanOps ist ein Anbieter-Audit (Sekundärquelle).
| Quelle | Typ | Belegt |
|---|---|---|
| Anthropic Engineering — How we built our multi-agent research system (2025-06) | Primär | ~4× / ~15× Token, 80 %/95 % Leistungsvarianz, +90,2 % Mehrleistung |
| McKinsey — The state of AI 2025 (Nov. 2025, Befragung Juni–Juli 2025) | Primär (Survey) | 23 % skalieren / 39 % experimentieren, max. ~10 % je Funktion voll skaliert |
| Stanford Digital Economy Lab — How are AI agents spending your tokens? (2026) | Primär (Forschung) | Kostenvarianz bis 30×, Input-Token-Dominanz durch zustandslose Aufrufe |
| The Register — How agentic AI strains modern memory hierarchies (2026-01) | Sekundär | KV-Cache linear in Sequenzlänge, KV-Offload (CXL) bis 87 % GPU-Speicherentlastung |
| Samsung — Scaling AI Inference with KV Cache Offloading (Whitepaper) | Primär (Hersteller) | KV-Cache-Offload in DRAM/Storage als Speicher-Hierarchie-Hebel |
| Solidigm — KV cache in flash storage | Sekundär (Hersteller) | NAND-/SSD-Auslagerung des KV-Cache |
| LeanOps — AI Agents Burn 50x More Tokens Than Chats (2026) | Sekundär (Anbieter-Audit) | Schritt-Multiplikatoren ~3,2× / >30× / >100×, 10–100× Spanne |
Update-Log
| Datum | Änderung |
|---|---|
| 2026-05-21 | Web-Recherche eingearbeitet: belegte Token-Multiplikatoren (Anthropic ~4×/~15×), Adoption (McKinsey 23 %/39 %), Speicher-Hierarchie/KV-Offload; zwei Diagramme (Token-Multiplikator-Balken, Adoptions-Donut), Akronyme inline aufgelöst, Querverweise auf Arbeitsspeicher (SK Hynix, Micron) und Data Center (Nvidia, Chip-Fertigung), Quellen-Apparat, Engpass-/IP-Pills, Rohdaten-CSVs angelegt. |
| 2026-05-20 | Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen). |