Use Case · Nachfragetreiber

Agents & Automatisierung

Agents (autonome bzw. halbautonome KI-Systeme, die ein Ziel selbstständig in Teilschritte zerlegen und ausführen) lösen mehrschrittige Aufgaben mit Tool-Use (Werkzeug-Nutzung: Web-Suche, Code-Ausführung, Datenbankzugriff). Für die These der wichtigste Nachfrage-Hebel: Agents vervielfachen Token (kleinste Verarbeitungseinheit eines Sprachmodells, ~0,75 Wörter), Kontext und damit Speicherbedarf auf bestehenden Modellen — laut Anthropic ein Einzel-Agent ~4×, ein Multi-Agent-System ~15× der Token eines reinen Chats.

Profil: Speicher-Multiplikator Reifegrad: aufkommend, viel Pilotierung Last v. a. im Datacenter Engpass HBM: hoch IP-Intensität (Use-Case): niedrig Stand: 2026-05-21

Bedarfssignatur

Dimension	Bedarf	Kurzbegründung
HBM (High Bandwidth Memory, gestapelter Hochgeschwindigkeitsspeicher am Beschleuniger)	H	Langer, über die Schritte akkumulierender Kontext plus parallele Agent-Instanzen → mehr KV-Cache-Druck (Key-Value-Cache: die zwischengespeicherten Aufmerksamkeits-Vektoren des Kontextfensters) auf HBM. Der KV-Cache wächst linear mit der Sequenzlänge (The Register).
DRAM (Dynamic Random Access Memory, Server-Arbeitsspeicher)	H	Agent-State und -Memory, Kontext-Offload bei langen Läufen, Pufferbedarf bei parallelen Instanzen. KV-Cache-Offload in Host-/CXL-RAM kann die GPU-Speichernutzung um bis zu 87 % senken (The Register) — verlagert Last auf DRAM.
NAND / Storage	M	Persistenter Agent-Memory, Traces, Logs und Zwischenartefakte; wachsend mit steigendem Autonomiegrad.
Compute (Kontext)	H	Multiplikator: eine Aufgabe erzeugt viele Modellaufrufe, lange Laufzeiten und parallele Instanzen — Vielfaches der Inferenz (Anwendung eines trainierten Modells zur Antwortgenerierung) gegenüber einem Chat-Turn. ~4×–15× Token je Aufgabe (Anthropic).

Was es ist & Reifegrad

Autonome und halbautonome KI-Systeme auf Basis großer Sprachmodelle (LLM, Large Language Model), die mit Tool-Use mehrschrittige Aufgaben selbstständig planen und ausführen. Das verbreitete Grundmuster ist ReAct (Reasoning + Acting: das Modell wechselt im Loop zwischen Überlegen, Werkzeug-Aufruf und Beobachten des Ergebnisses). Dazu gehören Multi-Agent-Systeme, in denen ein Orchestrator (steuernder Lead-Agent, der Teilaufgaben verteilt und Ergebnisse zusammenführt — die Orchestrierung) Aufgaben auf spezialisierte Sub-Agents delegiert, sowie Workflow-Automatisierung, bei der Agents Prozesse ohne menschliche Eingriffe durchlaufen. Die so vervielfachten Modelle sind primär die unter Text & Reasoning, Code und RAG & Dokumente beschriebenen.

Reifegrad (Einschätzung): aufkommend — viel Pilotierung in Unternehmen, produktiver Einsatz noch begrenzt. Laut McKinsey State of AI 2025 skalieren 23 % der befragten Organisationen ein agentisches System in mindestens einer Funktion, weitere 39 % experimentieren — voll skaliert ist je einzelner Funktion aber max. ~10 %. Zuverlässigkeit (Fehlerrate je Schritt potenziert sich über lange Ketten) und Kosten je Aufgabe sind die zentralen Adoptionsbremsen.

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

Adoption real, aber früh: 23 % der von McKinsey (State of AI, Befragung Juni–Juli 2025) befragten Organisationen skalieren agentische KI in mindestens einer Funktion, 39 % experimentieren — voll skaliert je einzelner Funktion aber max. ~10 %. Höchste Adoption: IT-Service-Desk, internes Wissens-Retrieval, Engineering-Copilots, Customer Operations.
Multi-Agent-Architekturen: Orchestrator-/Sub-Agent-Muster sind etabliert; Anthropic berichtet, dass ein Multi-Agent-System (Claude Opus 4 als Lead, Claude Sonnet 4 als Sub-Agents) einen Einzel-Agenten in der internen Research-Eval um 90,2 % übertrifft — zum Preis des ~15×-Token-Verbrauchs.
Token-Verbrauch erklärt die Leistung: Laut Anthropic erklärt allein der Token-Verbrauch 80 % der Leistungsvarianz (im BrowseComp-Eval), zusammen mit Zahl der Tool-Aufrufe und Modellwahl 95 %. Heißt: mehr Tokens ≈ mehr Speicher- und Inferenz-Last bei besserem Ergebnis.
Lange Laufzeiten / wachsende Ketten: Agent-Aufgaben laufen über viele Schritte; der Token-Multiplikator wächst mit der Schrittzahl — laut LeanOps ~3,2× bei 5 Schritten, >30× bei 50, >100× bei 200 Schritten (z. B. autonomes Debugging). (Anbieter-Audit, Sekundärquelle.)
Speicher-Hierarchie unter Druck: Akkumulierende Kontexte und viele parallele Sessions lassen den KV-Cache linear mit der Sequenzlänge wachsen; HBM ist die teure, fixe Engstelle, weshalb KV-Cache-Offload in DRAM/CXL und NAND-SSDs aufkommt (The Register, Samsung-Whitepaper).
Kosten/Zuverlässigkeit als Engpass: Token-Kosten je Aufgabe variieren laut Forschung um bis zu 30× bei identischer Aufgabe (Stanford Digital Economy Lab); Fehler akkumulieren über Schritte. Kostenreduktion und Zuverlässigkeit sind Voraussetzung für breite Adoption.

Primärquelle für die Token-Multiplikatoren: Anthropic Engineering. Schritt-Multiplikatoren (LeanOps) sind ein Anbieter-Audit (Sekundärquelle), als solche gekennzeichnet.

Treiber-Mechanik → Hardware

Warum Agents den Speicherbedarf auf bestehenden Modellen potenzieren:

Der Nachfrage-Hebel

Multiplikator auf Inferenz: Agents vervielfachen Tokens und Kontext auf bestehenden Modellen — gleiche Modelle, ein Vielfaches an Inferenz. Belegt: ~4× (Einzel-Agent) bis ~15× (Multi-Agent) je Aufgabe (Anthropic); abhängig von der Schrittzahl 10–100× (LeanOps, Anbieter-Audit).
Statelessness treibt Input-Tokens: Jeder Modellaufruf ist zustandslos — der Agent sendet bei jedem Tool-Aufruf die gesamte bisherige Historie erneut. Input-Tokens dominieren so den Verbrauch, der Kontext wächst kumulativ über die Schritte (Stanford Digital Economy Lab).
Parallele Instanzen: Mehrere Agents arbeiten gleichzeitig; der HBM- und DRAM-Bedarf skaliert mit der Parallelität.
KV-Cache-Akkumulation: Langer, über Schritte aufgebauter Kontext belastet den KV-Cache stärker als kurze Chat-Turns; er wächst linear mit der Sequenzlänge.

Speicher & Storage

HBM/DRAM: Langer akkumulierender Kontext plus parallele Instanzen → erhöhter KV-Cache-Druck auf HBM; Agent-State und Kontext-Offload belasten DRAM. KV-Cache-Offload in CXL-/Host-DRAM kann die GPU-Speichernutzung um bis zu 87 % senken — verschiebt Last von HBM auf DRAM (The Register).
Storage (NAND-Flash): Persistenter Agent-Memory (episodisches Gedächtnis), Traces und Logs wachsen mit Autonomiegrad und Nutzungsvolumen; KV-Cache wird zunehmend auf SSDs ausgelagert (Solidigm).
Laufzeit: Lange, asynchrone Aufgaben halten Ressourcen über Minuten bis Stunden belegt — andere Auslastungscharakteristik als interaktive Inferenz.

Übersetzung in die These: Agents sind kein eigener Modelltyp, sondern ein Multiplikator auf die gesamte Inferenz- und Speichernachfrage. Sie sind der wichtigste Demand-Verstärker für die Speicher-These — weil sie dieselben Modelle (z. B. Text & Reasoning, Code) um eine Größenordnung intensiver nutzen, ohne neue Modellarchitekturen zu erfordern. Der Effekt schlägt auf HBM (SK Hynix, Micron) und Beschleuniger (Nvidia) durch.

Token-Multiplikator agentischer Workflows

Token je Aufgabe relativ zum reinen Chat (Chat = 1×, log-nahe Achsenskalierung der Balkenbreite). Zeitraum: 2025-06 (Anthropic) bzw. 2026-03–05 (LeanOps).

Einzel-Chat

1× (Basis)

Einzel-Agent

~4×

Multi-Agent

~15×

Loop ~50 Schritte

>30×

Loop ~200 Schritte

>100×

Einheit: Faktor (× Token je Aufgabe vs. Chat). Legende: blau = belegt/reported (Anthropic), andersfarbig = geschätzt/Anbieter-Audit (LeanOps). Rohdaten: assets/data/agents-token-multiplikator.csv.

Kennzahlen

Quantitative Anker (Quelle, Zeitraum, Einheit; reported = berichtet, geschätzt = Schätzung/Anbieter-Audit, Annahme = eigene Annahme).

Kennzahl	Wert	Zeitraum	Quelle
Token je Aufgabe — Einzel-Agent vs. Chat	~4× (reported)	2025-06	Anthropic Engineering
Token je Aufgabe — Multi-Agent vs. Chat	~15× (reported)	2025-06	Anthropic Engineering
Token-Multiplikator nach Schrittzahl (5 / 50 / 200)	~3,2× / >30× / >100× (geschätzt)	2026-03–05	LeanOps (Audit, 30 Teams)
Anteil Token-Verbrauch an Leistungsvarianz	80 % (95 % mit Tool-Calls + Modellwahl) (reported)	2025-06	Anthropic Engineering
Mehrleistung Multi-Agent vs. Einzel-Agent (interne Eval)	+90,2 % (reported)	2025-06	Anthropic Engineering
Kostenvarianz je identischer Agent-Aufgabe	bis zu 30× (reported)	2026 (Studie)	Stanford Digital Economy Lab
GPU-Speicherentlastung durch KV-Cache-Offload (CXL)	bis zu 87 % (reported)	2026-01	The Register
Organisationen, die agentische KI skalieren / experimentieren	23 % / 39 % (reported)	2025-06–07	McKinsey State of AI 2025
Durchschnittliche Modellaufrufe je Agent-Aufgabe	k. A. — Recherche ausstehend	k. A.	k. A.

Belegte Rohdaten in assets/data/agents-token-multiplikator.csv und assets/data/agents-adoption.csv, mit dieser Tabelle synchron gehalten. Schritt-Multiplikatoren (LeanOps) sind ein Anbieter-Audit, daher „geschätzt".

Adoption agentischer KI in Unternehmen

Selbstauskunft der befragten Organisationen, Anteil in %. Zeitraum: Befragung Juni–Juli 2025, n = 1.993.

Skaliert (mind. 1 Funktion) 23 %
Experimentiert 39 %
Noch kein Agent-Einsatz 38 %

Quelle: McKinsey, The state of AI 2025 (23 % / 39 % reported; 38 % als Rest auf 100 % — eigene Annahme). Voll skaliert je einzelner Funktion: max. ~10 %. Rohdaten: assets/data/agents-adoption.csv.

Edge vs. Datacenter

Überwiegend Datacenter: Agent-Workloads laufen auf Frontier-Modellen, die ausschließlich im Rechenzentrum betrieben werden. Lange, asynchrone Laufzeiten und hohe Parallelität passen nicht zu Edge-Hardware. Kein nennenswerter Edge-Anteil in absehbarer Zeit.

Bedeutung für die Speicher-/Storage-These

Agents sind der wichtigste Multiplikator auf HBM- und DRAM-Bedarf unter allen Nachfragetreibern: Sie vervielfachen die Inferenz-Last auf bestehenden Modellen (~4×–15× Token je Aufgabe, Anthropic), ohne neue Modelle zu erfordern. Wenn Agents von Pilotierungen zu produktivem Einsatz übergehen, ist der erste und größte Effekt auf der HBM-/DRAM-Seite zu erwarten. Für die Storage-Seite wächst der Bedarf mit persistentem Agent-Memory und Traces. Direkt relevant für die HBM-Anbieter im Themendossier Arbeitsspeicher — v. a. SK Hynix und Micron — sowie für die Beschleuniger- und Infrastrukturseite im Data-Center-Dossier (Chip-Fertigung, Nvidia). Die vervielfachten Modelle sind primär die unter Text & Reasoning, Code und RAG & Dokumente beschriebenen.

Beobachten / offene Fragen

Tokens je Agent-Aufgabe und deren Verlauf — das ist der direkte Proxy für den HBM/DRAM-Multiplikator.
Zuverlässigkeit und Adoption: entscheidet, ob der Multiplikator real wird oder in der Pilotierungsphase bleibt.
Kosten je Aufgabe und ihr Rückgang — Voraussetzung für breite Adoption im Unternehmensumfeld.
Verbreitung von Multi-Agent-Architekturen und deren Parallelitätsgrad — treibt den gleichzeitigen HBM-Bedarf.

Quellen & Update-Log

Quellen mit klickbaren Links, Primär- vor Sekundärquellen. Token-Multiplikatoren stützen sich auf die Anthropic-Primärquelle; LeanOps ist ein Anbieter-Audit (Sekundärquelle).

Quelle	Typ	Belegt
Anthropic Engineering — How we built our multi-agent research system (2025-06)	Primär	~4× / ~15× Token, 80 %/95 % Leistungsvarianz, +90,2 % Mehrleistung
McKinsey — The state of AI 2025 (Nov. 2025, Befragung Juni–Juli 2025)	Primär (Survey)	23 % skalieren / 39 % experimentieren, max. ~10 % je Funktion voll skaliert
Stanford Digital Economy Lab — How are AI agents spending your tokens? (2026)	Primär (Forschung)	Kostenvarianz bis 30×, Input-Token-Dominanz durch zustandslose Aufrufe
The Register — How agentic AI strains modern memory hierarchies (2026-01)	Sekundär	KV-Cache linear in Sequenzlänge, KV-Offload (CXL) bis 87 % GPU-Speicherentlastung
Samsung — Scaling AI Inference with KV Cache Offloading (Whitepaper)	Primär (Hersteller)	KV-Cache-Offload in DRAM/Storage als Speicher-Hierarchie-Hebel
Solidigm — KV cache in flash storage	Sekundär (Hersteller)	NAND-/SSD-Auslagerung des KV-Cache
LeanOps — AI Agents Burn 50x More Tokens Than Chats (2026)	Sekundär (Anbieter-Audit)	Schritt-Multiplikatoren ~3,2× / >30× / >100×, 10–100× Spanne

Update-Log

Datum	Änderung
2026-05-21	Web-Recherche eingearbeitet: belegte Token-Multiplikatoren (Anthropic ~4×/~15×), Adoption (McKinsey 23 %/39 %), Speicher-Hierarchie/KV-Offload; zwei Diagramme (Token-Multiplikator-Balken, Adoptions-Donut), Akronyme inline aufgelöst, Querverweise auf Arbeitsspeicher (SK Hynix, Micron) und Data Center (Nvidia, Chip-Fertigung), Quellen-Apparat, Engpass-/IP-Pills, Rohdaten-CSVs angelegt.
2026-05-20	Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).