Use Case · Nachfragetreiber

RAG & Dokumentenverarbeitung

Retrieval-Augmented Generation (RAG, abrufgestützte Generierung — Vektorsuche über ein Dokumentkorpus plus Antwort eines Sprachmodells), Enterprise-Suche und Dokumentenextraktion (IDP, Intelligent Document Processing) — inklusive KI-Suche. Dual-Treiber: Vektor-Indizes im DRAM (Dynamic Random-Access Memory, Server-Arbeitsspeicher) plus Korpora und Embeddings (Vektor-Repräsentationen von Text) auf NAND-Storage (Flash-Speicher in SSDs).

Profil: Dual (DRAM + Storage) Reifegrad: skaliert breit in Unternehmen Last v. a. im Datacenter IP-Intensität: niedrig (Index/Korpus) Stand: 2026-05-21

Bedarfssignatur

Dimension	Bedarf	Kurzbegründung
HBM (Beschleuniger)	M	Nur der Generierungsschritt des LLM (Large Language Model, großes Sprachmodell) nutzt HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher am Beschleuniger); das Retrieval selbst nutzt keines. Gesamt-HBM-Bedarf hängt von der Generator-Modellgröße ab.
DRAM (Server)	H	ANN-Vektorindizes (Approximate Nearest Neighbor, näherungsweise nächste Nachbarn) liegen oft vollständig in-memory für niedrige Latenz; plus Caches. Große Indizes (viele Chunks) erfordern erhebliche DRAM-Kapazität. Engpass: hoch bei sehr großen Single-Node-Indizes (RAM-Decke je Server).
NAND / Storage	H	Dokumentkorpora, Embeddings/Vektoren auf Disk und OCR-Artefakte (Optical Character Recognition, optische Texterkennung); wächst mit der Menge an Enterprise-Daten, die durchsuchbar gemacht wird.
Compute (Kontext)	M	Embedding-Erzeugung plus Retrieval plus ein LLM-Aufruf — moderater als reines Reasoning oder Video-Generierung.

Was es ist & Reifegrad

RAG (Retrieval-Augmented Generation) kombiniert eine Vektorsuche über ein Dokumentkorpus mit einem LLM-Generierungsschritt. Dabei wird jeder Textabschnitt („Chunk") per Embedding-Modell in einen Vektor (Embedding, eine Zahlenliste mit z. B. 768 oder 1536 Dimensionen) übersetzt; diese Vektoren liegen in einem Vektor-Index/einer Vektor-DB (Vektor-Datenbank), über die per ANN (Approximate Nearest Neighbor) die ähnlichsten Chunks zu einer Anfrage gefunden werden. Anwendungen: Enterprise-Suche, interne Wissensdatenbanken, KI-Suche (Perplexity-artig), Dokumentenextraktion und Intelligente Dokumentenverarbeitung (IDP) — also OCR (Optical Character Recognition), Klassifikation und Extraktion strukturierter Daten aus Rechnungen, Verträgen und Formularen.

Reifegrad (Einschätzung): RAG skaliert breit und ist produktiv in Unternehmensumgebungen, aber Qualität und Verlässlichkeit variieren stark je nach Implementierung, Chunk-Strategie und Modellwahl. IDP ist bereits ein etabliertes Marktsegment mit eigenen Anbietern (laut Grand View Research 2024 rund 2,3 Mrd. USD Marktvolumen).

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

RAG als Standard-Pattern: RAG ist das dominante Muster für Enterprise-KI-Anwendungen — ermöglicht dem LLM Zugriff auf proprietäre Daten ohne erneutes Training/Finetuning. Der Markt für Vektor-Datenbanken (das technische Rückgrat) wird von MarketsandMarkets für 2025 auf rund 2,65 Mrd. USD und für 2030 auf 8,95 Mrd. USD geschätzt (CAGR ca. 27,5 % — Sekundärquelle/Prognose).
Vektor-Datenbanken: Wachsendes Ökosystem spezialisierter Anbieter (u. a. Pinecone (kein Dossier), Weaviate (kein Dossier), Qdrant (kein Dossier), Milvus (kein Dossier), pgvector als PostgreSQL-Erweiterung) neben nativen Vektor-Funktionen in bestehenden Datenbanken. Belege u. a. Pinecone-Doku und Qdrant-Capacity-Planning.
Hybride Suche + Reranking: Trend zu Kombination aus Vektorsuche und lexikalischer Suche (BM25, klassisches Wort-Ranking) plus LLM-basiertem Reranking für bessere Ergebnisqualität. (Sekundärinfo, zu belegen.)
„Lange Kontexte vs. RAG": Debatte, ob sehr lange Kontextfenster (1 Mio.+ Tokens) RAG ersetzen — gegenläufige Kräfte: Kontextkosten vs. Retrieval-Präzision. (Sekundärinfo/Einschätzung, zu belegen.)
IDP-Adoption: IDP automatisiert Dokument-Workflows in Branchen mit hohem Dokumentaufkommen (Versicherung, Finanzen, Recht). Marktvolumen laut Grand View Research 2024 rund 2,3 Mrd. USD, Prognose bis 2030 ca. 12,35 Mrd. USD (CAGR ca. 33,1 % — Sekundärquelle/Prognose).

Markt- und Prognosezahlen sind Sekundärquellen (Marktforschung); technische RAM-/Speicher-Zahlen sind primär (Anbieter-Doku, Benchmark) bzw. nach Anbieter-Formel berechnet — siehe Abschnitt Kennzahlen. Aussagen ohne Link bleiben Einschätzungen und werden vor Verwendung in der These gehärtet.

Treiber-Mechanik → Hardware

Warum RAG & Dokumentenverarbeitung primär DRAM und Storage zieht:

DRAM — Vektor-Indizes

In-Memory-ANN-Indizes: ANN-Indizes (z. B. HNSW — Hierarchical Navigable Small World, eine graphbasierte Index-Struktur) liegen für niedrige Latenz vollständig im RAM — Skalierung proportional zur Anzahl der Chunks und zur Embedding-Dimensionalität. Der HNSW-Graph addiert Speicheroverhead über die reinen Vektordaten hinaus; Qdrant rechnet pauschal mit Faktor ca. 1,5 (Graph + Metadaten) auf die Rohvektoren.
Kapazitätsgebunden: Mehr durchsuchbare Dokumente bedeuten mehr Vektoren im Index und damit mehr DRAM-Bedarf — direkter Kapazitätstreiber für Server-DRAM (siehe Themendossier Arbeitsspeicher und DRAM-Anbieter Micron, Samsung, SK Hynix).
Caches: Häufig abgefragte Chunks und Embeddings werden gecacht, um die Retrieval-Latenz zu minimieren.

Storage (NAND)

Dokumentkorpora: Jedes Dokument — Verträge, Mails, PDFs, Wikis — wird gespeichert und indiziert; wächst mit dem Enterprise-Datenwachstum und liegt auf NAND-Flash (vgl. NAND-Seite bei Micron und Samsung).
Embeddings auf Disk: Jeder Chunk erzeugt einen Vektor; bei großen Korpora (Millionen Dokumente) summiert sich das zu erheblichem Storage-Bedarf. Disk-basierte (memory-mapped) ANN-Indizes verlagern Last bewusst von DRAM auf SSD/NAND.
OCR-Artefakte: IDP erzeugt zusätzliche Zwischen- und Ergebnisdateien (OCR-Text, extrahierte Strukturdaten) pro verarbeitetem Dokument. Die Last entsteht praktisch vollständig im Datacenter.

RAM-Bedarf eines In-Memory-Vektor-Index je 1 Mio. Vektoren nach Embedding-Dimension

Zeitraum: 2026 · Einheit: GB DRAM je 1 Mio. Vektoren · inkl. Overhead-Faktor 1,5 (HNSW-Graph + Metadaten) nach Qdrant-Capacity-Planning-Formel N × dim × 4 Byte × 1,5. Berechnete Werte (eigene Anwendung der Anbieter-Formel).

768 Dim.

4,29 GB

1536 Dim.

8,58 GB

3072 Dim.

17,16 GB

Quelle: Qdrant — Capacity Planning (Formel und 1,5-Overhead); Plausibilisierung der Rohvektor-Größe (N × dim × 4 Byte) über Pinecone — Pod-Sizing (1 Mio. × 768 Dim. ≈ 3 GB roh). Rohdaten: assets/data/rag-vektor-index-ram.csv. 768 Dim. = OpenAI/typisch kleine Modelle, 1536 = text-embedding-3-small, 3072 = text-embedding-3-large (OpenAI).

In-Memory (DRAM) vs. On-Disk (NAND): RAM-Bedarf für 1 Mio. Vektoren (Qdrant-Benchmark)

Zeitraum: Qdrant-Benchmark · Einheit: MB RAM für 1 Mio. Vektoren · reported. Der Trade-off entscheidet, ob die Last auf DRAM oder NAND fällt.

In-Memory (alle Vektoren im DRAM): ca. 1200 MB RAM, ~780 Anfragen/s ~90 %
Memory-mapped / On-Disk (NAND-SSD): ca. 135 MB RAM, ~0,33 Anfragen/s ~10 %

Quelle: Qdrant — Minimal RAM to serve a million vectors. Lesart: Die On-Disk-Variante senkt den DRAM-Bedarf um ~90 % (1200 → 135 MB), kostet aber massiv Durchsatz (780 → 0,33 Anfragen/s) und macht lokale SSD/NAND statt Netzwerk-Storage kritisch (ca. 10x Durchsatz). Genau diese Architekturwahl verschiebt die Last zwischen DRAM und NAND. Rohdaten: assets/data/rag-inmemory-vs-disk.csv.

Übersetzung in die These: RAG & Dokumentenverarbeitung ist ein Dual-Treiber DRAM + Storage; skaliert direkt mit der Menge an Unternehmensdaten, die durchsuchbar gemacht wird — und diese Datenmenge wächst strukturell.

Kennzahlen

Quantitative Anker. Spalte „Art" trennt reported (Anbieter-Benchmark) von berechnet (eigene Anwendung der Anbieter-Formel) und Sekundärquelle/Prognose (Marktforschung).

Kennzahl	Wert	Zeitraum	Art	Quelle
RAM eines In-Memory-Index, 1 Mio. Vektoren @ 768 Dim. (inkl. 1,5-Overhead)	≈ 4,29 GB	2026	berechnet (Qdrant-Formel `N×dim×4×1,5`)	Qdrant
RAM eines In-Memory-Index, 1 Mio. Vektoren @ 1536 Dim. (inkl. 1,5-Overhead)	≈ 8,58 GB	2026	berechnet (Qdrant-Formel)	Qdrant
Rohvektor-Speicher, 1 Mio. Vektoren @ 768 Dim. (float32, `N×dim×4`)	≈ 2,86 GB (~3 GB)	2026	berechnet, Anbieter-Plausibilisierung	Pinecone
HNSW-/Metadaten-Overhead über Rohvektoren	Faktor ≈ 1,5 (+~50 %)	2026	reported (Anbieter-Faustregel)	Qdrant
RAM: In-Memory vs. On-Disk, 1 Mio. Vektoren (Benchmark)	~1200 MB vs. ~135 MB	Benchmark	reported (Benchmark)	Qdrant
Embedding-Dimensionen gängiger Modelle	1536 (`3-small`), 3072 (`3-large`)	ab 2024	reported (Modell-Spez.)	OpenAI
Marktgröße Vektor-Datenbanken	2,65 Mrd. → 8,95 Mrd. USD (CAGR 27,5 %)	2025 → 2030	Sekundärquelle/Prognose	MarketsandMarkets
Marktgröße IDP	2,3 Mrd. → 12,35 Mrd. USD (CAGR 33,1 %)	2024 → 2030	Sekundärquelle/Prognose	Grand View Research

Rohdaten in assets/data/rag-vektor-index-ram.csv, rag-inmemory-vs-disk.csv, rag-markt.csv — mit dieser Tabelle synchron halten. Marktprognosen sind Sekundärquellen (alternative Schätzungen anderer Häuser weichen ab) und keine harten Zahlen.

Edge vs. Datacenter

Überwiegend Datacenter: Enterprise-RAG läuft auf Cloud-Diensten oder on-premises Servern — Vektorindizes und Dokumentkorpora sind zu groß für Edge-Deployment. Ein kleiner Anteil (lokale Assistenten, On-Device-Suche) existiert, ist aber für die Hardware-These vernachlässigbar. Dieser Use Case zählt daher praktisch vollständig für Datacenter-DRAM und -Storage.

Bedeutung für die Speicher-/Storage-These

RAG & Dokumentenverarbeitung ist ein struktureller Dual-Treiber DRAM + NAND; skaliert mit Enterprise-Datenmengen, die systemisch wachsen. Für die Arbeitsspeicher-These (Arbeitsspeicher, Anbieter Micron und Samsung für die NAND-Seite, SK Hynix für DRAM/HBM): Dieser Use Case stützt sowohl die DRAM-Kapazitätsseite (In-Memory-Vektorindizes — z. B. ~4,29 GB je Mio. Vektoren @ 768 Dim. inkl. HNSW-Overhead) als auch die NAND-Seite (Korpora, Embeddings, On-Disk-Indizes). Der HBM-Treiber ist moderat und hängt von der Größe des eingesetzten Generators ab. Verwandte Use Cases mit ähnlicher Mechanik: Text & Reasoning und Code.

Beobachten / offene Fragen

Entwicklung der „lange Kontexte vs. RAG"-Debatte — ob sehr große Kontextfenster Retrieval teilweise ersetzen und damit den DRAM-Treiber abschwächen.
In-Memory- vs. On-Disk-Vektorindizes: Verlagerung zu Disk-basierten ANN-Indizes würde den DRAM-Bedarf senken, den Storage-Bedarf heben.
Wachstum der Enterprise-Datenmengen (unstrukturierte Daten in der Cloud) als struktureller Kapazitätstreiber.
IDP-Adoption in regulierten Branchen und die damit verbundene Datenspeicherpflicht.

Quellen & Update-Log

Primärquellen (Anbieter-Doku, Benchmark) vor Sekundärquellen (Marktforschung). Technische RAM-Werte sind nach Anbieter-Formel berechnet bzw. reported; Marktgrößen sind Sekundär-Prognosen.

Quelle	Typ	Verwendet für
Qdrant — Capacity Planning	Primär (Anbieter-Doku)	RAM-Formel `N×dim×4×1,5`, 1,5-Overhead (HNSW + Metadaten)
Qdrant — Minimal RAM to serve a million vectors	Primär (Benchmark)	In-Memory ~1200 MB vs. On-Disk ~135 MB, Durchsatz, SSD-Effekt
Pinecone — Pod-Typen & -Größen	Primär (Anbieter-Doku)	Rohvektor-Größe `N×dim×4`, 1 Mio. @ 768 Dim. ≈ 3 GB, Vektoren je Pod
OpenAI — New embedding models	Primär (Modell-Spez.)	Embedding-Dimensionen 1536 (`3-small`) / 3072 (`3-large`)
MarketsandMarkets — Vector Database Market	Sekundär (Prognose)	Marktgröße Vektor-DB 2025/2030, CAGR 27,5 %
Grand View Research — IDP Market	Sekundär (Prognose)	Marktgröße IDP 2024/2030, CAGR 33,1 %

Update-Log

Datum	Änderung
2026-05-21	Web-Recherche eingearbeitet: belegte Kennzahlen-Tabelle (RAM/Index, In-Memory vs. On-Disk, Embedding-Dimensionen, Markt Vektor-DB & IDP), zwei HTML/CSS-Diagramme (Balken RAM je Dimension, Donut In-Memory vs. On-Disk), Akronyme inline aufgelöst, Querverweise zu Arbeitsspeicher/Micron/Samsung/SK Hynix/Data-Center und Schwesterseiten, Engpass-/IP-Pills, Quellenapparat mit Links. Rohdaten-CSVs unter `assets/data/` angelegt.
2026-05-20	Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).