Use Case · Nachfragetreiber
RAG & Dokumentenverarbeitung
Retrieval-Augmented Generation (RAG, abrufgestützte Generierung — Vektorsuche über ein Dokumentkorpus plus Antwort eines Sprachmodells), Enterprise-Suche und Dokumentenextraktion (IDP, Intelligent Document Processing) — inklusive KI-Suche. Dual-Treiber: Vektor-Indizes im DRAM (Dynamic Random-Access Memory, Server-Arbeitsspeicher) plus Korpora und Embeddings (Vektor-Repräsentationen von Text) auf NAND-Storage (Flash-Speicher in SSDs).
Bedarfssignatur
| Dimension | Bedarf | Kurzbegründung |
|---|---|---|
| HBM (Beschleuniger) | M | Nur der Generierungsschritt des LLM (Large Language Model, großes Sprachmodell) nutzt HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher am Beschleuniger); das Retrieval selbst nutzt keines. Gesamt-HBM-Bedarf hängt von der Generator-Modellgröße ab. |
| DRAM (Server) | H | ANN-Vektorindizes (Approximate Nearest Neighbor, näherungsweise nächste Nachbarn) liegen oft vollständig in-memory für niedrige Latenz; plus Caches. Große Indizes (viele Chunks) erfordern erhebliche DRAM-Kapazität. Engpass: hoch bei sehr großen Single-Node-Indizes (RAM-Decke je Server). |
| NAND / Storage | H | Dokumentkorpora, Embeddings/Vektoren auf Disk und OCR-Artefakte (Optical Character Recognition, optische Texterkennung); wächst mit der Menge an Enterprise-Daten, die durchsuchbar gemacht wird. |
| Compute (Kontext) | M | Embedding-Erzeugung plus Retrieval plus ein LLM-Aufruf — moderater als reines Reasoning oder Video-Generierung. |
Was es ist & Reifegrad
RAG (Retrieval-Augmented Generation) kombiniert eine Vektorsuche über ein Dokumentkorpus mit einem LLM-Generierungsschritt. Dabei wird jeder Textabschnitt („Chunk") per Embedding-Modell in einen Vektor (Embedding, eine Zahlenliste mit z. B. 768 oder 1536 Dimensionen) übersetzt; diese Vektoren liegen in einem Vektor-Index/einer Vektor-DB (Vektor-Datenbank), über die per ANN (Approximate Nearest Neighbor) die ähnlichsten Chunks zu einer Anfrage gefunden werden. Anwendungen: Enterprise-Suche, interne Wissensdatenbanken, KI-Suche (Perplexity-artig), Dokumentenextraktion und Intelligente Dokumentenverarbeitung (IDP) — also OCR (Optical Character Recognition), Klassifikation und Extraktion strukturierter Daten aus Rechnungen, Verträgen und Formularen.
Reifegrad (Einschätzung): RAG skaliert breit und ist produktiv in Unternehmensumgebungen, aber Qualität und Verlässlichkeit variieren stark je nach Implementierung, Chunk-Strategie und Modellwahl. IDP ist bereits ein etabliertes Marktsegment mit eigenen Anbietern (laut Grand View Research 2024 rund 2,3 Mrd. USD Marktvolumen).
Stand der Dinge / Dynamik
Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.
- RAG als Standard-Pattern: RAG ist das dominante Muster für Enterprise-KI-Anwendungen — ermöglicht dem LLM Zugriff auf proprietäre Daten ohne erneutes Training/Finetuning. Der Markt für Vektor-Datenbanken (das technische Rückgrat) wird von MarketsandMarkets für 2025 auf rund 2,65 Mrd. USD und für 2030 auf 8,95 Mrd. USD geschätzt (CAGR ca. 27,5 % — Sekundärquelle/Prognose).
- Vektor-Datenbanken: Wachsendes Ökosystem spezialisierter Anbieter (u. a. Pinecone (kein Dossier), Weaviate (kein Dossier), Qdrant (kein Dossier), Milvus (kein Dossier), pgvector als PostgreSQL-Erweiterung) neben nativen Vektor-Funktionen in bestehenden Datenbanken. Belege u. a. Pinecone-Doku und Qdrant-Capacity-Planning.
- Hybride Suche + Reranking: Trend zu Kombination aus Vektorsuche und lexikalischer Suche (BM25, klassisches Wort-Ranking) plus LLM-basiertem Reranking für bessere Ergebnisqualität. (Sekundärinfo, zu belegen.)
- „Lange Kontexte vs. RAG": Debatte, ob sehr lange Kontextfenster (1 Mio.+ Tokens) RAG ersetzen — gegenläufige Kräfte: Kontextkosten vs. Retrieval-Präzision. (Sekundärinfo/Einschätzung, zu belegen.)
- IDP-Adoption: IDP automatisiert Dokument-Workflows in Branchen mit hohem Dokumentaufkommen (Versicherung, Finanzen, Recht). Marktvolumen laut Grand View Research 2024 rund 2,3 Mrd. USD, Prognose bis 2030 ca. 12,35 Mrd. USD (CAGR ca. 33,1 % — Sekundärquelle/Prognose).
Markt- und Prognosezahlen sind Sekundärquellen (Marktforschung); technische RAM-/Speicher-Zahlen sind primär (Anbieter-Doku, Benchmark) bzw. nach Anbieter-Formel berechnet — siehe Abschnitt Kennzahlen. Aussagen ohne Link bleiben Einschätzungen und werden vor Verwendung in der These gehärtet.
Treiber-Mechanik → Hardware
Warum RAG & Dokumentenverarbeitung primär DRAM und Storage zieht:
DRAM — Vektor-Indizes
- In-Memory-ANN-Indizes: ANN-Indizes (z. B. HNSW — Hierarchical Navigable Small World, eine graphbasierte Index-Struktur) liegen für niedrige Latenz vollständig im RAM — Skalierung proportional zur Anzahl der Chunks und zur Embedding-Dimensionalität. Der HNSW-Graph addiert Speicheroverhead über die reinen Vektordaten hinaus; Qdrant rechnet pauschal mit Faktor ca. 1,5 (Graph + Metadaten) auf die Rohvektoren.
- Kapazitätsgebunden: Mehr durchsuchbare Dokumente bedeuten mehr Vektoren im Index und damit mehr DRAM-Bedarf — direkter Kapazitätstreiber für Server-DRAM (siehe Themendossier Arbeitsspeicher und DRAM-Anbieter Micron, Samsung, SK Hynix).
- Caches: Häufig abgefragte Chunks und Embeddings werden gecacht, um die Retrieval-Latenz zu minimieren.
Storage (NAND)
- Dokumentkorpora: Jedes Dokument — Verträge, Mails, PDFs, Wikis — wird gespeichert und indiziert; wächst mit dem Enterprise-Datenwachstum und liegt auf NAND-Flash (vgl. NAND-Seite bei Micron und Samsung).
- Embeddings auf Disk: Jeder Chunk erzeugt einen Vektor; bei großen Korpora (Millionen Dokumente) summiert sich das zu erheblichem Storage-Bedarf. Disk-basierte (memory-mapped) ANN-Indizes verlagern Last bewusst von DRAM auf SSD/NAND.
- OCR-Artefakte: IDP erzeugt zusätzliche Zwischen- und Ergebnisdateien (OCR-Text, extrahierte Strukturdaten) pro verarbeitetem Dokument. Die Last entsteht praktisch vollständig im Datacenter.
RAM-Bedarf eines In-Memory-Vektor-Index je 1 Mio. Vektoren nach Embedding-Dimension
Zeitraum: 2026 · Einheit: GB DRAM je 1 Mio. Vektoren · inkl. Overhead-Faktor 1,5 (HNSW-Graph + Metadaten) nach Qdrant-Capacity-Planning-Formel N × dim × 4 Byte × 1,5. Berechnete Werte (eigene Anwendung der Anbieter-Formel).
Quelle: Qdrant — Capacity Planning (Formel und 1,5-Overhead); Plausibilisierung der Rohvektor-Größe (N × dim × 4 Byte) über Pinecone — Pod-Sizing (1 Mio. × 768 Dim. ≈ 3 GB roh). Rohdaten: assets/data/rag-vektor-index-ram.csv. 768 Dim. = OpenAI/typisch kleine Modelle, 1536 = text-embedding-3-small, 3072 = text-embedding-3-large (OpenAI).
In-Memory (DRAM) vs. On-Disk (NAND): RAM-Bedarf für 1 Mio. Vektoren (Qdrant-Benchmark)
Zeitraum: Qdrant-Benchmark · Einheit: MB RAM für 1 Mio. Vektoren · reported. Der Trade-off entscheidet, ob die Last auf DRAM oder NAND fällt.
Quelle: Qdrant — Minimal RAM to serve a million vectors. Lesart: Die On-Disk-Variante senkt den DRAM-Bedarf um ~90 % (1200 → 135 MB), kostet aber massiv Durchsatz (780 → 0,33 Anfragen/s) und macht lokale SSD/NAND statt Netzwerk-Storage kritisch (ca. 10x Durchsatz). Genau diese Architekturwahl verschiebt die Last zwischen DRAM und NAND. Rohdaten: assets/data/rag-inmemory-vs-disk.csv.
Kennzahlen
Quantitative Anker. Spalte „Art" trennt reported (Anbieter-Benchmark) von berechnet (eigene Anwendung der Anbieter-Formel) und Sekundärquelle/Prognose (Marktforschung).
| Kennzahl | Wert | Zeitraum | Art | Quelle |
|---|---|---|---|---|
| RAM eines In-Memory-Index, 1 Mio. Vektoren @ 768 Dim. (inkl. 1,5-Overhead) | ≈ 4,29 GB | 2026 | berechnet (Qdrant-Formel N×dim×4×1,5) | Qdrant |
| RAM eines In-Memory-Index, 1 Mio. Vektoren @ 1536 Dim. (inkl. 1,5-Overhead) | ≈ 8,58 GB | 2026 | berechnet (Qdrant-Formel) | Qdrant |
Rohvektor-Speicher, 1 Mio. Vektoren @ 768 Dim. (float32, N×dim×4) | ≈ 2,86 GB (~3 GB) | 2026 | berechnet, Anbieter-Plausibilisierung | Pinecone |
| HNSW-/Metadaten-Overhead über Rohvektoren | Faktor ≈ 1,5 (+~50 %) | 2026 | reported (Anbieter-Faustregel) | Qdrant |
| RAM: In-Memory vs. On-Disk, 1 Mio. Vektoren (Benchmark) | ~1200 MB vs. ~135 MB | Benchmark | reported (Benchmark) | Qdrant |
| Embedding-Dimensionen gängiger Modelle | 1536 (3-small), 3072 (3-large) | ab 2024 | reported (Modell-Spez.) | OpenAI |
| Marktgröße Vektor-Datenbanken | 2,65 Mrd. → 8,95 Mrd. USD (CAGR 27,5 %) | 2025 → 2030 | Sekundärquelle/Prognose | MarketsandMarkets |
| Marktgröße IDP | 2,3 Mrd. → 12,35 Mrd. USD (CAGR 33,1 %) | 2024 → 2030 | Sekundärquelle/Prognose | Grand View Research |
Rohdaten in assets/data/rag-vektor-index-ram.csv, rag-inmemory-vs-disk.csv, rag-markt.csv — mit dieser Tabelle synchron halten. Marktprognosen sind Sekundärquellen (alternative Schätzungen anderer Häuser weichen ab) und keine harten Zahlen.
Edge vs. Datacenter
Überwiegend Datacenter: Enterprise-RAG läuft auf Cloud-Diensten oder on-premises Servern — Vektorindizes und Dokumentkorpora sind zu groß für Edge-Deployment. Ein kleiner Anteil (lokale Assistenten, On-Device-Suche) existiert, ist aber für die Hardware-These vernachlässigbar. Dieser Use Case zählt daher praktisch vollständig für Datacenter-DRAM und -Storage.
Bedeutung für die Speicher-/Storage-These
Beobachten / offene Fragen
- Entwicklung der „lange Kontexte vs. RAG"-Debatte — ob sehr große Kontextfenster Retrieval teilweise ersetzen und damit den DRAM-Treiber abschwächen.
- In-Memory- vs. On-Disk-Vektorindizes: Verlagerung zu Disk-basierten ANN-Indizes würde den DRAM-Bedarf senken, den Storage-Bedarf heben.
- Wachstum der Enterprise-Datenmengen (unstrukturierte Daten in der Cloud) als struktureller Kapazitätstreiber.
- IDP-Adoption in regulierten Branchen und die damit verbundene Datenspeicherpflicht.
Quellen & Update-Log
Primärquellen (Anbieter-Doku, Benchmark) vor Sekundärquellen (Marktforschung). Technische RAM-Werte sind nach Anbieter-Formel berechnet bzw. reported; Marktgrößen sind Sekundär-Prognosen.
| Quelle | Typ | Verwendet für |
|---|---|---|
| Qdrant — Capacity Planning | Primär (Anbieter-Doku) | RAM-Formel N×dim×4×1,5, 1,5-Overhead (HNSW + Metadaten) |
| Qdrant — Minimal RAM to serve a million vectors | Primär (Benchmark) | In-Memory ~1200 MB vs. On-Disk ~135 MB, Durchsatz, SSD-Effekt |
| Pinecone — Pod-Typen & -Größen | Primär (Anbieter-Doku) | Rohvektor-Größe N×dim×4, 1 Mio. @ 768 Dim. ≈ 3 GB, Vektoren je Pod |
| OpenAI — New embedding models | Primär (Modell-Spez.) | Embedding-Dimensionen 1536 (3-small) / 3072 (3-large) |
| MarketsandMarkets — Vector Database Market | Sekundär (Prognose) | Marktgröße Vektor-DB 2025/2030, CAGR 27,5 % |
| Grand View Research — IDP Market | Sekundär (Prognose) | Marktgröße IDP 2024/2030, CAGR 33,1 % |
Update-Log
| Datum | Änderung |
|---|---|
| 2026-05-21 | Web-Recherche eingearbeitet: belegte Kennzahlen-Tabelle (RAM/Index, In-Memory vs. On-Disk, Embedding-Dimensionen, Markt Vektor-DB & IDP), zwei HTML/CSS-Diagramme (Balken RAM je Dimension, Donut In-Memory vs. On-Disk), Akronyme inline aufgelöst, Querverweise zu Arbeitsspeicher/Micron/Samsung/SK Hynix/Data-Center und Schwesterseiten, Engpass-/IP-Pills, Quellenapparat mit Links. Rohdaten-CSVs unter assets/data/ angelegt. |
| 2026-05-20 | Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen). |