RAG & Dokumente

Use Case · Nachfragetreiber

RAG & Dokumentenverarbeitung

Retrieval-Augmented Generation (RAG, abrufgestützte Generierung — Vektorsuche über ein Dokumentkorpus plus Antwort eines Sprachmodells), Enterprise-Suche und Dokumentenextraktion (IDP, Intelligent Document Processing) — inklusive KI-Suche. Dual-Treiber: Vektor-Indizes im DRAM (Dynamic Random-Access Memory, Server-Arbeitsspeicher) plus Korpora und Embeddings (Vektor-Repräsentationen von Text) auf NAND-Storage (Flash-Speicher in SSDs).

Profil: Dual (DRAM + Storage) Reifegrad: skaliert breit in Unternehmen Last v. a. im Datacenter IP-Intensität: niedrig (Index/Korpus) Stand: 2026-05-21

Bedarfssignatur

DimensionBedarfKurzbegründung
HBM (Beschleuniger)MNur der Generierungsschritt des LLM (Large Language Model, großes Sprachmodell) nutzt HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher am Beschleuniger); das Retrieval selbst nutzt keines. Gesamt-HBM-Bedarf hängt von der Generator-Modellgröße ab.
DRAM (Server)HANN-Vektorindizes (Approximate Nearest Neighbor, näherungsweise nächste Nachbarn) liegen oft vollständig in-memory für niedrige Latenz; plus Caches. Große Indizes (viele Chunks) erfordern erhebliche DRAM-Kapazität. Engpass: hoch bei sehr großen Single-Node-Indizes (RAM-Decke je Server).
NAND / StorageHDokumentkorpora, Embeddings/Vektoren auf Disk und OCR-Artefakte (Optical Character Recognition, optische Texterkennung); wächst mit der Menge an Enterprise-Daten, die durchsuchbar gemacht wird.
Compute (Kontext)MEmbedding-Erzeugung plus Retrieval plus ein LLM-Aufruf — moderater als reines Reasoning oder Video-Generierung.

Was es ist & Reifegrad

RAG (Retrieval-Augmented Generation) kombiniert eine Vektorsuche über ein Dokumentkorpus mit einem LLM-Generierungsschritt. Dabei wird jeder Textabschnitt („Chunk") per Embedding-Modell in einen Vektor (Embedding, eine Zahlenliste mit z. B. 768 oder 1536 Dimensionen) übersetzt; diese Vektoren liegen in einem Vektor-Index/einer Vektor-DB (Vektor-Datenbank), über die per ANN (Approximate Nearest Neighbor) die ähnlichsten Chunks zu einer Anfrage gefunden werden. Anwendungen: Enterprise-Suche, interne Wissensdatenbanken, KI-Suche (Perplexity-artig), Dokumentenextraktion und Intelligente Dokumentenverarbeitung (IDP) — also OCR (Optical Character Recognition), Klassifikation und Extraktion strukturierter Daten aus Rechnungen, Verträgen und Formularen.

Reifegrad (Einschätzung): RAG skaliert breit und ist produktiv in Unternehmensumgebungen, aber Qualität und Verlässlichkeit variieren stark je nach Implementierung, Chunk-Strategie und Modellwahl. IDP ist bereits ein etabliertes Marktsegment mit eigenen Anbietern (laut Grand View Research 2024 rund 2,3 Mrd. USD Marktvolumen).

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

  • RAG als Standard-Pattern: RAG ist das dominante Muster für Enterprise-KI-Anwendungen — ermöglicht dem LLM Zugriff auf proprietäre Daten ohne erneutes Training/Finetuning. Der Markt für Vektor-Datenbanken (das technische Rückgrat) wird von MarketsandMarkets für 2025 auf rund 2,65 Mrd. USD und für 2030 auf 8,95 Mrd. USD geschätzt (CAGR ca. 27,5 % — Sekundärquelle/Prognose).
  • Vektor-Datenbanken: Wachsendes Ökosystem spezialisierter Anbieter (u. a. Pinecone (kein Dossier), Weaviate (kein Dossier), Qdrant (kein Dossier), Milvus (kein Dossier), pgvector als PostgreSQL-Erweiterung) neben nativen Vektor-Funktionen in bestehenden Datenbanken. Belege u. a. Pinecone-Doku und Qdrant-Capacity-Planning.
  • Hybride Suche + Reranking: Trend zu Kombination aus Vektorsuche und lexikalischer Suche (BM25, klassisches Wort-Ranking) plus LLM-basiertem Reranking für bessere Ergebnisqualität. (Sekundärinfo, zu belegen.)
  • „Lange Kontexte vs. RAG": Debatte, ob sehr lange Kontextfenster (1 Mio.+ Tokens) RAG ersetzen — gegenläufige Kräfte: Kontextkosten vs. Retrieval-Präzision. (Sekundärinfo/Einschätzung, zu belegen.)
  • IDP-Adoption: IDP automatisiert Dokument-Workflows in Branchen mit hohem Dokumentaufkommen (Versicherung, Finanzen, Recht). Marktvolumen laut Grand View Research 2024 rund 2,3 Mrd. USD, Prognose bis 2030 ca. 12,35 Mrd. USD (CAGR ca. 33,1 % — Sekundärquelle/Prognose).

Markt- und Prognosezahlen sind Sekundärquellen (Marktforschung); technische RAM-/Speicher-Zahlen sind primär (Anbieter-Doku, Benchmark) bzw. nach Anbieter-Formel berechnet — siehe Abschnitt Kennzahlen. Aussagen ohne Link bleiben Einschätzungen und werden vor Verwendung in der These gehärtet.

Treiber-Mechanik → Hardware

Warum RAG & Dokumentenverarbeitung primär DRAM und Storage zieht:

DRAM — Vektor-Indizes

  • In-Memory-ANN-Indizes: ANN-Indizes (z. B. HNSW — Hierarchical Navigable Small World, eine graphbasierte Index-Struktur) liegen für niedrige Latenz vollständig im RAM — Skalierung proportional zur Anzahl der Chunks und zur Embedding-Dimensionalität. Der HNSW-Graph addiert Speicheroverhead über die reinen Vektordaten hinaus; Qdrant rechnet pauschal mit Faktor ca. 1,5 (Graph + Metadaten) auf die Rohvektoren.
  • Kapazitätsgebunden: Mehr durchsuchbare Dokumente bedeuten mehr Vektoren im Index und damit mehr DRAM-Bedarf — direkter Kapazitätstreiber für Server-DRAM (siehe Themendossier Arbeitsspeicher und DRAM-Anbieter Micron, Samsung, SK Hynix).
  • Caches: Häufig abgefragte Chunks und Embeddings werden gecacht, um die Retrieval-Latenz zu minimieren.

Storage (NAND)

  • Dokumentkorpora: Jedes Dokument — Verträge, Mails, PDFs, Wikis — wird gespeichert und indiziert; wächst mit dem Enterprise-Datenwachstum und liegt auf NAND-Flash (vgl. NAND-Seite bei Micron und Samsung).
  • Embeddings auf Disk: Jeder Chunk erzeugt einen Vektor; bei großen Korpora (Millionen Dokumente) summiert sich das zu erheblichem Storage-Bedarf. Disk-basierte (memory-mapped) ANN-Indizes verlagern Last bewusst von DRAM auf SSD/NAND.
  • OCR-Artefakte: IDP erzeugt zusätzliche Zwischen- und Ergebnisdateien (OCR-Text, extrahierte Strukturdaten) pro verarbeitetem Dokument. Die Last entsteht praktisch vollständig im Datacenter.

RAM-Bedarf eines In-Memory-Vektor-Index je 1 Mio. Vektoren nach Embedding-Dimension

Zeitraum: 2026 · Einheit: GB DRAM je 1 Mio. Vektoren · inkl. Overhead-Faktor 1,5 (HNSW-Graph + Metadaten) nach Qdrant-Capacity-Planning-Formel N × dim × 4 Byte × 1,5. Berechnete Werte (eigene Anwendung der Anbieter-Formel).

768 Dim.
4,29 GB
1536 Dim.
8,58 GB
3072 Dim.
17,16 GB

Quelle: Qdrant — Capacity Planning (Formel und 1,5-Overhead); Plausibilisierung der Rohvektor-Größe (N × dim × 4 Byte) über Pinecone — Pod-Sizing (1 Mio. × 768 Dim. ≈ 3 GB roh). Rohdaten: assets/data/rag-vektor-index-ram.csv. 768 Dim. = OpenAI/typisch kleine Modelle, 1536 = text-embedding-3-small, 3072 = text-embedding-3-large (OpenAI).

In-Memory (DRAM) vs. On-Disk (NAND): RAM-Bedarf für 1 Mio. Vektoren (Qdrant-Benchmark)

Zeitraum: Qdrant-Benchmark · Einheit: MB RAM für 1 Mio. Vektoren · reported. Der Trade-off entscheidet, ob die Last auf DRAM oder NAND fällt.

  • In-Memory (alle Vektoren im DRAM): ca. 1200 MB RAM, ~780 Anfragen/s ~90 %
  • Memory-mapped / On-Disk (NAND-SSD): ca. 135 MB RAM, ~0,33 Anfragen/s ~10 %

Quelle: Qdrant — Minimal RAM to serve a million vectors. Lesart: Die On-Disk-Variante senkt den DRAM-Bedarf um ~90 % (1200 → 135 MB), kostet aber massiv Durchsatz (780 → 0,33 Anfragen/s) und macht lokale SSD/NAND statt Netzwerk-Storage kritisch (ca. 10x Durchsatz). Genau diese Architekturwahl verschiebt die Last zwischen DRAM und NAND. Rohdaten: assets/data/rag-inmemory-vs-disk.csv.

Übersetzung in die These: RAG & Dokumentenverarbeitung ist ein Dual-Treiber DRAM + Storage; skaliert direkt mit der Menge an Unternehmensdaten, die durchsuchbar gemacht wird — und diese Datenmenge wächst strukturell.

Kennzahlen

Quantitative Anker. Spalte „Art" trennt reported (Anbieter-Benchmark) von berechnet (eigene Anwendung der Anbieter-Formel) und Sekundärquelle/Prognose (Marktforschung).

KennzahlWertZeitraumArtQuelle
RAM eines In-Memory-Index, 1 Mio. Vektoren @ 768 Dim. (inkl. 1,5-Overhead)≈ 4,29 GB2026berechnet (Qdrant-Formel N×dim×4×1,5)Qdrant
RAM eines In-Memory-Index, 1 Mio. Vektoren @ 1536 Dim. (inkl. 1,5-Overhead)≈ 8,58 GB2026berechnet (Qdrant-Formel)Qdrant
Rohvektor-Speicher, 1 Mio. Vektoren @ 768 Dim. (float32, N×dim×4)≈ 2,86 GB (~3 GB)2026berechnet, Anbieter-PlausibilisierungPinecone
HNSW-/Metadaten-Overhead über RohvektorenFaktor ≈ 1,5 (+~50 %)2026reported (Anbieter-Faustregel)Qdrant
RAM: In-Memory vs. On-Disk, 1 Mio. Vektoren (Benchmark)~1200 MB vs. ~135 MBBenchmarkreported (Benchmark)Qdrant
Embedding-Dimensionen gängiger Modelle1536 (3-small), 3072 (3-large)ab 2024reported (Modell-Spez.)OpenAI
Marktgröße Vektor-Datenbanken2,65 Mrd. → 8,95 Mrd. USD (CAGR 27,5 %)2025 → 2030Sekundärquelle/PrognoseMarketsandMarkets
Marktgröße IDP2,3 Mrd. → 12,35 Mrd. USD (CAGR 33,1 %)2024 → 2030Sekundärquelle/PrognoseGrand View Research

Rohdaten in assets/data/rag-vektor-index-ram.csv, rag-inmemory-vs-disk.csv, rag-markt.csv — mit dieser Tabelle synchron halten. Marktprognosen sind Sekundärquellen (alternative Schätzungen anderer Häuser weichen ab) und keine harten Zahlen.

Edge vs. Datacenter

Überwiegend Datacenter: Enterprise-RAG läuft auf Cloud-Diensten oder on-premises Servern — Vektorindizes und Dokumentkorpora sind zu groß für Edge-Deployment. Ein kleiner Anteil (lokale Assistenten, On-Device-Suche) existiert, ist aber für die Hardware-These vernachlässigbar. Dieser Use Case zählt daher praktisch vollständig für Datacenter-DRAM und -Storage.

Bedeutung für die Speicher-/Storage-These

RAG & Dokumentenverarbeitung ist ein struktureller Dual-Treiber DRAM + NAND; skaliert mit Enterprise-Datenmengen, die systemisch wachsen. Für die Arbeitsspeicher-These (Arbeitsspeicher, Anbieter Micron und Samsung für die NAND-Seite, SK Hynix für DRAM/HBM): Dieser Use Case stützt sowohl die DRAM-Kapazitätsseite (In-Memory-Vektorindizes — z. B. ~4,29 GB je Mio. Vektoren @ 768 Dim. inkl. HNSW-Overhead) als auch die NAND-Seite (Korpora, Embeddings, On-Disk-Indizes). Der HBM-Treiber ist moderat und hängt von der Größe des eingesetzten Generators ab. Verwandte Use Cases mit ähnlicher Mechanik: Text & Reasoning und Code.

Beobachten / offene Fragen

  • Entwicklung der „lange Kontexte vs. RAG"-Debatte — ob sehr große Kontextfenster Retrieval teilweise ersetzen und damit den DRAM-Treiber abschwächen.
  • In-Memory- vs. On-Disk-Vektorindizes: Verlagerung zu Disk-basierten ANN-Indizes würde den DRAM-Bedarf senken, den Storage-Bedarf heben.
  • Wachstum der Enterprise-Datenmengen (unstrukturierte Daten in der Cloud) als struktureller Kapazitätstreiber.
  • IDP-Adoption in regulierten Branchen und die damit verbundene Datenspeicherpflicht.

Quellen & Update-Log

Primärquellen (Anbieter-Doku, Benchmark) vor Sekundärquellen (Marktforschung). Technische RAM-Werte sind nach Anbieter-Formel berechnet bzw. reported; Marktgrößen sind Sekundär-Prognosen.

QuelleTypVerwendet für
Qdrant — Capacity PlanningPrimär (Anbieter-Doku)RAM-Formel N×dim×4×1,5, 1,5-Overhead (HNSW + Metadaten)
Qdrant — Minimal RAM to serve a million vectorsPrimär (Benchmark)In-Memory ~1200 MB vs. On-Disk ~135 MB, Durchsatz, SSD-Effekt
Pinecone — Pod-Typen & -GrößenPrimär (Anbieter-Doku)Rohvektor-Größe N×dim×4, 1 Mio. @ 768 Dim. ≈ 3 GB, Vektoren je Pod
OpenAI — New embedding modelsPrimär (Modell-Spez.)Embedding-Dimensionen 1536 (3-small) / 3072 (3-large)
MarketsandMarkets — Vector Database MarketSekundär (Prognose)Marktgröße Vektor-DB 2025/2030, CAGR 27,5 %
Grand View Research — IDP MarketSekundär (Prognose)Marktgröße IDP 2024/2030, CAGR 33,1 %

Update-Log

DatumÄnderung
2026-05-21Web-Recherche eingearbeitet: belegte Kennzahlen-Tabelle (RAM/Index, In-Memory vs. On-Disk, Embedding-Dimensionen, Markt Vektor-DB & IDP), zwei HTML/CSS-Diagramme (Balken RAM je Dimension, Donut In-Memory vs. On-Disk), Akronyme inline aufgelöst, Querverweise zu Arbeitsspeicher/Micron/Samsung/SK Hynix/Data-Center und Schwesterseiten, Engpass-/IP-Pills, Quellenapparat mit Links. Rohdaten-CSVs unter assets/data/ angelegt.
2026-05-20Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).