Use Case · Nachfragetreiber

Empfehlung & Ranking

Empfehlungs-, Ranking- und Ad-Targeting-Systeme (DLRM, Deep Learning Recommendation Model) sind wirtschaftlich die größte „KI" heute — bei Meta laut Forschung die einzelgrößte KI-Anwendung nach Infrastruktur-Bedarf im Rechenzentrum. Für die These zentral: Dual-Treiber — riesige Embedding-Tabellen (DRAM, Dynamic Random Access Memory, der kapazitätsstarke Server-Arbeitsspeicher) plus Clickstream-/Event-Datenseen (Storage, NAND/SSD). Der stille Always-on-Lastträger der Speichernachfrage.

Profil: Dual-Gigant (DRAM + Storage) Reifegrad: ausgereift/produktiv Last v. a. im Datacenter Engpass DRAM-Kapazität: hoch IP-Intensität: mittel Stand: 2026-05-21

Bedarfssignatur

Dimension	Bedarf	Kurzbegründung
HBM (High Bandwidth Memory — gestapelter Hochgeschwindigkeits-Speicher am Beschleuniger)	M	Ranker laufen auf Beschleunigern, aber der Kern ist DRAM-Kapazität, nicht HBM-Bandbreite wie bei LLMs (Large Language Models, große Sprachmodelle). Das ZionEX-Paper beschreibt explizit eine Speicherhierarchie HBM + DDR + SSD. Größere transformer-basierte Ranker erhöhen den HBM-Bedarf schrittweise. Mudigere et al., 2021
DRAM (Server)	H	Gigantische Embedding-Tabellen (Nachschlagetabellen, die kategoriale Merkmale wie User-/Item-IDs in dichte Vektoren — Embeddings — übersetzen) für User-/Item-/Feature-Embeddings müssen im Arbeitsspeicher liegen — klassisch kapazitätsgebunden. CXL-Speichererweiterung (Compute Express Link, offener Interconnect für zusätzliche Speicher-Tiers) relevant.
NAND / Storage	H	Clickstream- und Event-Logs: jede Impression und Interaktion wird gespeichert; dazu Feature Stores und Trainingsdaten für stetiges Retraining. Meta hält dafür Exabytes an Trainingsdaten vor. Engineering at Meta, 2022
Compute (Kontext)	H	Inferenz (Inference, die Anwendung eines trainierten Modells auf neue Daten) bei jeder Impression und Auktion — stetig, riesiges Volumen, plus ständiges Retraining auf aktuellen Nutzerdaten.

Was es ist & Reifegrad

Recommender-, Feed-, Such- und Ad-Ranking-Systeme bei Such-, Social-, Streaming- und E-Commerce-Plattformen — etwa bei Meta, Google, ByteDance und Amazon. Das sind die Kernsysteme, die entscheiden, welchen Inhalt, welches Produkt oder welche Werbung ein Nutzer zu sehen bekommt. Technisch dominieren Sparse Features (dünn besetzte, hochkardinale kategoriale Merkmale wie User-, Item- oder Anzeigen-IDs), die über Embedding-Tabellen in dichte Vektoren übersetzt werden — diese Tabellen sind der Speicherfresser.

Reifegrad (Einschätzung): ausgereift und produktiv — seit Jahren in großem Maßstab monetarisiert und ein primärer Umsatztreiber für die größten Internetplattformen. Laut Meta-Forschung sind DLRMs (Deep Learning Recommendation Models) bei Facebook „die einzelgrößte KI-Anwendung nach Infrastruktur-Bedarf in den Rechenzentren" (Mudigere et al., 2021). Jetzt im Wandel: zunehmend größere, transformer- und sequenzbasierte Modelle ersetzen ältere DLRM-Architekturen und erhöhen den Speicher- und Compute-Bedarf weiter.

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

Modelle im Terabyte-Bereich, belegt: Meta beschreibt schon 2021 Training von Recommendation-Modellen bis 50 TB (über 128 GPUs) und eine ZionEX-Plattform, die auf bis zu 12 Billionen Parameter skaliert — bei 40-fachem Durchsatz gegenüber Vorsystemen. Mudigere et al., 2021
Embedding-Tabellen dominieren den Speicher: Schon das offene MLPerf-Benchmark (Criteo-TB, 25+ Mrd. Parameter) trägt rund 100 GB Embedding-Speicher; die Modell-Architektur partitioniert die Tabellen über viele Geräte, weil sie nicht in einen Speicher passen. Naumov et al., 2019
Heterogene Speicherhierarchie / CXL: Da reines HBM zu teuer/knapp ist, etablieren sich Tiers HBM → CXL/CPU-DRAM → SSD; CXL-Memory-Expansion gilt als Schlüssel, um Embedding-Tabellen kostengünstig zu skalieren. Astera Labs, 2024
Ingestion-bound, nicht compute-bound: Viele Recommendation-Modelle sind bei Meta durch das Einlesen der Trainingsdaten begrenzt, nicht durch Compute — Storage- und Reader-Tiers binden den Großteil des Strombudgets. Engineering at Meta, 2022
Architektur-Wandel: Verschiebung von klassischen DLRM hin zu größeren transformer- und sequenzbasierten Rankern; LLM-generierte Repräsentationen/Embeddings fließen als Signale ins Ranking und erhöhen die Modellkomplexität. (Branchentrend, Primärbeleg ausstehend.)

Die ersten vier Punkte sind primärquellenbelegt (Meta-Forschung, MLPerf, Astera Labs). Der letzte Punkt bleibt Branchen-Einschätzung — vor Verwendung in der These mit Primärquelle härten.

Treiber-Mechanik → Hardware

Warum Empfehlung & Ranking primär DRAM und Storage zieht:

DRAM — der Kerntreiber

Embedding-Tabellen: User-, Item- und Feature-Embeddings erreichen TB-Größe (Meta-Modelle bis 50 TB, ZionEX bis 12 Bio. Parameter) und müssen weitgehend im RAM liegen, damit die Inferenz-Latenz niedrig bleibt — ein klassisch kapazitätsgebundener Bedarf. Profiteure auf der Kapazitätsseite: Micron, Samsung, SK Hynix.
CXL-Relevanz: CXL-Speichererweiterung ist hier besonders relevant: Tabellen wachsen mit Nutzer-/Item-Basis, der Druck auf DRAM-Kapazität steigt proportional. Der CXL-Tier sitzt zwischen HBM und SSD und ist günstiger als zusätzliche 3DS-DIMMs (Astera Labs, 2024). CXL-Memory-Controller liefern u. a. Astera Labs und Marvell.
Kein HBM-Schwerpunkt: Im Unterschied zu LLMs dominiert Kapazität, nicht Bandbreite — daher DRAM, nicht HBM, als primärer Treiber. Mehr zur Speicherhierarchie: Themendossier Arbeitsspeicher.

Storage (NAND)

Event-/Clickstream-Datenseen: Jede Impression, jeder Klick und jede Interaktion wird protokolliert. Meta hält dafür Exabytes an Trainingsdaten (Tectonic-Dateisystem) vor; viele Recommendation-Modelle sind sogar „ingestion-bound" — durch das Datenlesen begrenzt, nicht durch Compute. Engineering at Meta, 2022
Feature Stores: Vorberechnete Feature-Vektoren für Ranking müssen persistent gespeichert und schnell abrufbar sein.
Retraining-Zyklen: Häufiges Retraining auf aktuellen Daten erzeugt zusätzlichen Storage- und Compute-Bedarf; Meta meldet 1,75–2× größere Datasets und 3–4× höheren Ingestion-Durchsatz binnen zwei Jahren. Engineering at Meta, 2022

Übersetzung in die These: Empfehlung & Ranking ist der wichtigste „Always-on"-Treiber — stetiger, planbarer DRAM-Kapazitätsbedarf plus großer NAND/Storage-Bedarf, unabhängig vom GenAI-Hype. Weniger HBM-zentrisch als LLM-Anwendungsfälle.

Speicherbedarf nach Modell-/Benchmark-Größe

Speicheranker belegter Recommendation-Modelle/Benchmarks · Einheit: Terabyte (TB) Parameter-/Embedding-Speicher · keine durchgängige Zeitreihe, sondern Größenordnungs-Anker (Balken logisch skaliert: 50 TB = 100 %).

MLPerf DLRM-DCNv2

~0,1 TB

Criteo-TB (MLPerf)

~0,1 TB

Meta-Modell (128 GPUs)

50 TB

Quelle: MLPerf-Referenzgewichte ~97 GB (MLCommons); Criteo-TB ~100 GB Embedding-Speicher, 25+ Mrd. Parameter (Desai & Shrivastava, 2022); Meta-Modell 50 TB / ZionEX bis 12 Bio. Parameter (Mudigere et al., 2021). Rohdaten: assets/data/empfehlung-modellgroesse.csv. Die ZionEX-Obergrenze (12 Bio. Parameter) ist nicht als TB-Wert aus dem Abstract belegbar und daher nicht als Balken dargestellt.

Burggraben-Einordnung (IP-Intensität: mittel IP-Intensität: mittel): Die DLRM-Architektur selbst ist seit 2019 quelloffen (facebookresearch/dlrm) und algorithmisch eher commodity-nah. Der eigentliche Burggraben ist nicht die Modell-IP, sondern das Daten- und Skalen-Asset — Exabyte-Datenseen, Feature-Pipelines und die Fähigkeit, riesige Embedding-Tabellen latenzarm zu betreiben. Für die Speicher-These ist genau das die gute Nachricht: Der Bedarf steckt in Kapazität (DRAM/NAND), nicht in proprietären Chips.

Kennzahlen

Quantitative Anker mit Quelle, Zeitraum, Einheit und Klassifikation (reported = aus Primärquelle / geschätzt = Sekundär / eigene Annahme).

Kennzahl	Wert	Zeitraum / Art	Quelle
Max. trainierbare Recommendation-Modellgröße (Meta ZionEX)	bis 12 Bio. Parameter	2021 · reported	Mudigere et al., 2021
Größtes konkret trainiertes Meta-Modell (über 128 GPUs)	50 TB	2021 · reported	Mudigere et al., 2021
Embedding-Speicher offenes Benchmark (Criteo-TB, 25+ Mrd. Parameter)	~100 GB	2021/22 · reported	Desai & Shrivastava, 2022
MLPerf-Referenzmodell DLRM-DCNv2 (PyTorch-Gewichte)	~97 GB	2022+ · reported	MLCommons
Trainingsdaten-Bestand Meta (Tectonic)	Exabytes	2022 · reported	Engineering at Meta, 2022
Wachstum Trainings-Dataset bzw. Ingestion-Durchsatz (2 Jahre)	1,75–2× / 3–4×	~2020–2022 · reported	Engineering at Meta, 2022
Meta-Werbeumsatz (Monetarisierungsbezug)	160,6 Mrd. USD	FY2024 · reported	Meta, FY2024-Bericht
Meta Ad-Impressions / Preis je Ad (YoY)	+11 % / +10 %	FY2024 · reported	Meta, FY2024-Bericht
DRAM je Recommender-Server (typische Cluster-Konfiguration)	k. A. — Recherche ausstehend	—	k. A.
Anteil Inferenz-Compute der Hyperscaler für Recommendation	k. A. — Recherche ausstehend	—	k. A.

Rohdaten zu den Modell-/Speichergrößen unter assets/data/empfehlung-modellgroesse.csv — bei Änderung synchron halten. Hinweis: Die ZionEX-Obergrenze beschreibt die trainierbare Maximalgröße, nicht ein produktiv ausgeliefertes Modell.

Edge vs. Datacenter

Vollständig Datacenter: Ranking- und Empfehlungsinfrastruktur läuft zentral in den Rechenzentren der Plattformen. Kein nennenswerter Edge-Anteil — die Embedding-Tabellen und Feature Stores sind zu groß für Edge-Deployment. Damit zählt dieser Use Case voll für Datacenter-DRAM und -Storage.

Bedeutung für die Speicher-/Storage-These

Empfehlung & Ranking ist der wichtigste stetige DRAM-Kapazitätstreiber und ein großer Datacenter-NAND-Treiber — weniger HBM-getrieben als LLM-Use-Cases. Der Bedarf ist strukturell verankert (jede Plattform-Interaktion treibt ihn) und unabhängig vom GenAI-Hype planbar. Schwerpunkt für die Speicher-These ist die Kapazitätsseite: Die drei DRAM-Hersteller Micron, Samsung und SK Hynix profitieren direkt, dazu das übergeordnete Themendossier Arbeitsspeicher. Die Last entsteht vollständig im Rechenzentrum (siehe Data Center bzw. die Beschleuniger-Seite Chip-Fertigung inkl. Nvidia als Inferenz-Plattform).

Beobachten / offene Fragen

Größe und Wachstumsrate der Embedding-Tabellen bei großen Plattformen — entscheidend für den DRAM-Kapazitätsbedarf.
Übergang zu transformer-basiertem Ranking und ob damit HBM-Bedarf signifikant steigt (Verschiebung von DRAM- zu HBM-Treiber?).
CXL-Adoption in Recommender-Infrastruktur als Indikator für DRAM-Kapazitätsdruck.
Datenaufbewahrungs-Volumen und Retraining-Frequenz als Treiber des Storage-Bedarfs.

Quellen & Update-Log

Quellen mit klickbaren Links, Primär- vor Sekundärquellen.

Quelle	Art	Belegt
Mudigere et al. — Software-Hardware Co-design for Fast and Scalable Training of DLRMs (ZionEX), arXiv 2104.05158, 2021	Primär (arXiv, Meta)	DLRM = größte KI-Anwendung bei Meta; 50 TB-Modell; bis 12 Bio. Parameter; 40× Speedup; HBM+DDR+SSD-Hierarchie
Naumov et al. — Deep Learning Recommendation Model (DLRM), arXiv 1906.00091, 2019	Primär (arXiv, Facebook)	Original-DLRM; Modellparallelität auf Embedding-Tabellen wegen Speichergrenzen
facebookresearch/dlrm — quelloffene Referenzimplementierung	Primär (Code)	DLRM-Architektur quelloffen → IP-Intensität mittel
MLCommons — MLPerf Inference, DLRMv2 (DLRM-DCNv2) README	Primär (Benchmark)	Referenzgewichte ~97 GB; multi-hot Criteo
Desai & Shrivastava — Trade-offs of model size in large recommendation models, arXiv 2207.10731, 2022	Primär (arXiv)	Criteo-TB-Benchmark: ~100 GB Embedding-Speicher, 25+ Mrd. Parameter
Engineering at Meta — Scaling data ingestion for ML training, 2022	Primär (Engineering-Blog)	Exabytes Trainingsdaten (Tectonic); Recommendation-Modelle ingestion-bound; 1,75–2× / 3–4× Wachstum
Meta Platforms — Q4 & Full Year 2024 Results, 2025	Primär (Geschäftszahlen)	Werbeumsatz 160,6 Mrd. USD FY2024; Ad-Impressions +11 %, Preis je Ad +10 % YoY
Astera Labs — Optimizing DLRMs with CXL Smart Memory Controllers, 2024	Sekundär (Hersteller)	CXL-Tier zwischen HBM und SSD; günstiger als zusätzliche 3DS-DIMMs

Update-Log

Datum	Änderung
2026-05-21	Web-Recherche: belegte Kennzahlen (Meta ZionEX/DLRM, MLPerf, Meta-Datenscale, Werbeumsatz FY2024), Quellenapparat mit Primärquellen, Balkendiagramm Modellgröße + CSV, Akronyme inline aufgelöst, Querverweise auf Micron/Samsung/SK Hynix/Data-Center, Engpass-/IP-Pills, kein-dossier-Marker (CXL-Controller, Nvidia).
2026-05-20	Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).