Use Case · Nachfragetreiber
Empfehlung & Ranking
Empfehlungs-, Ranking- und Ad-Targeting-Systeme (DLRM, Deep Learning Recommendation Model) sind wirtschaftlich die größte „KI" heute — bei Meta laut Forschung die einzelgrößte KI-Anwendung nach Infrastruktur-Bedarf im Rechenzentrum. Für die These zentral: Dual-Treiber — riesige Embedding-Tabellen (DRAM, Dynamic Random Access Memory, der kapazitätsstarke Server-Arbeitsspeicher) plus Clickstream-/Event-Datenseen (Storage, NAND/SSD). Der stille Always-on-Lastträger der Speichernachfrage.
Bedarfssignatur
| Dimension | Bedarf | Kurzbegründung |
|---|---|---|
| HBM (High Bandwidth Memory — gestapelter Hochgeschwindigkeits-Speicher am Beschleuniger) | M | Ranker laufen auf Beschleunigern, aber der Kern ist DRAM-Kapazität, nicht HBM-Bandbreite wie bei LLMs (Large Language Models, große Sprachmodelle). Das ZionEX-Paper beschreibt explizit eine Speicherhierarchie HBM + DDR + SSD. Größere transformer-basierte Ranker erhöhen den HBM-Bedarf schrittweise. Mudigere et al., 2021 |
| DRAM (Server) | H | Gigantische Embedding-Tabellen (Nachschlagetabellen, die kategoriale Merkmale wie User-/Item-IDs in dichte Vektoren — Embeddings — übersetzen) für User-/Item-/Feature-Embeddings müssen im Arbeitsspeicher liegen — klassisch kapazitätsgebunden. CXL-Speichererweiterung (Compute Express Link, offener Interconnect für zusätzliche Speicher-Tiers) relevant. |
| NAND / Storage | H | Clickstream- und Event-Logs: jede Impression und Interaktion wird gespeichert; dazu Feature Stores und Trainingsdaten für stetiges Retraining. Meta hält dafür Exabytes an Trainingsdaten vor. Engineering at Meta, 2022 |
| Compute (Kontext) | H | Inferenz (Inference, die Anwendung eines trainierten Modells auf neue Daten) bei jeder Impression und Auktion — stetig, riesiges Volumen, plus ständiges Retraining auf aktuellen Nutzerdaten. |
Was es ist & Reifegrad
Recommender-, Feed-, Such- und Ad-Ranking-Systeme bei Such-, Social-, Streaming- und E-Commerce-Plattformen — etwa bei Meta, Google, ByteDance und Amazon. Das sind die Kernsysteme, die entscheiden, welchen Inhalt, welches Produkt oder welche Werbung ein Nutzer zu sehen bekommt. Technisch dominieren Sparse Features (dünn besetzte, hochkardinale kategoriale Merkmale wie User-, Item- oder Anzeigen-IDs), die über Embedding-Tabellen in dichte Vektoren übersetzt werden — diese Tabellen sind der Speicherfresser.
Reifegrad (Einschätzung): ausgereift und produktiv — seit Jahren in großem Maßstab monetarisiert und ein primärer Umsatztreiber für die größten Internetplattformen. Laut Meta-Forschung sind DLRMs (Deep Learning Recommendation Models) bei Facebook „die einzelgrößte KI-Anwendung nach Infrastruktur-Bedarf in den Rechenzentren" (Mudigere et al., 2021). Jetzt im Wandel: zunehmend größere, transformer- und sequenzbasierte Modelle ersetzen ältere DLRM-Architekturen und erhöhen den Speicher- und Compute-Bedarf weiter.
Stand der Dinge / Dynamik
Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.
- Modelle im Terabyte-Bereich, belegt: Meta beschreibt schon 2021 Training von Recommendation-Modellen bis 50 TB (über 128 GPUs) und eine ZionEX-Plattform, die auf bis zu 12 Billionen Parameter skaliert — bei 40-fachem Durchsatz gegenüber Vorsystemen. Mudigere et al., 2021
- Embedding-Tabellen dominieren den Speicher: Schon das offene MLPerf-Benchmark (Criteo-TB, 25+ Mrd. Parameter) trägt rund 100 GB Embedding-Speicher; die Modell-Architektur partitioniert die Tabellen über viele Geräte, weil sie nicht in einen Speicher passen. Naumov et al., 2019
- Heterogene Speicherhierarchie / CXL: Da reines HBM zu teuer/knapp ist, etablieren sich Tiers HBM → CXL/CPU-DRAM → SSD; CXL-Memory-Expansion gilt als Schlüssel, um Embedding-Tabellen kostengünstig zu skalieren. Astera Labs, 2024
- Ingestion-bound, nicht compute-bound: Viele Recommendation-Modelle sind bei Meta durch das Einlesen der Trainingsdaten begrenzt, nicht durch Compute — Storage- und Reader-Tiers binden den Großteil des Strombudgets. Engineering at Meta, 2022
- Architektur-Wandel: Verschiebung von klassischen DLRM hin zu größeren transformer- und sequenzbasierten Rankern; LLM-generierte Repräsentationen/Embeddings fließen als Signale ins Ranking und erhöhen die Modellkomplexität. (Branchentrend, Primärbeleg ausstehend.)
Die ersten vier Punkte sind primärquellenbelegt (Meta-Forschung, MLPerf, Astera Labs). Der letzte Punkt bleibt Branchen-Einschätzung — vor Verwendung in der These mit Primärquelle härten.
Treiber-Mechanik → Hardware
Warum Empfehlung & Ranking primär DRAM und Storage zieht:
DRAM — der Kerntreiber
- Embedding-Tabellen: User-, Item- und Feature-Embeddings erreichen TB-Größe (Meta-Modelle bis 50 TB, ZionEX bis 12 Bio. Parameter) und müssen weitgehend im RAM liegen, damit die Inferenz-Latenz niedrig bleibt — ein klassisch kapazitätsgebundener Bedarf. Profiteure auf der Kapazitätsseite: Micron, Samsung, SK Hynix.
- CXL-Relevanz: CXL-Speichererweiterung ist hier besonders relevant: Tabellen wachsen mit Nutzer-/Item-Basis, der Druck auf DRAM-Kapazität steigt proportional. Der CXL-Tier sitzt zwischen HBM und SSD und ist günstiger als zusätzliche 3DS-DIMMs (Astera Labs, 2024). CXL-Memory-Controller liefern u. a. Astera Labs und Marvell.
- Kein HBM-Schwerpunkt: Im Unterschied zu LLMs dominiert Kapazität, nicht Bandbreite — daher DRAM, nicht HBM, als primärer Treiber. Mehr zur Speicherhierarchie: Themendossier Arbeitsspeicher.
Storage (NAND)
- Event-/Clickstream-Datenseen: Jede Impression, jeder Klick und jede Interaktion wird protokolliert. Meta hält dafür Exabytes an Trainingsdaten (Tectonic-Dateisystem) vor; viele Recommendation-Modelle sind sogar „ingestion-bound" — durch das Datenlesen begrenzt, nicht durch Compute. Engineering at Meta, 2022
- Feature Stores: Vorberechnete Feature-Vektoren für Ranking müssen persistent gespeichert und schnell abrufbar sein.
- Retraining-Zyklen: Häufiges Retraining auf aktuellen Daten erzeugt zusätzlichen Storage- und Compute-Bedarf; Meta meldet 1,75–2× größere Datasets und 3–4× höheren Ingestion-Durchsatz binnen zwei Jahren. Engineering at Meta, 2022
Speicherbedarf nach Modell-/Benchmark-Größe
Speicheranker belegter Recommendation-Modelle/Benchmarks · Einheit: Terabyte (TB) Parameter-/Embedding-Speicher · keine durchgängige Zeitreihe, sondern Größenordnungs-Anker (Balken logisch skaliert: 50 TB = 100 %).
Quelle: MLPerf-Referenzgewichte ~97 GB (MLCommons); Criteo-TB ~100 GB Embedding-Speicher, 25+ Mrd. Parameter (Desai & Shrivastava, 2022); Meta-Modell 50 TB / ZionEX bis 12 Bio. Parameter (Mudigere et al., 2021). Rohdaten: assets/data/empfehlung-modellgroesse.csv. Die ZionEX-Obergrenze (12 Bio. Parameter) ist nicht als TB-Wert aus dem Abstract belegbar und daher nicht als Balken dargestellt.
Kennzahlen
Quantitative Anker mit Quelle, Zeitraum, Einheit und Klassifikation (reported = aus Primärquelle / geschätzt = Sekundär / eigene Annahme).
| Kennzahl | Wert | Zeitraum / Art | Quelle |
|---|---|---|---|
| Max. trainierbare Recommendation-Modellgröße (Meta ZionEX) | bis 12 Bio. Parameter | 2021 · reported | Mudigere et al., 2021 |
| Größtes konkret trainiertes Meta-Modell (über 128 GPUs) | 50 TB | 2021 · reported | Mudigere et al., 2021 |
| Embedding-Speicher offenes Benchmark (Criteo-TB, 25+ Mrd. Parameter) | ~100 GB | 2021/22 · reported | Desai & Shrivastava, 2022 |
| MLPerf-Referenzmodell DLRM-DCNv2 (PyTorch-Gewichte) | ~97 GB | 2022+ · reported | MLCommons |
| Trainingsdaten-Bestand Meta (Tectonic) | Exabytes | 2022 · reported | Engineering at Meta, 2022 |
| Wachstum Trainings-Dataset bzw. Ingestion-Durchsatz (2 Jahre) | 1,75–2× / 3–4× | ~2020–2022 · reported | Engineering at Meta, 2022 |
| Meta-Werbeumsatz (Monetarisierungsbezug) | 160,6 Mrd. USD | FY2024 · reported | Meta, FY2024-Bericht |
| Meta Ad-Impressions / Preis je Ad (YoY) | +11 % / +10 % | FY2024 · reported | Meta, FY2024-Bericht |
| DRAM je Recommender-Server (typische Cluster-Konfiguration) | k. A. — Recherche ausstehend | — | k. A. |
| Anteil Inferenz-Compute der Hyperscaler für Recommendation | k. A. — Recherche ausstehend | — | k. A. |
Rohdaten zu den Modell-/Speichergrößen unter assets/data/empfehlung-modellgroesse.csv — bei Änderung synchron halten. Hinweis: Die ZionEX-Obergrenze beschreibt die trainierbare Maximalgröße, nicht ein produktiv ausgeliefertes Modell.
Edge vs. Datacenter
Vollständig Datacenter: Ranking- und Empfehlungsinfrastruktur läuft zentral in den Rechenzentren der Plattformen. Kein nennenswerter Edge-Anteil — die Embedding-Tabellen und Feature Stores sind zu groß für Edge-Deployment. Damit zählt dieser Use Case voll für Datacenter-DRAM und -Storage.
Bedeutung für die Speicher-/Storage-These
Beobachten / offene Fragen
- Größe und Wachstumsrate der Embedding-Tabellen bei großen Plattformen — entscheidend für den DRAM-Kapazitätsbedarf.
- Übergang zu transformer-basiertem Ranking und ob damit HBM-Bedarf signifikant steigt (Verschiebung von DRAM- zu HBM-Treiber?).
- CXL-Adoption in Recommender-Infrastruktur als Indikator für DRAM-Kapazitätsdruck.
- Datenaufbewahrungs-Volumen und Retraining-Frequenz als Treiber des Storage-Bedarfs.
Quellen & Update-Log
Quellen mit klickbaren Links, Primär- vor Sekundärquellen.
| Quelle | Art | Belegt |
|---|---|---|
| Mudigere et al. — Software-Hardware Co-design for Fast and Scalable Training of DLRMs (ZionEX), arXiv 2104.05158, 2021 | Primär (arXiv, Meta) | DLRM = größte KI-Anwendung bei Meta; 50 TB-Modell; bis 12 Bio. Parameter; 40× Speedup; HBM+DDR+SSD-Hierarchie |
| Naumov et al. — Deep Learning Recommendation Model (DLRM), arXiv 1906.00091, 2019 | Primär (arXiv, Facebook) | Original-DLRM; Modellparallelität auf Embedding-Tabellen wegen Speichergrenzen |
| facebookresearch/dlrm — quelloffene Referenzimplementierung | Primär (Code) | DLRM-Architektur quelloffen → IP-Intensität mittel |
| MLCommons — MLPerf Inference, DLRMv2 (DLRM-DCNv2) README | Primär (Benchmark) | Referenzgewichte ~97 GB; multi-hot Criteo |
| Desai & Shrivastava — Trade-offs of model size in large recommendation models, arXiv 2207.10731, 2022 | Primär (arXiv) | Criteo-TB-Benchmark: ~100 GB Embedding-Speicher, 25+ Mrd. Parameter |
| Engineering at Meta — Scaling data ingestion for ML training, 2022 | Primär (Engineering-Blog) | Exabytes Trainingsdaten (Tectonic); Recommendation-Modelle ingestion-bound; 1,75–2× / 3–4× Wachstum |
| Meta Platforms — Q4 & Full Year 2024 Results, 2025 | Primär (Geschäftszahlen) | Werbeumsatz 160,6 Mrd. USD FY2024; Ad-Impressions +11 %, Preis je Ad +10 % YoY |
| Astera Labs — Optimizing DLRMs with CXL Smart Memory Controllers, 2024 | Sekundär (Hersteller) | CXL-Tier zwischen HBM und SSD; günstiger als zusätzliche 3DS-DIMMs |
Update-Log
| Datum | Änderung |
|---|---|
| 2026-05-21 | Web-Recherche: belegte Kennzahlen (Meta ZionEX/DLRM, MLPerf, Meta-Datenscale, Werbeumsatz FY2024), Quellenapparat mit Primärquellen, Balkendiagramm Modellgröße + CSV, Akronyme inline aufgelöst, Querverweise auf Micron/Samsung/SK Hynix/Data-Center, Engpass-/IP-Pills, kein-dossier-Marker (CXL-Controller, Nvidia). |
| 2026-05-20 | Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen). |