Empfehlung & Ranking

Use Case · Nachfragetreiber

Empfehlung & Ranking

Empfehlungs-, Ranking- und Ad-Targeting-Systeme (DLRM, Deep Learning Recommendation Model) sind wirtschaftlich die größte „KI" heute — bei Meta laut Forschung die einzelgrößte KI-Anwendung nach Infrastruktur-Bedarf im Rechenzentrum. Für die These zentral: Dual-Treiber — riesige Embedding-Tabellen (DRAM, Dynamic Random Access Memory, der kapazitätsstarke Server-Arbeitsspeicher) plus Clickstream-/Event-Datenseen (Storage, NAND/SSD). Der stille Always-on-Lastträger der Speichernachfrage.

Profil: Dual-Gigant (DRAM + Storage) Reifegrad: ausgereift/produktiv Last v. a. im Datacenter Engpass DRAM-Kapazität: hoch IP-Intensität: mittel Stand: 2026-05-21

Bedarfssignatur

DimensionBedarfKurzbegründung
HBM (High Bandwidth Memory — gestapelter Hochgeschwindigkeits-Speicher am Beschleuniger)MRanker laufen auf Beschleunigern, aber der Kern ist DRAM-Kapazität, nicht HBM-Bandbreite wie bei LLMs (Large Language Models, große Sprachmodelle). Das ZionEX-Paper beschreibt explizit eine Speicherhierarchie HBM + DDR + SSD. Größere transformer-basierte Ranker erhöhen den HBM-Bedarf schrittweise. Mudigere et al., 2021
DRAM (Server)HGigantische Embedding-Tabellen (Nachschlagetabellen, die kategoriale Merkmale wie User-/Item-IDs in dichte Vektoren — Embeddings — übersetzen) für User-/Item-/Feature-Embeddings müssen im Arbeitsspeicher liegen — klassisch kapazitätsgebunden. CXL-Speichererweiterung (Compute Express Link, offener Interconnect für zusätzliche Speicher-Tiers) relevant.
NAND / StorageHClickstream- und Event-Logs: jede Impression und Interaktion wird gespeichert; dazu Feature Stores und Trainingsdaten für stetiges Retraining. Meta hält dafür Exabytes an Trainingsdaten vor. Engineering at Meta, 2022
Compute (Kontext)HInferenz (Inference, die Anwendung eines trainierten Modells auf neue Daten) bei jeder Impression und Auktion — stetig, riesiges Volumen, plus ständiges Retraining auf aktuellen Nutzerdaten.

Was es ist & Reifegrad

Recommender-, Feed-, Such- und Ad-Ranking-Systeme bei Such-, Social-, Streaming- und E-Commerce-Plattformen — etwa bei Meta, Google, ByteDance und Amazon. Das sind die Kernsysteme, die entscheiden, welchen Inhalt, welches Produkt oder welche Werbung ein Nutzer zu sehen bekommt. Technisch dominieren Sparse Features (dünn besetzte, hochkardinale kategoriale Merkmale wie User-, Item- oder Anzeigen-IDs), die über Embedding-Tabellen in dichte Vektoren übersetzt werden — diese Tabellen sind der Speicherfresser.

Reifegrad (Einschätzung): ausgereift und produktiv — seit Jahren in großem Maßstab monetarisiert und ein primärer Umsatztreiber für die größten Internetplattformen. Laut Meta-Forschung sind DLRMs (Deep Learning Recommendation Models) bei Facebook „die einzelgrößte KI-Anwendung nach Infrastruktur-Bedarf in den Rechenzentren" (Mudigere et al., 2021). Jetzt im Wandel: zunehmend größere, transformer- und sequenzbasierte Modelle ersetzen ältere DLRM-Architekturen und erhöhen den Speicher- und Compute-Bedarf weiter.

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

  • Modelle im Terabyte-Bereich, belegt: Meta beschreibt schon 2021 Training von Recommendation-Modellen bis 50 TB (über 128 GPUs) und eine ZionEX-Plattform, die auf bis zu 12 Billionen Parameter skaliert — bei 40-fachem Durchsatz gegenüber Vorsystemen. Mudigere et al., 2021
  • Embedding-Tabellen dominieren den Speicher: Schon das offene MLPerf-Benchmark (Criteo-TB, 25+ Mrd. Parameter) trägt rund 100 GB Embedding-Speicher; die Modell-Architektur partitioniert die Tabellen über viele Geräte, weil sie nicht in einen Speicher passen. Naumov et al., 2019
  • Heterogene Speicherhierarchie / CXL: Da reines HBM zu teuer/knapp ist, etablieren sich Tiers HBMCXL/CPU-DRAMSSD; CXL-Memory-Expansion gilt als Schlüssel, um Embedding-Tabellen kostengünstig zu skalieren. Astera Labs, 2024
  • Ingestion-bound, nicht compute-bound: Viele Recommendation-Modelle sind bei Meta durch das Einlesen der Trainingsdaten begrenzt, nicht durch Compute — Storage- und Reader-Tiers binden den Großteil des Strombudgets. Engineering at Meta, 2022
  • Architektur-Wandel: Verschiebung von klassischen DLRM hin zu größeren transformer- und sequenzbasierten Rankern; LLM-generierte Repräsentationen/Embeddings fließen als Signale ins Ranking und erhöhen die Modellkomplexität. (Branchentrend, Primärbeleg ausstehend.)

Die ersten vier Punkte sind primärquellenbelegt (Meta-Forschung, MLPerf, Astera Labs). Der letzte Punkt bleibt Branchen-Einschätzung — vor Verwendung in der These mit Primärquelle härten.

Treiber-Mechanik → Hardware

Warum Empfehlung & Ranking primär DRAM und Storage zieht:

DRAM — der Kerntreiber

  • Embedding-Tabellen: User-, Item- und Feature-Embeddings erreichen TB-Größe (Meta-Modelle bis 50 TB, ZionEX bis 12 Bio. Parameter) und müssen weitgehend im RAM liegen, damit die Inferenz-Latenz niedrig bleibt — ein klassisch kapazitätsgebundener Bedarf. Profiteure auf der Kapazitätsseite: Micron, Samsung, SK Hynix.
  • CXL-Relevanz: CXL-Speichererweiterung ist hier besonders relevant: Tabellen wachsen mit Nutzer-/Item-Basis, der Druck auf DRAM-Kapazität steigt proportional. Der CXL-Tier sitzt zwischen HBM und SSD und ist günstiger als zusätzliche 3DS-DIMMs (Astera Labs, 2024). CXL-Memory-Controller liefern u. a. Astera Labs und Marvell.
  • Kein HBM-Schwerpunkt: Im Unterschied zu LLMs dominiert Kapazität, nicht Bandbreite — daher DRAM, nicht HBM, als primärer Treiber. Mehr zur Speicherhierarchie: Themendossier Arbeitsspeicher.

Storage (NAND)

  • Event-/Clickstream-Datenseen: Jede Impression, jeder Klick und jede Interaktion wird protokolliert. Meta hält dafür Exabytes an Trainingsdaten (Tectonic-Dateisystem) vor; viele Recommendation-Modelle sind sogar „ingestion-bound" — durch das Datenlesen begrenzt, nicht durch Compute. Engineering at Meta, 2022
  • Feature Stores: Vorberechnete Feature-Vektoren für Ranking müssen persistent gespeichert und schnell abrufbar sein.
  • Retraining-Zyklen: Häufiges Retraining auf aktuellen Daten erzeugt zusätzlichen Storage- und Compute-Bedarf; Meta meldet 1,75–2× größere Datasets und 3–4× höheren Ingestion-Durchsatz binnen zwei Jahren. Engineering at Meta, 2022
Übersetzung in die These: Empfehlung & Ranking ist der wichtigste „Always-on"-Treiber — stetiger, planbarer DRAM-Kapazitätsbedarf plus großer NAND/Storage-Bedarf, unabhängig vom GenAI-Hype. Weniger HBM-zentrisch als LLM-Anwendungsfälle.

Speicherbedarf nach Modell-/Benchmark-Größe

Speicheranker belegter Recommendation-Modelle/Benchmarks · Einheit: Terabyte (TB) Parameter-/Embedding-Speicher · keine durchgängige Zeitreihe, sondern Größenordnungs-Anker (Balken logisch skaliert: 50 TB = 100 %).

MLPerf DLRM-DCNv2
~0,1 TB
Criteo-TB (MLPerf)
~0,1 TB
Meta-Modell (128 GPUs)
50 TB

Quelle: MLPerf-Referenzgewichte ~97 GB (MLCommons); Criteo-TB ~100 GB Embedding-Speicher, 25+ Mrd. Parameter (Desai & Shrivastava, 2022); Meta-Modell 50 TB / ZionEX bis 12 Bio. Parameter (Mudigere et al., 2021). Rohdaten: assets/data/empfehlung-modellgroesse.csv. Die ZionEX-Obergrenze (12 Bio. Parameter) ist nicht als TB-Wert aus dem Abstract belegbar und daher nicht als Balken dargestellt.

Burggraben-Einordnung (IP-Intensität: mittel IP-Intensität: mittel): Die DLRM-Architektur selbst ist seit 2019 quelloffen (facebookresearch/dlrm) und algorithmisch eher commodity-nah. Der eigentliche Burggraben ist nicht die Modell-IP, sondern das Daten- und Skalen-Asset — Exabyte-Datenseen, Feature-Pipelines und die Fähigkeit, riesige Embedding-Tabellen latenzarm zu betreiben. Für die Speicher-These ist genau das die gute Nachricht: Der Bedarf steckt in Kapazität (DRAM/NAND), nicht in proprietären Chips.

Kennzahlen

Quantitative Anker mit Quelle, Zeitraum, Einheit und Klassifikation (reported = aus Primärquelle / geschätzt = Sekundär / eigene Annahme).

KennzahlWertZeitraum / ArtQuelle
Max. trainierbare Recommendation-Modellgröße (Meta ZionEX)bis 12 Bio. Parameter2021 · reportedMudigere et al., 2021
Größtes konkret trainiertes Meta-Modell (über 128 GPUs)50 TB2021 · reportedMudigere et al., 2021
Embedding-Speicher offenes Benchmark (Criteo-TB, 25+ Mrd. Parameter)~100 GB2021/22 · reportedDesai & Shrivastava, 2022
MLPerf-Referenzmodell DLRM-DCNv2 (PyTorch-Gewichte)~97 GB2022+ · reportedMLCommons
Trainingsdaten-Bestand Meta (Tectonic)Exabytes2022 · reportedEngineering at Meta, 2022
Wachstum Trainings-Dataset bzw. Ingestion-Durchsatz (2 Jahre)1,75–2× / 3–4×~2020–2022 · reportedEngineering at Meta, 2022
Meta-Werbeumsatz (Monetarisierungsbezug)160,6 Mrd. USDFY2024 · reportedMeta, FY2024-Bericht
Meta Ad-Impressions / Preis je Ad (YoY)+11 % / +10 %FY2024 · reportedMeta, FY2024-Bericht
DRAM je Recommender-Server (typische Cluster-Konfiguration)k. A. — Recherche ausstehendk. A.
Anteil Inferenz-Compute der Hyperscaler für Recommendationk. A. — Recherche ausstehendk. A.

Rohdaten zu den Modell-/Speichergrößen unter assets/data/empfehlung-modellgroesse.csv — bei Änderung synchron halten. Hinweis: Die ZionEX-Obergrenze beschreibt die trainierbare Maximalgröße, nicht ein produktiv ausgeliefertes Modell.

Edge vs. Datacenter

Vollständig Datacenter: Ranking- und Empfehlungsinfrastruktur läuft zentral in den Rechenzentren der Plattformen. Kein nennenswerter Edge-Anteil — die Embedding-Tabellen und Feature Stores sind zu groß für Edge-Deployment. Damit zählt dieser Use Case voll für Datacenter-DRAM und -Storage.

Bedeutung für die Speicher-/Storage-These

Empfehlung & Ranking ist der wichtigste stetige DRAM-Kapazitätstreiber und ein großer Datacenter-NAND-Treiber — weniger HBM-getrieben als LLM-Use-Cases. Der Bedarf ist strukturell verankert (jede Plattform-Interaktion treibt ihn) und unabhängig vom GenAI-Hype planbar. Schwerpunkt für die Speicher-These ist die Kapazitätsseite: Die drei DRAM-Hersteller Micron, Samsung und SK Hynix profitieren direkt, dazu das übergeordnete Themendossier Arbeitsspeicher. Die Last entsteht vollständig im Rechenzentrum (siehe Data Center bzw. die Beschleuniger-Seite Chip-Fertigung inkl. Nvidia als Inferenz-Plattform).

Beobachten / offene Fragen

  • Größe und Wachstumsrate der Embedding-Tabellen bei großen Plattformen — entscheidend für den DRAM-Kapazitätsbedarf.
  • Übergang zu transformer-basiertem Ranking und ob damit HBM-Bedarf signifikant steigt (Verschiebung von DRAM- zu HBM-Treiber?).
  • CXL-Adoption in Recommender-Infrastruktur als Indikator für DRAM-Kapazitätsdruck.
  • Datenaufbewahrungs-Volumen und Retraining-Frequenz als Treiber des Storage-Bedarfs.

Quellen & Update-Log

Quellen mit klickbaren Links, Primär- vor Sekundärquellen.

QuelleArtBelegt
Mudigere et al. — Software-Hardware Co-design for Fast and Scalable Training of DLRMs (ZionEX), arXiv 2104.05158, 2021Primär (arXiv, Meta)DLRM = größte KI-Anwendung bei Meta; 50 TB-Modell; bis 12 Bio. Parameter; 40× Speedup; HBM+DDR+SSD-Hierarchie
Naumov et al. — Deep Learning Recommendation Model (DLRM), arXiv 1906.00091, 2019Primär (arXiv, Facebook)Original-DLRM; Modellparallelität auf Embedding-Tabellen wegen Speichergrenzen
facebookresearch/dlrm — quelloffene ReferenzimplementierungPrimär (Code)DLRM-Architektur quelloffen → IP-Intensität mittel
MLCommons — MLPerf Inference, DLRMv2 (DLRM-DCNv2) READMEPrimär (Benchmark)Referenzgewichte ~97 GB; multi-hot Criteo
Desai & Shrivastava — Trade-offs of model size in large recommendation models, arXiv 2207.10731, 2022Primär (arXiv)Criteo-TB-Benchmark: ~100 GB Embedding-Speicher, 25+ Mrd. Parameter
Engineering at Meta — Scaling data ingestion for ML training, 2022Primär (Engineering-Blog)Exabytes Trainingsdaten (Tectonic); Recommendation-Modelle ingestion-bound; 1,75–2× / 3–4× Wachstum
Meta Platforms — Q4 & Full Year 2024 Results, 2025Primär (Geschäftszahlen)Werbeumsatz 160,6 Mrd. USD FY2024; Ad-Impressions +11 %, Preis je Ad +10 % YoY
Astera Labs — Optimizing DLRMs with CXL Smart Memory Controllers, 2024Sekundär (Hersteller)CXL-Tier zwischen HBM und SSD; günstiger als zusätzliche 3DS-DIMMs

Update-Log

DatumÄnderung
2026-05-21Web-Recherche: belegte Kennzahlen (Meta ZionEX/DLRM, MLPerf, Meta-Datenscale, Werbeumsatz FY2024), Quellenapparat mit Primärquellen, Balkendiagramm Modellgröße + CSV, Akronyme inline aufgelöst, Querverweise auf Micron/Samsung/SK Hynix/Data-Center, Engpass-/IP-Pills, kein-dossier-Marker (CXL-Controller, Nvidia).
2026-05-20Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).