Use Case · Nachfragetreiber

Vision & Perzeption

Erkennen statt Erzeugen — Objektdetektion, Segmentierung, medizinische Bildanalyse, industrielle Inspektion, Fahrzeug-Perzeption. Wichtig für die Abgrenzung: viel Storage (Trainingsdaten), aber kaum Datacenter-Speicher, weil die Inferenz am Edge (am Gerät, nahe der Datenquelle) läuft. Edge-lastig und NAND- (NAND-Flash, nicht-flüchtiger Massenspeicher) -getrieben, mit geringer Datacenter-Last bei HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher auf Beschleunigern) und DRAM (Dynamic Random-Access Memory, Server-Arbeitsspeicher).

Profil: Storage-geführt · Edge Edge-Inferenz (NPU im Gerät) Reifegrad: produktiv, etabliert Training im DC, Inferenz am Edge Stand: 2026-05-21

Engpass (Memory-These): niedrig IP-Intensität: mittel

Pills sind Einschätzungen. Engpass: niedrig — Vision belastet die knappen DC-Memory-Stufen (HBM/DRAM) kaum; der Hardware-Beitrag liegt auf der gut verfügbaren NAND/Storage-Seite. IP-Intensität: mittel — Wert entsteht aus proprietären Daten/Modellen (gelabelte Trainingsdaten, domänenspezifische CNNs) und teils aus Edge-Beschleuniger-Architekturen; die zugrundeliegenden CV-Methoden sind aber weitgehend offen/standardisiert.

Bedarfssignatur

Dimension	Bedarf	Kurzbegründung
HBM (Beschleuniger)	N	Im Datacenter (DC): die Inferenz läuft am Edge auf Kameras, Fahrzeugen und Embedded-Chips mit eigener NPU (Neural Processing Unit, KI-Beschleuniger im Gerät) — kein nennenswerter DC-HBM-Bedarf durch laufende Inferenz.
DRAM (Server)	N	Im Datacenter aus demselben Grund: Inferenz findet nicht im DC statt, daher kein DRAM-Druck durch Betrieb.
NAND / Storage	H	Trainings-Datenseen sind riesig — z. B. Fahrzeug-Sensor-Logs in Petabyte-Größenordnung — plus Labeling-Daten und Re-Training-Bestände. Das ist der einzige nennenswerte Memory-/Storage-Beitrag dieses Use Case.
Compute (Kontext)	H	DC-Trainingsflotten für initiales Training und Re-Training; Inferenz-Compute am Edge auf NPU/Edge-Beschleuniger.

Was es ist & Reifegrad

Bilderkennung, Objektdetektion, Segmentierung, medizinische Bildanalyse, industrielle Qualitätsinspektion, Perzeption fürs autonome Fahren (AV, Autonomous Vehicle / autonomes Fahrzeug). Technisches Rückgrat sind über Jahre erprobte CNNs (Convolutional Neural Network, faltendes neuronales Netz für Bilddaten), zunehmend ergänzt durch Transformer- und Vision-Language-Modelle. Die Wahrnehmungs-Pipeline verarbeitet Bild-, Tiefen- und Bewegungsdaten typischerweise zu kompakten Embeddings (numerische Vektor-Repräsentationen eines Bildes/Objekts), auf denen Klassifikation, Tracking oder Ähnlichkeitssuche aufsetzen.

Reifegrad (Einschätzung): produktiv und etabliert — Computer Vision (CV) ist eine ältere KI-Welle, seit Jahren im breiten Produktivbetrieb. Die Leistungsfähigkeit steigt weiter (Foundation-Models, Vision-Language-Modelle), das Basisfeld ist aber kein Frontier-Bereich mehr. Profil und Hardware-Mechanik decken sich weitgehend mit der Schwesterseite Robotik & physische KI (Edge-Inferenz, Training/Simulation im DC).

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

Foundation-Model-Verschmelzung: Klassische Bilderkennungsmodelle verschmelzen mit Vision-Language-Modellen; verlagert sich Inferenz dadurch teilweise ins DC, könnte der DC-HBM/DRAM-Bedarf künftig steigen — heute ist der Effekt nicht belastbar. (Einschätzung, zu belegen.)
Autonomes Fahren: AV-Fahrzeuge sind große Datenproduzenten — Kamera-, LiDAR- (Light Detection and Ranging, laserbasierte Abstandsmessung) und IMU-Ströme (Inertial Measurement Unit / Trägheitsmesseinheit, misst Beschleunigung und Drehrate) erzeugen mehrere TB pro Fahrstunde. Sensor-Logs werden zentral gespeichert und für Re-Training genutzt: ein Storage-Treiber mit langer Laufzeit (Größenordnungen siehe Diagramm unten).
Edge-Beschleuniger: Leistungsfähigere NPUs/Edge-Chips ermöglichen komplexere Modelle am Gerät bei höherer Bildrate (FPS, Frames per Second / Bilder pro Sekunde), ohne DC-Inferenz-Bedarf zu erzeugen — das hält die Inferenz strukturell am Edge.
Vektor-/Ähnlichkeitssuche: Wo Bild-Embeddings in großem Stil durchsucht werden (Bildsuche, Re-Identifikation in der Überwachung), kommen Vektor-Indizes wie HNSW (Hierarchical Navigable Small World, graphbasierter Näherungs-Suchindex) zum Einsatz — DRAM-relevant, aber als Sucheindex, nicht als Inferenz-Last. (Einschätzung, zu belegen.)

Aussagen ohne Diagramm-/Tabellenbeleg sind Einschätzungen/Sekundärinfos. Vor Verwendung in der These mit Primär-/belastbaren Quellen härten.

Treiber-Mechanik → Hardware

Warum Vision Storage treibt, aber kein nennenswerter DC-Speichertreiber ist:

Storage — Trainings-Datenseen Engpass: niedrig

Sensor-/Bilddaten: Kamera-, LiDAR- und IMU-Ströme erzeugen je AV-Fahrzeug mehrere TB pro Fahrstunde; für Training und Re-Training summiert sich das über Flotten in die Petabyte-Größenordnung — besonders im autonomen Fahren und in der industriellen Inspektion.
Labeling-Daten: Annotierte Datensätze und Labeling-Artefakte kommen zum Rohdaten-Volumen hinzu.
Re-Training: Periodisches/kontinuierliches Re-Training (Drift, neue Szenarien) hält die Datenseen dauerhaft aktiv.
Hardware-Bezug: landet als NAND-Massenspeicher im DC — adressiert von Kioxia, SanDisk, Samsung und Micron; siehe Themendossier Arbeitsspeicher.

Edge-Inferenz

Inferenz am Gerät: Kameras, Fahrzeug-ECUs (Electronic Control Unit / Steuergerät) und Embedded-Chips mit NPU führen die eigentliche Erkennung aus — kein Datacenter-Speicher für laufende Inferenz. Edge-Beschleuniger stammen u. a. von Nvidia (Jetson/DRIVE) sowie von Qualcomm (kein Dossier) und Mobileye (kein Dossier); Fertigung und Beschleuniger-Kontext im Bereich Data Center / Chip-Fertigung.
DC nur für Training: Das Rechenzentrum ist Trainings- und Datenhaltungs-Infrastruktur, nicht Inferenz-Infrastruktur.

Wichtige Abgrenzung: Vision treibt Storage (Trainingsdaten, NAND im DC), ist aber kein nennenswerter Datacenter-HBM/DRAM-Treiber. Das markiert eine Grenze der Memory-These — wer nur HBM/DRAM analysiert, übersieht den Storage-Beitrag; wer Vision als DC-Speichertreiber einbucht, überschätzt den Effekt.

Diagramme

Warum Vision ein Storage-Treiber ist, lässt sich am Sensordaten-Volumen autonomer Fahrzeuge ablesen: Die Rohdatenrate je Sensortyp und das resultierende Volumen je Fahrstunde landen — über Flotten und Jahre summiert — als NAND-Massenspeicher im Datacenter.

Rohdatenrate je Sensortyp im autonomen Fahrzeug

Zeitraum: Richtwerte (Lucid-Motors-Schätzung 2017, weiter zitiert) · Einheit: Mbit/s je Sensor (Roh-Sensorstrom vor Kompression, Balken zeigt Obergrenze der Spanne) · Legende: Datenrate je Sensor.

LiDAR

10–100 Mbit/s

Kamera

20–40 Mbit/s

Radar

0,1–15 Mbit/s

Quelle: Siemens Polarion (zitiert Stephan Heinrich, Lucid Motors), konsistent zu Tuxera. Geschätzt, Größenordnung. Balken zeigt die Obergrenze der genannten Spanne, der Wert die volle Spanne. Aussage: LiDAR ist die datenintensivste Modalität. Rohdaten: assets/data/vision-av-sensordatenrate.csv.

Sensordaten-Volumen je Fahrstunde — nach Autonomie-Stufe

Zeitraum: Richtwerte 2017–2026 · Einheit: TB pro Fahrstunde (Balken im Verhältnis) · Legende: TB/Stunde.

Connected Car

~0,025 TB/h

AV (untere Spanne)

~1,4 TB/h

Test-/Robotaxi

~4 TB/h

AV (obere Spanne)

~19 TB/h

Quelle: Tuxera (~25 GB/h Connected Car; ~1,4–19 TB/h AV; bis ~5 TB/Tag gespeichert; 380–5 100 TB/Jahr) und AutoDriveAI/Medium (~4 TB/h ≈ 80 TB/Tag). Geschätzt, Größenordnungen aus verschiedenen Stufen/Annahmen — nicht punktgenau vergleichbar. Connected Car ist im Verhältnis kaum sichtbar, genau das ist die Aussage: der Sprung zu hoher Autonomie ist enorm. Rohdaten: assets/data/vision-av-datenvolumen.csv.

Kennzahlen

Quantitative Anker. Typ: reported = vom Anbieter genannt, geschätzt = Branchenrichtwert/Sekundärquelle, k. A. = noch nicht belegt.

Kennzahl	Wert	Zeitraum	Typ	Quelle
Marktgröße Computer Vision	~20,8 Mrd. USD (2025), ~72,8 Mrd. (2034), CAGR ~14,8 %	2025–2034	geschätzt	Fortune Business Insights
Sensordatenrate je Sensor (AV)	Kamera 20–40, LiDAR 10–100, Radar 0,1–15 Mbit/s	Richtwert (Lucid 2017)	geschätzt	Siemens Polarion / Lucid
Sensordaten-Volumen je AV-Fahrstunde	~1,4–19 TB/h (≈ ~4 TB/h Richtwert)	2017–2026	geschätzt	Tuxera, AutoDriveAI
Speicherung hoch-autonomes Fahrzeug	bis ~5 TB/Tag; 380–5 100 TB/Jahr	Richtwert	geschätzt	Tuxera
Anteil Edge- vs. DC-Inferenz	k. A.	k. A.	k. A.	Recherche ausstehend
Re-Training-Frequenz (typisch, je Anwendungsfeld)	k. A.	k. A.	k. A.	Recherche ausstehend

Marktgröße variiert je Studienhaus stark (Statista nennt z. B. ein deutlich höheres Niveau); hier eine konservative Quelle, Größenordnung. Belegte Rohdaten liegen unter assets/data/vision-av-sensordatenrate.csv und assets/data/vision-av-datenvolumen.csv und sind mit dieser Tabelle synchron zu halten.

Edge vs. Datacenter

Klare Arbeitsteilung: Training im Datacenter, Inferenz am Edge. Das Rechenzentrum hält die Trainings-Datenseen (NAND) und betreibt die Trainingsflotten. Die eigentliche Erkennung zur Laufzeit — ob auf der Kamera, im Fahrzeug oder im Industrie-Gateway — findet auf dedizierten Edge-Chips (NPU/Embedded-Beschleuniger) statt. Kein nennenswerter DC-Inferenz-Bedarf, also keine laufende HBM/DRAM-Last im Rechenzentrum. Beschleuniger-Architektur und -Fertigung sind im Bereich Data Center bzw. Chip-Fertigung verortet.

Bedeutung für die Speicher-/Storage-These

Vision & Perzeption ist ein Storage-Treiber (Trainingsdaten, NAND im DC), aber kein nennenswerter DC-HBM/DRAM-Treiber. Dieser Use Case markiert bewusst eine Grenze der Memory-These: für die DRAM/HBM-Seite der Arbeitsspeicher-These leistet Vision keinen wesentlichen Beitrag — der Effekt liegt auf der NAND/Storage-Seite (relevant für die NAND-lastigen Profile von Kioxia, SanDisk sowie den NAND-Geschäften von Samsung und Micron). Relevanz für die Memory-These daher nicht überzeichnen: das NAND-Volumen ist real und wächst mit den Sensordaten, ist aber von den knappen, margenstarken HBM/DRAM-DC-Treibern (Schwesterseiten Text & Reasoning, Agents) zu trennen. Profil teilt sich mit Robotik & physische KI.

Beobachten / offene Fragen

Wachstum der Sensordaten-Mengen (AV, Industrie) und wie viel davon dauerhaft archiviert statt nach Vorfilterung verworfen wird — bestimmt das NAND-Storage-Volumen maßgeblich.
Verschiebung zu Vision-Language-Modellen: falls Inferenz zunehmend im DC stattfindet, könnte DC-HBM/DRAM-Bedarf entstehen — bisher nicht belegt.
Leistungsentwicklung bei NPUs/Edge-Beschleunigern (FPS, Modellgröße) — je leistungsfähiger, desto mehr Inferenz bleibt am Edge.
Re-Training-Volumen und -Frequenz: treibt den Trainings-Compute- und Storage-Bedarf langfristig.
On-Device-Kompression der Sensordaten (LiDAR-Punktwolken): wirksame Kompression dämpft das Storage-Volumen — gegenläufiger Effekt zur Flottengröße.

Quellen & Update-Log

Quellen mit klickbaren Links (Sekundärquellen, da kein einzelnes Unternehmen Gegenstand ist). Die AV-Sensordaten-Zahlen sind Branchenrichtwerte/Größenordnungen, keine punktgenauen Reported-Werte.

Quelle	Verwendet für	Typ
Siemens Polarion — The Data Deluge (zitiert Stephan Heinrich, Lucid Motors, 2017)	Rohdatenrate je Sensortyp (Kamera/LiDAR/Radar), ~1,4 TB/h untere Spanne	Sekundär, geschätzt
Tuxera — Autonomous cars generate more than 300 TB of data per year	~25 GB/h Connected Car; ~1,4–19 TB/h; bis ~5 TB/Tag; 380–5 100 TB/Jahr	Sekundär, geschätzt
AutoDriveAI / Medium — ~4 TB pro Fahrstunde	~4 TB/h Richtwert (≈ 80 TB/Tag bei 20 h)	Sekundär, geschätzt
Fortune Business Insights — Computer Vision Market	Marktgröße CV 2025/2034, CAGR	Sekundär, geschätzt

Update-Log

Datum	Änderung
2026-05-21	Verfeinert: Akronyme inline aufgelöst (LiDAR, IMU, AV, NPU, CNN, HBM, DRAM, NAND, FPS, Embedding, HNSW, Edge), Querverweise auf Arbeitsspeicher/Micron/Samsung/Kioxia/SanDisk/Data-Center/Chip-Fertigung/Nvidia und robotik.html, Engpass-/IP-Pills ergänzt. Zwei belegte Balkendiagramme (Sensordatenrate je Typ; Volumen je Fahrstunde) plus Rohdaten-CSVs; Kennzahlen-Tabelle mit belegten AV-Storage- und CV-Marktzahlen gefüllt; Quellenapparat aufgebaut.
2026-05-20	Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).