Vision & Perzeption

Use Case · Nachfragetreiber

Vision & Perzeption

Erkennen statt Erzeugen — Objektdetektion, Segmentierung, medizinische Bildanalyse, industrielle Inspektion, Fahrzeug-Perzeption. Wichtig für die Abgrenzung: viel Storage (Trainingsdaten), aber kaum Datacenter-Speicher, weil die Inferenz am Edge (am Gerät, nahe der Datenquelle) läuft. Edge-lastig und NAND- (NAND-Flash, nicht-flüchtiger Massenspeicher) -getrieben, mit geringer Datacenter-Last bei HBM (High Bandwidth Memory, gestapelter Hochbandbreiten-Speicher auf Beschleunigern) und DRAM (Dynamic Random-Access Memory, Server-Arbeitsspeicher).

Profil: Storage-geführt · Edge Edge-Inferenz (NPU im Gerät) Reifegrad: produktiv, etabliert Training im DC, Inferenz am Edge Stand: 2026-05-21
Engpass (Memory-These): niedrig IP-Intensität: mittel

Pills sind Einschätzungen. Engpass: niedrig — Vision belastet die knappen DC-Memory-Stufen (HBM/DRAM) kaum; der Hardware-Beitrag liegt auf der gut verfügbaren NAND/Storage-Seite. IP-Intensität: mittel — Wert entsteht aus proprietären Daten/Modellen (gelabelte Trainingsdaten, domänenspezifische CNNs) und teils aus Edge-Beschleuniger-Architekturen; die zugrundeliegenden CV-Methoden sind aber weitgehend offen/standardisiert.

Bedarfssignatur

DimensionBedarfKurzbegründung
HBM (Beschleuniger)NIm Datacenter (DC): die Inferenz läuft am Edge auf Kameras, Fahrzeugen und Embedded-Chips mit eigener NPU (Neural Processing Unit, KI-Beschleuniger im Gerät) — kein nennenswerter DC-HBM-Bedarf durch laufende Inferenz.
DRAM (Server)NIm Datacenter aus demselben Grund: Inferenz findet nicht im DC statt, daher kein DRAM-Druck durch Betrieb.
NAND / StorageHTrainings-Datenseen sind riesig — z. B. Fahrzeug-Sensor-Logs in Petabyte-Größenordnung — plus Labeling-Daten und Re-Training-Bestände. Das ist der einzige nennenswerte Memory-/Storage-Beitrag dieses Use Case.
Compute (Kontext)HDC-Trainingsflotten für initiales Training und Re-Training; Inferenz-Compute am Edge auf NPU/Edge-Beschleuniger.

Was es ist & Reifegrad

Bilderkennung, Objektdetektion, Segmentierung, medizinische Bildanalyse, industrielle Qualitätsinspektion, Perzeption fürs autonome Fahren (AV, Autonomous Vehicle / autonomes Fahrzeug). Technisches Rückgrat sind über Jahre erprobte CNNs (Convolutional Neural Network, faltendes neuronales Netz für Bilddaten), zunehmend ergänzt durch Transformer- und Vision-Language-Modelle. Die Wahrnehmungs-Pipeline verarbeitet Bild-, Tiefen- und Bewegungsdaten typischerweise zu kompakten Embeddings (numerische Vektor-Repräsentationen eines Bildes/Objekts), auf denen Klassifikation, Tracking oder Ähnlichkeitssuche aufsetzen.

Reifegrad (Einschätzung): produktiv und etabliert — Computer Vision (CV) ist eine ältere KI-Welle, seit Jahren im breiten Produktivbetrieb. Die Leistungsfähigkeit steigt weiter (Foundation-Models, Vision-Language-Modelle), das Basisfeld ist aber kein Frontier-Bereich mehr. Profil und Hardware-Mechanik decken sich weitgehend mit der Schwesterseite Robotik & physische KI (Edge-Inferenz, Training/Simulation im DC).

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

  • Foundation-Model-Verschmelzung: Klassische Bilderkennungsmodelle verschmelzen mit Vision-Language-Modellen; verlagert sich Inferenz dadurch teilweise ins DC, könnte der DC-HBM/DRAM-Bedarf künftig steigen — heute ist der Effekt nicht belastbar. (Einschätzung, zu belegen.)
  • Autonomes Fahren: AV-Fahrzeuge sind große Datenproduzenten — Kamera-, LiDAR- (Light Detection and Ranging, laserbasierte Abstandsmessung) und IMU-Ströme (Inertial Measurement Unit / Trägheitsmesseinheit, misst Beschleunigung und Drehrate) erzeugen mehrere TB pro Fahrstunde. Sensor-Logs werden zentral gespeichert und für Re-Training genutzt: ein Storage-Treiber mit langer Laufzeit (Größenordnungen siehe Diagramm unten).
  • Edge-Beschleuniger: Leistungsfähigere NPUs/Edge-Chips ermöglichen komplexere Modelle am Gerät bei höherer Bildrate (FPS, Frames per Second / Bilder pro Sekunde), ohne DC-Inferenz-Bedarf zu erzeugen — das hält die Inferenz strukturell am Edge.
  • Vektor-/Ähnlichkeitssuche: Wo Bild-Embeddings in großem Stil durchsucht werden (Bildsuche, Re-Identifikation in der Überwachung), kommen Vektor-Indizes wie HNSW (Hierarchical Navigable Small World, graphbasierter Näherungs-Suchindex) zum Einsatz — DRAM-relevant, aber als Sucheindex, nicht als Inferenz-Last. (Einschätzung, zu belegen.)

Aussagen ohne Diagramm-/Tabellenbeleg sind Einschätzungen/Sekundärinfos. Vor Verwendung in der These mit Primär-/belastbaren Quellen härten.

Treiber-Mechanik → Hardware

Warum Vision Storage treibt, aber kein nennenswerter DC-Speichertreiber ist:

Storage — Trainings-Datenseen Engpass: niedrig

  • Sensor-/Bilddaten: Kamera-, LiDAR- und IMU-Ströme erzeugen je AV-Fahrzeug mehrere TB pro Fahrstunde; für Training und Re-Training summiert sich das über Flotten in die Petabyte-Größenordnung — besonders im autonomen Fahren und in der industriellen Inspektion.
  • Labeling-Daten: Annotierte Datensätze und Labeling-Artefakte kommen zum Rohdaten-Volumen hinzu.
  • Re-Training: Periodisches/kontinuierliches Re-Training (Drift, neue Szenarien) hält die Datenseen dauerhaft aktiv.
  • Hardware-Bezug: landet als NAND-Massenspeicher im DC — adressiert von Kioxia, SanDisk, Samsung und Micron; siehe Themendossier Arbeitsspeicher.

Edge-Inferenz

  • Inferenz am Gerät: Kameras, Fahrzeug-ECUs (Electronic Control Unit / Steuergerät) und Embedded-Chips mit NPU führen die eigentliche Erkennung aus — kein Datacenter-Speicher für laufende Inferenz. Edge-Beschleuniger stammen u. a. von Nvidia (Jetson/DRIVE) sowie von Qualcomm (kein Dossier) und Mobileye (kein Dossier); Fertigung und Beschleuniger-Kontext im Bereich Data Center / Chip-Fertigung.
  • DC nur für Training: Das Rechenzentrum ist Trainings- und Datenhaltungs-Infrastruktur, nicht Inferenz-Infrastruktur.
Wichtige Abgrenzung: Vision treibt Storage (Trainingsdaten, NAND im DC), ist aber kein nennenswerter Datacenter-HBM/DRAM-Treiber. Das markiert eine Grenze der Memory-These — wer nur HBM/DRAM analysiert, übersieht den Storage-Beitrag; wer Vision als DC-Speichertreiber einbucht, überschätzt den Effekt.

Diagramme

Warum Vision ein Storage-Treiber ist, lässt sich am Sensordaten-Volumen autonomer Fahrzeuge ablesen: Die Rohdatenrate je Sensortyp und das resultierende Volumen je Fahrstunde landen — über Flotten und Jahre summiert — als NAND-Massenspeicher im Datacenter.

Rohdatenrate je Sensortyp im autonomen Fahrzeug

Zeitraum: Richtwerte (Lucid-Motors-Schätzung 2017, weiter zitiert) · Einheit: Mbit/s je Sensor (Roh-Sensorstrom vor Kompression, Balken zeigt Obergrenze der Spanne) · Legende: Datenrate je Sensor.

LiDAR
10–100 Mbit/s
Kamera
20–40 Mbit/s
Radar
0,1–15 Mbit/s

Quelle: Siemens Polarion (zitiert Stephan Heinrich, Lucid Motors), konsistent zu Tuxera. Geschätzt, Größenordnung. Balken zeigt die Obergrenze der genannten Spanne, der Wert die volle Spanne. Aussage: LiDAR ist die datenintensivste Modalität. Rohdaten: assets/data/vision-av-sensordatenrate.csv.

Sensordaten-Volumen je Fahrstunde — nach Autonomie-Stufe

Zeitraum: Richtwerte 2017–2026 · Einheit: TB pro Fahrstunde (Balken im Verhältnis) · Legende: TB/Stunde.

Connected Car
~0,025 TB/h
AV (untere Spanne)
~1,4 TB/h
Test-/Robotaxi
~4 TB/h
AV (obere Spanne)
~19 TB/h

Quelle: Tuxera (~25 GB/h Connected Car; ~1,4–19 TB/h AV; bis ~5 TB/Tag gespeichert; 380–5 100 TB/Jahr) und AutoDriveAI/Medium (~4 TB/h ≈ 80 TB/Tag). Geschätzt, Größenordnungen aus verschiedenen Stufen/Annahmen — nicht punktgenau vergleichbar. Connected Car ist im Verhältnis kaum sichtbar, genau das ist die Aussage: der Sprung zu hoher Autonomie ist enorm. Rohdaten: assets/data/vision-av-datenvolumen.csv.

Kennzahlen

Quantitative Anker. Typ: reported = vom Anbieter genannt, geschätzt = Branchenrichtwert/Sekundärquelle, k. A. = noch nicht belegt.

KennzahlWertZeitraumTypQuelle
Marktgröße Computer Vision~20,8 Mrd. USD (2025), ~72,8 Mrd. (2034), CAGR ~14,8 %2025–2034geschätztFortune Business Insights
Sensordatenrate je Sensor (AV)Kamera 20–40, LiDAR 10–100, Radar 0,1–15 Mbit/sRichtwert (Lucid 2017)geschätztSiemens Polarion / Lucid
Sensordaten-Volumen je AV-Fahrstunde~1,4–19 TB/h (≈ ~4 TB/h Richtwert)2017–2026geschätztTuxera, AutoDriveAI
Speicherung hoch-autonomes Fahrzeugbis ~5 TB/Tag; 380–5 100 TB/JahrRichtwertgeschätztTuxera
Anteil Edge- vs. DC-Inferenzk. A.k. A.k. A.Recherche ausstehend
Re-Training-Frequenz (typisch, je Anwendungsfeld)k. A.k. A.k. A.Recherche ausstehend

Marktgröße variiert je Studienhaus stark (Statista nennt z. B. ein deutlich höheres Niveau); hier eine konservative Quelle, Größenordnung. Belegte Rohdaten liegen unter assets/data/vision-av-sensordatenrate.csv und assets/data/vision-av-datenvolumen.csv und sind mit dieser Tabelle synchron zu halten.

Edge vs. Datacenter

Klare Arbeitsteilung: Training im Datacenter, Inferenz am Edge. Das Rechenzentrum hält die Trainings-Datenseen (NAND) und betreibt die Trainingsflotten. Die eigentliche Erkennung zur Laufzeit — ob auf der Kamera, im Fahrzeug oder im Industrie-Gateway — findet auf dedizierten Edge-Chips (NPU/Embedded-Beschleuniger) statt. Kein nennenswerter DC-Inferenz-Bedarf, also keine laufende HBM/DRAM-Last im Rechenzentrum. Beschleuniger-Architektur und -Fertigung sind im Bereich Data Center bzw. Chip-Fertigung verortet.

Bedeutung für die Speicher-/Storage-These

Vision & Perzeption ist ein Storage-Treiber (Trainingsdaten, NAND im DC), aber kein nennenswerter DC-HBM/DRAM-Treiber. Dieser Use Case markiert bewusst eine Grenze der Memory-These: für die DRAM/HBM-Seite der Arbeitsspeicher-These leistet Vision keinen wesentlichen Beitrag — der Effekt liegt auf der NAND/Storage-Seite (relevant für die NAND-lastigen Profile von Kioxia, SanDisk sowie den NAND-Geschäften von Samsung und Micron). Relevanz für die Memory-These daher nicht überzeichnen: das NAND-Volumen ist real und wächst mit den Sensordaten, ist aber von den knappen, margenstarken HBM/DRAM-DC-Treibern (Schwesterseiten Text & Reasoning, Agents) zu trennen. Profil teilt sich mit Robotik & physische KI.

Beobachten / offene Fragen

  • Wachstum der Sensordaten-Mengen (AV, Industrie) und wie viel davon dauerhaft archiviert statt nach Vorfilterung verworfen wird — bestimmt das NAND-Storage-Volumen maßgeblich.
  • Verschiebung zu Vision-Language-Modellen: falls Inferenz zunehmend im DC stattfindet, könnte DC-HBM/DRAM-Bedarf entstehen — bisher nicht belegt.
  • Leistungsentwicklung bei NPUs/Edge-Beschleunigern (FPS, Modellgröße) — je leistungsfähiger, desto mehr Inferenz bleibt am Edge.
  • Re-Training-Volumen und -Frequenz: treibt den Trainings-Compute- und Storage-Bedarf langfristig.
  • On-Device-Kompression der Sensordaten (LiDAR-Punktwolken): wirksame Kompression dämpft das Storage-Volumen — gegenläufiger Effekt zur Flottengröße.

Quellen & Update-Log

Quellen mit klickbaren Links (Sekundärquellen, da kein einzelnes Unternehmen Gegenstand ist). Die AV-Sensordaten-Zahlen sind Branchenrichtwerte/Größenordnungen, keine punktgenauen Reported-Werte.

QuelleVerwendet fürTyp
Siemens Polarion — The Data Deluge (zitiert Stephan Heinrich, Lucid Motors, 2017)Rohdatenrate je Sensortyp (Kamera/LiDAR/Radar), ~1,4 TB/h untere SpanneSekundär, geschätzt
Tuxera — Autonomous cars generate more than 300 TB of data per year~25 GB/h Connected Car; ~1,4–19 TB/h; bis ~5 TB/Tag; 380–5 100 TB/JahrSekundär, geschätzt
AutoDriveAI / Medium — ~4 TB pro Fahrstunde~4 TB/h Richtwert (≈ 80 TB/Tag bei 20 h)Sekundär, geschätzt
Fortune Business Insights — Computer Vision MarketMarktgröße CV 2025/2034, CAGRSekundär, geschätzt

Update-Log

DatumÄnderung
2026-05-21Verfeinert: Akronyme inline aufgelöst (LiDAR, IMU, AV, NPU, CNN, HBM, DRAM, NAND, FPS, Embedding, HNSW, Edge), Querverweise auf Arbeitsspeicher/Micron/Samsung/Kioxia/SanDisk/Data-Center/Chip-Fertigung/Nvidia und robotik.html, Engpass-/IP-Pills ergänzt. Zwei belegte Balkendiagramme (Sensordatenrate je Typ; Volumen je Fahrstunde) plus Rohdaten-CSVs; Kennzahlen-Tabelle mit belegten AV-Storage- und CV-Marktzahlen gefüllt; Quellenapparat aufgebaut.
2026-05-20Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).