Use Case · Nachfragetreiber

Wissenschaft & Bio

KI für die Naturwissenschaften — Wirkstoffforschung, Protein- und Materialvorhersage, Wetter- und Klimamodelle, Genom-/Genomik-Analyse (Erbgut bzw. dessen systematische Untersuchung). Die strukturelle Achse für die Speicher-These ist hier NAND (Flash-Speicher, der dichte nichtflüchtige Massenspeicher hinter Datacenter-SSDs): sehr große, langlebige, stetig wachsende wissenschaftliche Datensätze treiben Storage. Der Rechenbedarf ist dagegen schubweise — Trainingskampagnen statt Dauer-Inferenz —, gekoppelt an HPC (High Performance Computing, Hochleistungsrechnen). Nische, aber strategisch wertvoll; volumenmäßig planbar kleiner als die Massen-Use-Cases.

Profil: Storage-geführt · schubweise Reifegrad: nische, strategisch wertvoll Last im Datacenter / HPC IP-Intensität: hoch Engpass: mittel Stand: 2026-05-21

Bedarfssignatur

Dimension	Bedarf	Kurzbegründung
HBM (High Bandwidth Memory, gestapelter Hochgeschwindigkeitsspeicher am Beschleuniger)	M	Training spezialisierter Modelle (Protein-, Molekül-, Klimamodelle) erfordert HBM, aber HPC-artig schubweise — kein stetiger Massen-Inferenz-Druck. Engpass: mittel — Spitzenlast konkurriert um knappe Beschleuniger/HBM, aber nur kampagnenweise.
DRAM (Dynamic Random Access Memory, Server-Arbeitsspeicher)	M	Datenaufbereitung, Preprocessing-Pipelines und In-Memory-Verarbeitung großer wissenschaftlicher Datasets; moderat, da keine massive gleichzeitige Nutzer-Inferenz. Engpass: niedrig
NAND / Storage	H	NAND (Flash-Speicher) trägt große, langlebige wissenschaftliche Datensätze: Genome, Molekülstrukturen, Proteindatenbanken, Klimasimulations- und MD-Simulations-Ausgaben (Molekulardynamik), Laborautomations-Outputs. Engpass: niedrig — NAND/SSD ist breit verfügbar, kein struktureller Flaschenhals wie HBM.
Compute (Kontext)	H	Hoch, aber schubweise — Trainingskampagnen und HPC-Spitzen statt stetiger Massen-Inferenz. Zwischen Runs sind die Ressourcen vergleichsweise wenig ausgelastet. Engpass: mittel — gemessen am benötigten FLOPS (Floating Point Operations Per Second, Gleitkommaoperationen pro Sekunde) während der Kampagne.

Was es ist & Reifegrad

KI für Naturwissenschaften umfasst eine breite Palette: Strukturvorhersage für Proteine und Moleküle (AlphaFold-Linie und Nachfolger — das KI-System von Google DeepMind, das die 3D-Faltung eines Proteins aus seiner Aminosäuresequenz vorhersagt), KI-gestützte Wirkstoff- und Materialsuche, Klima- und Wettervorhersagemodelle sowie Genom-/Genomik- und Multiomics-Analyse (Erbgut bzw. dessen systematische Untersuchung; Multiomics = die kombinierte Auswertung mehrerer „-omik"-Ebenen wie Genom, Transkriptom, Proteom, Metabolom). Trainingsgrundlage sind sowohl experimentelle Daten — etwa aus der Cryo-EM (Cryo-EM, Kryo-Elektronenmikroskopie, ein Verfahren zur Strukturbestimmung biologischer Moleküle bei sehr tiefen Temperaturen) — als auch große öffentliche Datenbanken. Das verbindende Merkmal ist die Arbeit mit großen, strukturierten wissenschaftlichen Datensätzen, auf denen spezialisierte Modelle trainiert werden.

Reifegrad (Einschätzung): nische, aber strategisch wertvoll und in einzelnen Feldern bereits teils produktiv. Strukturvorhersage (Proteine) gilt als durchgebrochen und wird produktiv genutzt; KI in der Wirkstoffsuche wächst, ist aber in frühen Phasen; Klimamodelle ergänzen klassische numerische Simulation. Insgesamt: kein Massen-Use-Case, aber mit stetigem, langfristigen Storage-Wachstum durch Datensatz-Akkumulation.

IP-Intensität (Einschätzung): hoch — Wert und Burggraben liegen in proprietären Modellen, kuratierten Daten und Forschungs-Know-how (z. B. AlphaFold-Linie, firmeneigene Wirkstoff-Pipelines). Für die Hardware-Nachfrage ist das Segment dennoch kein breiter Dauer-Speichertreiber: Die Last ist schubweise und in der Nische, der stetige Beitrag kommt aus der Akkumulation der Datensätze (NAND/Storage), nicht aus Massen-Inferenz.

Stand der Dinge / Dynamik

Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.

KI-getriebene Wirkstoff- und Materialsuche: Mehrere Unternehmen und Forschungseinrichtungen setzen KI-Modelle in der frühen Wirkstoffentwicklung ein; Wachstum der Pipeline, aber noch keine dominante Produktionsnutzung. (Sekundärinfo, zu belegen.)
Foundation Models für Biologie und Chemie: Große vortrainierte Modelle für biologische Sequenzen, Molekülgraphen und chemische Räume entstehen analog zu Sprach-LLMs. Fortschritt und Modellgrößen nachtragen. (Einschätzung, zu belegen.)
Kopplung mit Laborautomation: KI-Modelle werden zunehmend mit automatisierten Labors (Robotik-Synthese, High-Throughput-Screening) gekoppelt — das erhöht die Datenproduktionsrate. (Einschätzung, zu belegen.)
Öffentliche und proprietäre Datasets: Öffentliche Datenbanken (Proteinstrukturen, Genome) und proprietäre Industriedaten sind die Trainingsgrundlage; deren Wachstum ist stetiger als bei konsumentenorientierten Use-Cases. Belegt: Die experimentelle RCSB Protein Data Bank (PDB) umfasst rund 254.000 Strukturen (Mai 2026) und wächst seit Jahren stetig; KI hebt das Volumen um Größenordnungen: die AlphaFold-DB enthält über 214 Mio. vorhergesagte Strukturen (2024), ausgehend von ~300.000 (2021) — siehe Diagramme unten.
Strukturelle Storage-Logik: Wachsende Datensätze leben dauerhaft auf NAND/SSD im Datacenter; mehr dazu unter Kioxia und SanDisk (Storage/NAND).

Übrige Aussagen hier sind Einschätzungen/Sekundärinfos. Vor Verwendung in der These mit Primär-/belastbaren Quellen härten.

Treiber-Mechanik → Hardware

Warum Wissenschaft & Bio Storage (stetig) und Compute (schubweise) treibt:

Storage — große Datasets

Genome und Sequenzierungsdaten: Genomik-Datensätze wachsen mit sinkenden Sequenzierungskosten; langlebig und akkumulierend.
Strukturdaten: Protein- und Molekülstrukturen (experimentell und vorhergesagt) füllen umfangreiche Datenbanken, die als Trainingsgrundlage dienen.
Simulationsausgaben: Klimamodelle, MD-Simulationen (Molekulardynamik) und High-Throughput-Screening erzeugen große Volumen an Ausgabedaten — Ziel ist NAND/SSD (vgl. Micron, Kioxia).

Compute schubweise

Trainingskampagnen: Spezialisierte Modelle werden in konzentrierten Runs trainiert — HBM- und DRAM-Bedarf ist hoch während des Runs, danach gering. Die Beschleuniger selbst kommen aus dem Datacenter-Stack (vgl. Nvidia, Chip-Fertigung).
HPC-Charakter: Das Nutzungsprofil ähnelt klassischem HPC (Hochleistungsrechnen): Spitzen, gefolgt von Pausen. Moderat für HBM/DRAM im Dauerbetrieb.
Inferenz begrenzt: Inferenz ist für spezialisierte Wissenschaftler, nicht für Millionen Konsumenten — Inferenz-Compute und -Speicher sind entsprechend kleiner.

Storage-Treiber plus schubweiser Compute: Wissenschaft & Bio liefert einen stetigen, langfristigen Storage-Beitrag (Datensatz-Akkumulation) und einen schubweisen Compute-Beitrag (Trainingskampagnen). Volumenmäßig planbar kleiner als die Massen-Use-Cases, aber kontinuierlich und langlebig.

Daten als Storage-Treiber

Zwei belegte Anker zeigen die Storage-Logik dieses Segments: die experimentelle Strukturdatenbank wächst stetig und langlebig, und KI-Vorhersage hebt das Volumen um Größenordnungen darüber hinaus.

Kumuliertes Wachstum experimenteller Proteinstrukturen (RCSB Protein Data Bank, PDB)

2010

~88.500

2015

~137.400

2020

~177.800

2025

~207.600

Zeitraum 2010–2025, Einheit: kumulierte experimentell bestimmte Strukturen (gerundet). Legende: Balkenlänge = kumulierter Bestand relativ zu 2025. Quelle: RCSB PDB — Released Structures Statistics. Reported. Rohdaten: assets/data/wissenschaft-pdb-wachstum.csv.

Größenordnung: experimentell vs. KI-vorhergesagt (Strukturen je Datenbank)

PDB experimentell (Mai 2026)

~254.000

AlphaFold-DB Start (2021)

~300.000

AlphaFold-DB (2024)

~214 Mio.

Einheit: Anzahl Proteinstrukturen je Datenbank, Balkenlänge relativ zu AlphaFold-DB 2024. Die ersten beiden Balken sind im Verhältnis kaum sichtbar — genau das ist die Aussage: KI-Vorhersage hebt die nutzbare Strukturmenge um rund drei Größenordnungen über die experimentelle PDB, und damit den Storage-Bedarf. Quellen: RCSB PDB (experimentell ~254.000), AlphaFold-DB 2024 (NAR) (>214 Mio.; ~300.000 beim Start 2021), AlphaFold-DB / EMBL-EBI (über 200 Mio. seit Juli 2022). Reported. Rohdaten: assets/data/wissenschaft-datenbasis.csv.

Kennzahlen

Quantitative Anker — vor Eintrag belegen (Quelle, Zeitraum, Einheit, reported/geschätzt).

Kennzahl	Wert	Zeitraum	Quelle
Marktgröße KI in Drug Discovery (Wirkstoffforschung)	1,86 Mrd. USD → 6,89 Mrd. USD; CAGR 29,9 %	2024 → 2029	MarketsandMarkets (geschätzt; Anbieter-Schätzungen streuen 2024 ~1,7–1,9 Mrd. USD)
Experimentelle Proteinstrukturen (PDB, kumuliert)	~254.000 (zzgl. >1,06 Mio. Computed Structure Models)	Mai 2026	RCSB PDB (reported)
KI-vorhergesagte Strukturen (AlphaFold-DB)	>214 Mio. (Start 2021: ~300.000)	2021 → 2024	AlphaFold-DB 2024 (NAR) (reported)
Compute je Trainingskampagne (repräsentativ)	k. A.	k. A.	Recherche ausstehend
Storage-Wachstum wissenschaftlicher Daten (CAGR)	k. A.	k. A.	Recherche ausstehend
Anteil produktiver vs. experimenteller Nutzung	k. A.	k. A.	Recherche ausstehend

Belegte Werte mit Rohdaten unter assets/data/ (wissenschaft-pdb-wachstum.csv, wissenschaft-datenbasis.csv, wissenschaft-markt.csv) — synchron halten. Verbleibende „k. A."-Zeilen: Recherche ausstehend.

Edge vs. Datacenter

Vollständig Datacenter / HPC: Training und Inferenz laufen auf Beschleunigern im Rechenzentrum oder HPC-Cluster. Kein nennenswerter Edge-Anteil — Wissenschaftler greifen über Workstations und Web-Interfaces auf zentrale Recheninfrastruktur zu. Das bedeutet: der gesamte Hardware-Bedarf (Storage, Compute) liegt im Datacenter.

Bedeutung für die Speicher-/Storage-These

Wissenschaft & Bio ist ein Nischen-, aber stetiger Storage-Treiber — wissenschaftliche Datensätze akkumulieren langfristig und wachsen mit Laborautomation und sinkenden Sequenzierungskosten. Der Compute-Beitrag ist schubweise und in der Summe kleiner als bei Massen-Use-Cases. Der Mengeneffekt auf HBM und DRAM ist geringer als bei LLM-Inferenz im Consumerbereich. Stützt damit primär die Storage-/NAND-Seite der These — siehe Themendossier Arbeitsspeicher sowie die NAND-Investments Kioxia, SanDisk und Micron; die Beschleuniger-/HBM-Seite (schubweise) berührt Data Center und Chip-Fertigung.

Beobachten / offene Fragen

Wachstum wissenschaftlicher Datasets: Sequenzierungskosten, Laborautomations-Durchsatz und öffentliche Datenbankgrößen als Proxy für Storage-Wachstum.
Übergang von Forschung zu produktiver Nutzung: Wann und in welchem Umfang werden KI-Modelle in regulierten Prozessen (klinische Studien, Zulassungsverfahren) produktiv eingesetzt?
Ob Foundation Models für Bio/Chemie große, stetige Compute-/Speicherlasten erzeugen — das würde den HBM/DRAM-Beitrag dieses Segments erhöhen.
Kopplung mit Laborautomation als Datengenerator: Skaliert die Datenproduktion mit der Automatisierung, steigt der Storage-Bedarf überproportional.

Quellen & Update-Log

Quellen mit klickbaren Links (Primär- vor Sekundärquellen).

RCSB Protein Data Bank — Released Structures Statistics — kumuliertes Strukturwachstum, Gesamtbestand (~254.000 experimentell, >1,06 Mio. Computed Structure Models). Reported.
Varadi et al., AlphaFold Protein Structure Database in 2024 (Nucleic Acids Research) — >214 Mio. vorhergesagte Strukturen, Start 2021 mit ~300.000. Reported (Primärquelle Betreiber/Forschung).
AlphaFold Protein Structure Database / EMBL-EBI (About) — über 200 Mio. Strukturen seit Juli 2022, offener Zugang. Reported.
MarketsandMarkets — AI in Drug Discovery Market — Marktgröße 1,86 Mrd. USD (2024) → 6,89 Mrd. USD (2029), CAGR 29,9 %. Geschätzt (Marktforschung; Anbieter-Schätzungen streuen).

Datum	Änderung
2026-05-21	Akronyme inline aufgelöst (AlphaFold, HPC, Multiomics, Genom/Genomik, CAGR, FLOPS, HBM/DRAM/NAND, MD-Simulation, Cryo-EM); Querverweise auf NAND-Investments (Kioxia, SanDisk, Micron) und Data-Center/Chip-Fertigung/Nvidia gesetzt; Engpass- und IP-Intensität-Pills ergänzt; zwei belegte Balkendiagramme (PDB-Wachstum, PDB vs. AlphaFold-DB) plus drei Rohdaten-CSVs; Kennzahlen-Tabelle mit belegten Werten (PDB, AlphaFold-DB, AI-Drug-Discovery-Markt) gefüllt; Quellenapparat angelegt.
2026-05-20	Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen).