Use Case · Nachfragetreiber
Wissenschaft & Bio
KI für die Naturwissenschaften — Wirkstoffforschung, Protein- und Materialvorhersage, Wetter- und Klimamodelle, Genom-/Genomik-Analyse (Erbgut bzw. dessen systematische Untersuchung). Die strukturelle Achse für die Speicher-These ist hier NAND (Flash-Speicher, der dichte nichtflüchtige Massenspeicher hinter Datacenter-SSDs): sehr große, langlebige, stetig wachsende wissenschaftliche Datensätze treiben Storage. Der Rechenbedarf ist dagegen schubweise — Trainingskampagnen statt Dauer-Inferenz —, gekoppelt an HPC (High Performance Computing, Hochleistungsrechnen). Nische, aber strategisch wertvoll; volumenmäßig planbar kleiner als die Massen-Use-Cases.
Bedarfssignatur
| Dimension | Bedarf | Kurzbegründung |
|---|---|---|
| HBM (High Bandwidth Memory, gestapelter Hochgeschwindigkeitsspeicher am Beschleuniger) | M | Training spezialisierter Modelle (Protein-, Molekül-, Klimamodelle) erfordert HBM, aber HPC-artig schubweise — kein stetiger Massen-Inferenz-Druck. Engpass: mittel — Spitzenlast konkurriert um knappe Beschleuniger/HBM, aber nur kampagnenweise. |
| DRAM (Dynamic Random Access Memory, Server-Arbeitsspeicher) | M | Datenaufbereitung, Preprocessing-Pipelines und In-Memory-Verarbeitung großer wissenschaftlicher Datasets; moderat, da keine massive gleichzeitige Nutzer-Inferenz. Engpass: niedrig |
| NAND / Storage | H | NAND (Flash-Speicher) trägt große, langlebige wissenschaftliche Datensätze: Genome, Molekülstrukturen, Proteindatenbanken, Klimasimulations- und MD-Simulations-Ausgaben (Molekulardynamik), Laborautomations-Outputs. Engpass: niedrig — NAND/SSD ist breit verfügbar, kein struktureller Flaschenhals wie HBM. |
| Compute (Kontext) | H | Hoch, aber schubweise — Trainingskampagnen und HPC-Spitzen statt stetiger Massen-Inferenz. Zwischen Runs sind die Ressourcen vergleichsweise wenig ausgelastet. Engpass: mittel — gemessen am benötigten FLOPS (Floating Point Operations Per Second, Gleitkommaoperationen pro Sekunde) während der Kampagne. |
Was es ist & Reifegrad
KI für Naturwissenschaften umfasst eine breite Palette: Strukturvorhersage für Proteine und Moleküle (AlphaFold-Linie und Nachfolger — das KI-System von Google DeepMind, das die 3D-Faltung eines Proteins aus seiner Aminosäuresequenz vorhersagt), KI-gestützte Wirkstoff- und Materialsuche, Klima- und Wettervorhersagemodelle sowie Genom-/Genomik- und Multiomics-Analyse (Erbgut bzw. dessen systematische Untersuchung; Multiomics = die kombinierte Auswertung mehrerer „-omik"-Ebenen wie Genom, Transkriptom, Proteom, Metabolom). Trainingsgrundlage sind sowohl experimentelle Daten — etwa aus der Cryo-EM (Cryo-EM, Kryo-Elektronenmikroskopie, ein Verfahren zur Strukturbestimmung biologischer Moleküle bei sehr tiefen Temperaturen) — als auch große öffentliche Datenbanken. Das verbindende Merkmal ist die Arbeit mit großen, strukturierten wissenschaftlichen Datensätzen, auf denen spezialisierte Modelle trainiert werden.
Reifegrad (Einschätzung): nische, aber strategisch wertvoll und in einzelnen Feldern bereits teils produktiv. Strukturvorhersage (Proteine) gilt als durchgebrochen und wird produktiv genutzt; KI in der Wirkstoffsuche wächst, ist aber in frühen Phasen; Klimamodelle ergänzen klassische numerische Simulation. Insgesamt: kein Massen-Use-Case, aber mit stetigem, langfristigen Storage-Wachstum durch Datensatz-Akkumulation.
IP-Intensität (Einschätzung): hoch — Wert und Burggraben liegen in proprietären Modellen, kuratierten Daten und Forschungs-Know-how (z. B. AlphaFold-Linie, firmeneigene Wirkstoff-Pipelines). Für die Hardware-Nachfrage ist das Segment dennoch kein breiter Dauer-Speichertreiber: Die Last ist schubweise und in der Nische, der stetige Beitrag kommt aus der Akkumulation der Datensätze (NAND/Storage), nicht aus Massen-Inferenz.
Stand der Dinge / Dynamik
Beim nächsten Review hier aktualisieren — das ist der lebende Teil der Seite.
- KI-getriebene Wirkstoff- und Materialsuche: Mehrere Unternehmen und Forschungseinrichtungen setzen KI-Modelle in der frühen Wirkstoffentwicklung ein; Wachstum der Pipeline, aber noch keine dominante Produktionsnutzung. (Sekundärinfo, zu belegen.)
- Foundation Models für Biologie und Chemie: Große vortrainierte Modelle für biologische Sequenzen, Molekülgraphen und chemische Räume entstehen analog zu Sprach-LLMs. Fortschritt und Modellgrößen nachtragen. (Einschätzung, zu belegen.)
- Kopplung mit Laborautomation: KI-Modelle werden zunehmend mit automatisierten Labors (Robotik-Synthese, High-Throughput-Screening) gekoppelt — das erhöht die Datenproduktionsrate. (Einschätzung, zu belegen.)
- Öffentliche und proprietäre Datasets: Öffentliche Datenbanken (Proteinstrukturen, Genome) und proprietäre Industriedaten sind die Trainingsgrundlage; deren Wachstum ist stetiger als bei konsumentenorientierten Use-Cases. Belegt: Die experimentelle RCSB Protein Data Bank (PDB) umfasst rund 254.000 Strukturen (Mai 2026) und wächst seit Jahren stetig; KI hebt das Volumen um Größenordnungen: die AlphaFold-DB enthält über 214 Mio. vorhergesagte Strukturen (2024), ausgehend von ~300.000 (2021) — siehe Diagramme unten.
- Strukturelle Storage-Logik: Wachsende Datensätze leben dauerhaft auf NAND/SSD im Datacenter; mehr dazu unter Kioxia und SanDisk (Storage/NAND).
Übrige Aussagen hier sind Einschätzungen/Sekundärinfos. Vor Verwendung in der These mit Primär-/belastbaren Quellen härten.
Treiber-Mechanik → Hardware
Warum Wissenschaft & Bio Storage (stetig) und Compute (schubweise) treibt:
Storage — große Datasets
- Genome und Sequenzierungsdaten: Genomik-Datensätze wachsen mit sinkenden Sequenzierungskosten; langlebig und akkumulierend.
- Strukturdaten: Protein- und Molekülstrukturen (experimentell und vorhergesagt) füllen umfangreiche Datenbanken, die als Trainingsgrundlage dienen.
- Simulationsausgaben: Klimamodelle, MD-Simulationen (Molekulardynamik) und High-Throughput-Screening erzeugen große Volumen an Ausgabedaten — Ziel ist NAND/SSD (vgl. Micron, Kioxia).
Compute schubweise
- Trainingskampagnen: Spezialisierte Modelle werden in konzentrierten Runs trainiert — HBM- und DRAM-Bedarf ist hoch während des Runs, danach gering. Die Beschleuniger selbst kommen aus dem Datacenter-Stack (vgl. Nvidia, Chip-Fertigung).
- HPC-Charakter: Das Nutzungsprofil ähnelt klassischem HPC (Hochleistungsrechnen): Spitzen, gefolgt von Pausen. Moderat für HBM/DRAM im Dauerbetrieb.
- Inferenz begrenzt: Inferenz ist für spezialisierte Wissenschaftler, nicht für Millionen Konsumenten — Inferenz-Compute und -Speicher sind entsprechend kleiner.
Daten als Storage-Treiber
Zwei belegte Anker zeigen die Storage-Logik dieses Segments: die experimentelle Strukturdatenbank wächst stetig und langlebig, und KI-Vorhersage hebt das Volumen um Größenordnungen darüber hinaus.
Kumuliertes Wachstum experimenteller Proteinstrukturen (RCSB Protein Data Bank, PDB)
Zeitraum 2010–2025, Einheit: kumulierte experimentell bestimmte Strukturen (gerundet). Legende: Balkenlänge = kumulierter Bestand relativ zu 2025. Quelle: RCSB PDB — Released Structures Statistics. Reported. Rohdaten: assets/data/wissenschaft-pdb-wachstum.csv.
Größenordnung: experimentell vs. KI-vorhergesagt (Strukturen je Datenbank)
Einheit: Anzahl Proteinstrukturen je Datenbank, Balkenlänge relativ zu AlphaFold-DB 2024. Die ersten beiden Balken sind im Verhältnis kaum sichtbar — genau das ist die Aussage: KI-Vorhersage hebt die nutzbare Strukturmenge um rund drei Größenordnungen über die experimentelle PDB, und damit den Storage-Bedarf. Quellen: RCSB PDB (experimentell ~254.000), AlphaFold-DB 2024 (NAR) (>214 Mio.; ~300.000 beim Start 2021), AlphaFold-DB / EMBL-EBI (über 200 Mio. seit Juli 2022). Reported. Rohdaten: assets/data/wissenschaft-datenbasis.csv.
Kennzahlen
Quantitative Anker — vor Eintrag belegen (Quelle, Zeitraum, Einheit, reported/geschätzt).
| Kennzahl | Wert | Zeitraum | Quelle |
|---|---|---|---|
| Marktgröße KI in Drug Discovery (Wirkstoffforschung) | 1,86 Mrd. USD → 6,89 Mrd. USD; CAGR 29,9 % | 2024 → 2029 | MarketsandMarkets (geschätzt; Anbieter-Schätzungen streuen 2024 ~1,7–1,9 Mrd. USD) |
| Experimentelle Proteinstrukturen (PDB, kumuliert) | ~254.000 (zzgl. >1,06 Mio. Computed Structure Models) | Mai 2026 | RCSB PDB (reported) |
| KI-vorhergesagte Strukturen (AlphaFold-DB) | >214 Mio. (Start 2021: ~300.000) | 2021 → 2024 | AlphaFold-DB 2024 (NAR) (reported) |
| Compute je Trainingskampagne (repräsentativ) | k. A. | k. A. | Recherche ausstehend |
| Storage-Wachstum wissenschaftlicher Daten (CAGR) | k. A. | k. A. | Recherche ausstehend |
| Anteil produktiver vs. experimenteller Nutzung | k. A. | k. A. | Recherche ausstehend |
Belegte Werte mit Rohdaten unter assets/data/ (wissenschaft-pdb-wachstum.csv, wissenschaft-datenbasis.csv, wissenschaft-markt.csv) — synchron halten. Verbleibende „k. A."-Zeilen: Recherche ausstehend.
Edge vs. Datacenter
Vollständig Datacenter / HPC: Training und Inferenz laufen auf Beschleunigern im Rechenzentrum oder HPC-Cluster. Kein nennenswerter Edge-Anteil — Wissenschaftler greifen über Workstations und Web-Interfaces auf zentrale Recheninfrastruktur zu. Das bedeutet: der gesamte Hardware-Bedarf (Storage, Compute) liegt im Datacenter.
Bedeutung für die Speicher-/Storage-These
Beobachten / offene Fragen
- Wachstum wissenschaftlicher Datasets: Sequenzierungskosten, Laborautomations-Durchsatz und öffentliche Datenbankgrößen als Proxy für Storage-Wachstum.
- Übergang von Forschung zu produktiver Nutzung: Wann und in welchem Umfang werden KI-Modelle in regulierten Prozessen (klinische Studien, Zulassungsverfahren) produktiv eingesetzt?
- Ob Foundation Models für Bio/Chemie große, stetige Compute-/Speicherlasten erzeugen — das würde den HBM/DRAM-Beitrag dieses Segments erhöhen.
- Kopplung mit Laborautomation als Datengenerator: Skaliert die Datenproduktion mit der Automatisierung, steigt der Storage-Bedarf überproportional.
Quellen & Update-Log
Quellen mit klickbaren Links (Primär- vor Sekundärquellen).
- RCSB Protein Data Bank — Released Structures Statistics — kumuliertes Strukturwachstum, Gesamtbestand (~254.000 experimentell, >1,06 Mio. Computed Structure Models). Reported.
- Varadi et al., AlphaFold Protein Structure Database in 2024 (Nucleic Acids Research) — >214 Mio. vorhergesagte Strukturen, Start 2021 mit ~300.000. Reported (Primärquelle Betreiber/Forschung).
- AlphaFold Protein Structure Database / EMBL-EBI (About) — über 200 Mio. Strukturen seit Juli 2022, offener Zugang. Reported.
- MarketsandMarkets — AI in Drug Discovery Market — Marktgröße 1,86 Mrd. USD (2024) → 6,89 Mrd. USD (2029), CAGR 29,9 %. Geschätzt (Marktforschung; Anbieter-Schätzungen streuen).
| Datum | Änderung |
|---|---|
| 2026-05-21 | Akronyme inline aufgelöst (AlphaFold, HPC, Multiomics, Genom/Genomik, CAGR, FLOPS, HBM/DRAM/NAND, MD-Simulation, Cryo-EM); Querverweise auf NAND-Investments (Kioxia, SanDisk, Micron) und Data-Center/Chip-Fertigung/Nvidia gesetzt; Engpass- und IP-Intensität-Pills ergänzt; zwei belegte Balkendiagramme (PDB-Wachstum, PDB vs. AlphaFold-DB) plus drei Rohdaten-CSVs; Kennzahlen-Tabelle mit belegten Werten (PDB, AlphaFold-DB, AI-Drug-Discovery-Markt) gefüllt; Quellenapparat angelegt. |
| 2026-05-20 | Seite als Gerüst angelegt (Template, Bedarfssignatur, Platzhalter-Kennzahlen). |