KI-Hardware 25. Juni 2026 ca. 18 Min. OpenAI Jalapeño

OpenAI × Broadcom:
Erstes Eigen-ASIC Jalapeño

50 % Inferenzkosten · TSMC 3 nm · 9 Monate bis Tape-out · Wettbewerb · Roadmap

OpenAI und Broadcom stellen den maßgeschneiderten Inferenz-ASIC Jalapeño vor

Am 24. Juni 2026 haben OpenAI und Broadcom den maßgeschneiderten Inferenz-ASIC Jalapeño vorgestellt. Das Chipdesign ist ausschließlich auf LLM-Inferenz zugeschnitten und soll laut frühen Tests rund 50 % Inferenzkosten gegenüber gängigen KI-GPUs einsparen — gefertigt in TSMC 3 nm, ab Ende 2026 zunächst in Microsoft-Azure-Rechenzentren. Dieser Artikel deckt Motivation, Architektur, Leistungsdaten, den 9-Monats-Entwicklungszyklus, Lieferkette, Deployment-Roadmap, Nvidia-Wettbewerb, Branchenfolgen, Schlüsselpersonen, Zeitachse und sieben FAQ ab — plus, wie Entwickler Codex- und OpenClaw-Agent-Workflows auf einem VNCMac-Remote-Mac abnehmen.

01

Hintergrund: Warum OpenAI eigene Chips baut

OpenAI zählt zu den größten GPU-Verbrauchern weltweit. Jede ChatGPT-Anfrage löst im Hintergrund Inferenz aus — das Generieren einer Antwort auf Basis des trainierten Modells. Mit GPT-4 und GPT-5 wächst dieser Posten zur größten Kostenposition auf dem Weg zur Profitabilität.

Bisher liefen Training und Inferenz fast vollständig auf Nvidia-H100, H200 und Blackwell. Diese GPUs sind universelle Beschleuniger — leistungsfähig, aber nicht speziell für homogene LLM-Inferenz-Workloads optimiert. Viel Rechenleistung verpufft. Nvidia-GPUs sind ein Schweizer Taschenmesser; Jalapeño ein Skalpell für genau eine Aufgabe.

Die Konkurrenz ist längst im Silicon-Geschäft

UnternehmenEigenchipEinsatz
GoogleTPU (Tensor Processing Unit)Training + Inferenz
AmazonTrainium / InferentiaTraining + Inferenz
MicrosoftMaia 100Inferenz
MetaMTIAInferenz
OpenAIJalapeño (2026)Inferenz

OpenAI startete spät, aber aggressiv: Von der ersten Spezifikation bis zum Tape-out vergingen nur 9 Monate — laut Unternehmensangaben der schnellste ASIC-Zyklus in der Klasse fortgeschrittener Hochleistungs-Halbleiter.

02

Was ist Jalapeño? Technische Einordnung

2.1 Ein ASIC, kein GPU

ASIC (Application-Specific Integrated Circuit) bedeutet: Der Chip macht genau eine Sache — LLM-Inferenz. Kein Gaming, kein Training, keine Allzweck-Compute. Diese Spezialisierung liefert in seinem Einsatzgebiet maximale Effizienz.

„Jalapeño wurde von Grund auf für LLM-Inferenz entwickelt und spiegelt unsere Erfahrung mit Kernel-Ausführung, Speicherbewegung, Netzwerk und Serving-Modellen wider.“ — Richard Ho, Leiter Hardware bei OpenAI

2.2 Architektur-Highlights

  1. 01

    Blank-slate-Design: Kein Patch auf alter Architektur, sondern Neuentwurf ausgehend von Transformer-Inferenz-Mustern.

  2. 02

    Minimierte Datenbewegung: Der Engpass liegt oft nicht bei der Rechenleistung, sondern bei der Speicherbandbreite. Jalapeño reduziert unnötige Transfers zwischen Speicher und Compute.

  3. 03

    Ausgewogenes Compute/Memory/Netzwerk: Abstimmung auf reale LLM-Lastprofile für höhere Auslastung nahe der theoretischen Spitze.

  4. 04

    Broadcom Tomahawk-Interconnect: Skalierbare Cluster-Kommunikation für Multi-Chip-Inferenz großer Modelle.

  5. 05

    Celestica Board/Rack-Integration: Der EMS-Partner integriert den Chip in Mainboards und Rack-Systeme für Massenproduktion.

2.3 Fertigung und Laborvalidierung

  • Fertigung: TSMC, 3-nm-Prozess (gleiche Generation wie Apple M4 und Nvidia Blackwell)
  • Labor: Engineering-Samples laufen bereits mit Ziel-Takt und Leistungsaufnahme — inklusive GPT-5.3-Codex-Spark, einem Flaggschiff-Inferenzmodell für Code
03

Leistung und Kosten: die Kennzahlen

Vorsicht: Alle Zahlen stammen aus frühen Tests von Broadcom-CEO Hock Tan und OpenAI. Unabhängige Validierung steht aus; der vollständige Technikbericht erscheint in Monaten.

KennzahlJalapeño (Frühtest)Referenz
Inferenzkostenca. 50 % Ersparnisvs. gängige KI-GPUs
Leistung pro Wattdeutlich über SOTAOpenAI-Angabe
Absolute Performancevergleichbar mit Blackwell, Google TPUHock Tan (Reuters)
Thermikbesser als erwartetOpenAI-Interntests

Hock Tan sagte Bloomberg: „Bislang zeigt Jalapeño gegenüber typischen KI-GPUs etwa 50 % Kostenersparnis.“ OpenAI-Präsident Greg Brockman ergänzte: „Vom ersten Design bis Tape-out dauerte es 9 Monate — Teile des Designs nutzten OpenAIs eigene KI-Modelle.“

Die „50 %“ bleiben Broadcom-Laborwerte. Produktionsrealität hängt ab von: ① OpenAIs Technikbericht, ② Azure-Deployment, ③ unabhängigen Benchmarks.

04

Entwicklung: 9 Monate bis Tape-out

Von der ersten Spezifikation bis zur Fertigungsfreigabe vergingen 9 Monate — laut OpenAI und Broadcom der schnellste Zyklus dieser Art in der Hochleistungs-ASIC-Welt.

  1. 01

    Hardware-Software-Co-Design: Modell- und Chip-Teams arbeiten parallel, statt dass Hardware-Anforderungen erraten werden müssen.

  2. 02

    KI-gestütztes Chipdesign: OpenAIs Modelle beschleunigten Designentscheidungen (VentureBeat berichtet über Einsatz früherer Generationen).

  3. 03

    Broadcoms IP-Bibliothek: Bewährte Blöcke für Implementierung und Netzwerk verkürzten den Weg von Logik zu Physik.

05

Lieferkette und Partner

RolleUnternehmenAufgabe
Chip-ArchitekturOpenAILLM-Inferenz-Optimierung, Full-Stack-Design
Silizium & NetzwerkBroadcomImplementierung, Tomahawk, Produktionsunterstützung
FoundryTSMC3-nm-Fertigung
SystemintegrationCelesticaMainboard, Rack, Server-Integration
ErstdeploymentMicrosoft AzureRechenzentren ab Ende 2026
06

Deployment und kommerzielle Roadmap

Kurzfristig (Ende 2026)

  • Engineering-Samples laufen in OpenAI-Laboren
  • Kommerzielles Deployment in Azure und weiteren Partner-DCs
  • Priorität: interne Inferenz (ChatGPT, Codex, API)

Mittelfristig (2027)

  • Massenproduktion, deutlich höheres Inferenzvolumen
  • Broadcom prognostiziert über 1,3 GW installierte Leistung
  • Mögliche Öffnung für externe KI-Anbieter

Langfristig (bis 2029)

  • Ziel: 10 GW Eigenchip-Kapazität (Größenordnung zehn Kernkraftwerke)
  • Mehrgenerationen-Roadmap; nächste Generation 2028, danach jährlich
  • Training-Chips sind denkbar — aktuell nur Inferenz
07

Wettbewerb: Bleibt Nvidias Burggraben intakt?

Kurzfristig kein Nvidia-Ersatz

  1. 01

    Nur Inferenz: Training frontier-Modelle bleibt Nvidia-dominiert. Im Februar 2026 investierte Nvidia 30 Milliarden US-Dollar direkt in OpenAI — tiefe strategische Verflechtung.

  2. 02

    CUDA-Ökosystem: Jahrzehntelang aufgebaute Entwicklerbasis ist die höchste Hürde; Jalapeño ersetzt das nicht.

  3. 03

    Flexibilitätsgrenze: ASICs sind starr — fundamentale Architekturwechsel bei LLMs würden teure Anpassungen erfordern.

Strategischer Sinn: Diversifikation statt Abkehr

Schon 20–30 % Inferenz auf Jalapeño bedeuten echte Einsparungen und Verhandlungsmacht gegenüber Nvidia. Wie bei Google, Amazon und Microsoft gilt: nicht Nvidia verlassen, sondern nicht mehr vollständig von einem Lieferanten abhängen.

„Nobody wants to be beholden to Nvidia.“ — Ben Barringer, Global Technology Research, Quilter Cheviot

Nvidia und Broadcom reagieren

Nvidia setzt auf Vera Rubin, CUDA und die 30-Mrd.-$-Bindung — Konkurrent und Partner zugleich. Broadcom wird zum Zentralanbieter für Custom-ASICs: Google TPU v5/v6, Meta MTIA, OpenAI Jalapeño. Im ersten Halbjahr 2026 stieg die Broadcom-Aktie um rund 18 %; seit Ende 2022 fast siebenfach.

08

Branchenwirkung

  1. 01

    Inferenz-Ökonomie: Bestätigen sich 50 % in Produktion, sinken API-Preise — der Boden im KI-Preiskampf rutscht weiter nach unten.

  2. 02

    Full-Stack-KI: OpenAI designt Chip, Kernel, Speicher, Netzwerk, Scheduling und Produkt — Wettbewerb wird Effizienz über die gesamte Kette.

  3. 03

    Halbleiter-Umverteilung: Gewinner Broadcom, TSMC, HBM-Lieferanten SK Hynix/Samsung; unter Druck Nvidia (Inferenzanteil) und AMD.

09

Schlüsselpersonen

NamePositionRolle
Greg BrockmanMitgründer & Präsident, OpenAIÖffentliche Ankündigung, Full-Stack-Infrastruktur
Richard HoLeiter Hardware, OpenAITechnische Architektur
Hock TanCEO, BroadcomPerformance- und Kostenaussagen (Blackwell-Niveau, 50 %)
Sam AltmanCEO, OpenAIStrategische Richtung — Kontrolle über Compute-Kapazität
10

Zeitachse

timeline
Okt. 2025        →  OpenAI & Broadcom kündigen Custom-Chip-Kooperation an
Feb. 2026        →  Nvidia investiert 30 Mrd. $ in OpenAI (inkl. Vera-Rubin-Deal)
24. Juni 2026    →  Jalapeño öffentlich; Engineering-Samples im Labor
Ende 2026        →  Erstes kommerzielles Deployment (Azure & Partner)
2027             →  Massenproduktion, > 1,3 GW
2028 (geplant)   →  Zweite Chip-Generation
2029 (Ziel)      →  10 GW Eigenchip-Kapazität
FAQ

Häufige Fragen

Nein, zumindest nicht jetzt. Es ist rein für LLM-Inferenz, nicht für Training. Nvidias Trainingsdominanz bleibt kurzfristig unangetastet — eher Komplementärtechnologie.

Frühe Labordaten von Broadcom-CEO Hock Tan gegenüber Bloomberg. Unabhängige Benchmarks fehlen noch; vollständiger Bericht in Monaten.

Bei bestätigter Kostensenkung: günstigere ChatGPT-/API-Preise, schnellere Antworten. Langfristig breitere, günstigere KI-Nutzung.

Keine offizielle Erklärung. OpenAI benennt Projekte gern nach Essen — der Jalapeño-Pfeffer könnte Leistung oder Marktwirkung symbolisieren.

Formulierung „für LLMs der gesamten Branche“ deutet auf spätere externe Nutzung. Zuerst deckt OpenAI den eigenen Bedarf.

Mehrjährige Roadmap geplant. Nächste Generation voraussichtlich 2028, danach jährliche Iterationen.

Begrenzte Reaktion. Trainingsvorteil kurzfristig sicher; langfristig struktureller Druck durch Eigenchips großer Kunden.

Fazit

Jalapeño ist kein Silberkugel gegen Nvidia — aber real, im Labor mit GPT-5.3-Codex-Spark erprobt, und ein Signal: Die Ära, in der KI-Firmen Compute nur einkaufen, endet. OpenAI schließt sich Google, Amazon, Microsoft und Meta im Eigen-Silicon an — Ziel ist Hebel, nicht Totalersatz. Bestätigen sich 50 % in Produktion, verschiebt sich die KI-Ökonomie spürbar.

Für Entwickler: Codex- und ChatGPT-API könnten günstiger werden — aber Xcode, lokale Agent-Abnahme und OpenClaw-GUI-Rechte brauchen weiterhin einen echten Mac. Cloud-Inferenz und Remote-Mac-Entwicklung laufen parallel. Wer unter Windows/Linux Codex Spark oder OpenClaw auf macOS validieren muss: VNCMac Remote Mac + VNC bleibt der kürzeste Weg — M4-Knoten per Button unten.