Matériel IA 25 juin 2026 ~ 18 min OpenAI Jalapeño

OpenAI × Broadcom :
première puce maison Jalapeño

−50 % coût d'inférence · TSMC 3 nm · 9 mois jusqu'au tape-out · concurrence · feuille de route

OpenAI et Broadcom présentent l'ASIC d'inférence sur mesure Jalapeño

Le 24 juin 2026, OpenAI et Broadcom ont dévoilé Jalapeño, leur premier ASIC d'inférence sur mesure. Conçu exclusivement pour l'inférence de grands modèles de langage (LLM), il promet environ 50 % d'économie par rapport aux GPU IA dominants, une efficacité énergétique supérieure à l'état de l'art, une gravure TSMC 3 nm et un premier déploiement chez Microsoft Azure d'ici la fin de l'année. Cet article couvre le contexte, l'architecture, les performances, le cycle de 9 mois, la chaîne d'approvisionnement, la feuille de route (2026 Azure, 2027 1,3 GW, 2029 10 GW, génération suivante 2028), la concurrence Nvidia, l'impact sectoriel, les personnes clés, la chronologie et sept FAQ — ainsi que l'usage d'un Mac distant VNCMac pour valider Codex et les agents OpenClaw.

01

Contexte : pourquoi OpenAI fabrique ses propres puces

OpenAI figure parmi les plus gros consommateurs de GPU au monde. Chaque requête ChatGPT déclenche de l'inférence — la génération de la réponse à partir du modèle entraîné. Avec GPT-4 et GPT-5, ce poste devient le principal frein économique vers la rentabilité.

Jusqu'ici, training et inférence reposaient quasi entièrement sur les H100, H200 et Blackwell de Nvidia. Puissants, mais généralistes : dans un workload LLM homogène, une part importante du calcul est gaspillée. Le GPU Nvidia est un couteau suisse ; Jalapeño, un scalpel dédié.

La concurrence est déjà dans le silicium

EntreprisePuce maisonUsage
GoogleTPU (Tensor Processing Unit)Training + inférence
AmazonTrainium / InferentiaTraining + inférence
MicrosoftMaia 100Inférence
MetaMTIAInférence
OpenAIJalapeño (2026)Inférence

OpenAI a démarré tardivement mais vite : 9 mois du design initial au tape-out — le cycle ASIC le plus rapide revendiqué dans les semi-conducteurs haute performance avancés.

02

Qu'est-ce que Jalapeño ? Détails techniques

2.1 Un ASIC, pas un GPU

Un ASIC (Application-Specific Integrated Circuit) ne fait qu'une chose : l'inférence LLM. Pas de jeu, pas d'entraînement, pas de calcul généraliste. Cette spécialisation maximise l'efficacité dans son domaine.

« Jalapeño a été conçu de zéro pour l'inférence LLM, en intégrant notre expertise sur l'exécution des kernels, les mouvements mémoire, le réseau et les modes de service. » — Richard Ho, responsable hardware chez OpenAI

2.2 Points d'architecture

  1. 01

    Design blank-slate : pas de patch sur une architecture existante, mais une refonte centrée sur les patterns d'inférence Transformer.

  2. 02

    Mouvement de données minimisé : le goulot est souvent la bande passante mémoire, pas le calcul brut. Jalapeño réduit les transferts inutiles.

  3. 03

    Équilibre calcul / mémoire / réseau : calibré sur les charges LLM réelles pour un taux d'utilisation proche du pic théorique.

  4. 04

    Interconnexion Broadcom Tomahawk : communication cluster pour l'inférence multi-puce de très grands modèles.

  5. 05

    Intégration carte / rack Celestica : l'EMS assemble puces, cartes mères et racks pour la production de masse.

2.3 Fonderie et validation labo

  • Fabrication : TSMC, gravure 3 nm (même génération qu'Apple M4 et Nvidia Blackwell)
  • Labo : des échantillons d'ingénierie tournent déjà à fréquence et consommation cibles — dont GPT-5.3-Codex-Spark, modèle phare d'inférence pour le code
03

Performances et coûts : les chiffres clés

Attention : données issues de tests précoces (Hock Tan, OpenAI). Validation tierce indépendante en attente ; rapport technique complet dans quelques mois.

IndicateurJalapeño (tests précoces)Référence
Coût d'inférence~ 50 % d'économievs GPU IA courants
Performance par wattbien au-dessus du SOTADéclaration OpenAI
Performance absoluecomparable Blackwell, TPU GoogleHock Tan (Reuters)
Thermiquemieux qu'attenduTests internes OpenAI

Hock Tan à Bloomberg : « À ce stade, Jalapeño montre environ 50 % d'économie par rapport aux GPU IA typiques. » Greg Brockman (président d'OpenAI) : « Du design initial au tape-out : 9 mois — une partie du design a utilisé nos propres modèles IA. »

Le « 50 % » reste un chiffre de labo Broadcom. La réalité production dépendra du rapport OpenAI, du déploiement Azure et de benchmarks indépendants.

04

Développement : 9 mois jusqu'au tape-out

Du premier cahier des charges au lancement en fonderie : 9 mois — le cycle ASIC le plus rapide revendiqué dans ce segment de semi-conducteurs avancés.

  1. 01

    Co-design hardware / software : équipes modèle et puce en parallèle, sans deviner les besoins logiciels.

  2. 02

    Design de puce assisté par IA : les modèles OpenAI ont accéléré certaines décisions (VentureBeat évoque des générations antérieures).

  3. 03

    Bibliothèque IP Broadcom : blocs éprouvés pour l'implémentation et le réseau, raccourcissant le chemin logique → physique.

05

Chaîne d'approvisionnement et partenaires

RôleEntrepriseMission
Architecture puceOpenAIOptimisation inférence LLM, design full-stack
Silicium & réseauBroadcomImplémentation, Tomahawk, support production
FonderieTSMCGravure 3 nm
Intégration systèmeCelesticaCarte mère, rack, serveurs
Premier déploiementMicrosoft AzureDatacenters fin 2026
06

Déploiement et feuille de route commerciale

Court terme (fin 2026)

  • Échantillons d'ingénierie en test dans les labos OpenAI
  • Déploiement commercial Azure et partenaires DC
  • Priorité : inférence interne (ChatGPT, Codex, API)

Moyen terme (2027)

  • Production de masse, volume d'inférence en forte hausse
  • Broadcom prévoit plus de 1,3 GW de capacité installée
  • Ouverture possible à des acteurs IA externes

Long terme (jusqu'en 2029)

  • Objectif : 10 GW de capacité puce maison (ordre de grandeur de dix centrales nucléaires)
  • Roadmap multi-générations ; prochaine génération 2028, puis itérations annuelles
  • Puces d'entraînement envisageables — aujourd'hui inférence seule
07

Concurrence : le fossé Nvidia tient-il encore ?

Pas un remplacement Nvidia à court terme

  1. 01

    Inférence uniquement : l'entraînement des modèles frontier reste dominé par Nvidia. En février 2026, Nvidia a investi 30 milliards de dollars directement dans OpenAI — lien stratégique profond.

  2. 02

    Écosystème CUDA : une décennie d'outils développeurs — barrière majeure que Jalapeño ne franchit pas.

  3. 03

    Rigidité ASIC : un changement fondamental d'architecture LLM imposerait des coûts d'adaptation élevés.

Sens stratégique : diversifier, pas rompre

Même 20–30 % d'inférence sur Jalapeño signifie des économies réelles et un levier de négociation face à Nvidia. Comme Google, Amazon et Microsoft : ne pas quitter Nvidia, mais ne plus en dépendre totalement.

« Nobody wants to be beholden to Nvidia. » — Ben Barringer, Global Technology Research, Quilter Cheviot

Réponses de Nvidia et Broadcom

Nvidia mise sur Vera Rubin, CUDA et les 30 Md$ — concurrent et partenaire à la fois. Broadcom devient le fondeur de référence des ASIC IA : TPU Google v5/v6, MTIA Meta, Jalapeño OpenAI. Sur les cinq premiers mois de 2026, l'action Broadcom a progressé d'environ 18 % ; depuis fin 2022, près de ×7.

08

Impact sur l'industrie IA

  1. 01

    Économie de l'inférence : si 50 % se confirment en prod, les tarifs API baissent — le plancher de la guerre des prix IA recule.

  2. 02

    IA full-stack : OpenAI conçoit puce, kernels, mémoire, réseau, scheduling et produit — la concurrence devient l'efficacité bout en bout.

  3. 03

    Semi-conducteurs : gagnants Broadcom, TSMC, fournisseurs HBM SK Hynix/Samsung ; sous pression Nvidia (part inférence) et AMD.

09

Personnes clés

NomFonctionRôle
Greg BrockmanCofondateur & président, OpenAIAnnonce publique, stratégie infra full-stack
Richard HoResponsable hardware, OpenAILeadership architecture technique
Hock TanPDG, BroadcomAllégations perf/coût (niveau Blackwell, −50 %)
Sam AltmanPDG, OpenAIOrientation stratégique — maîtrise du compute
10

Chronologie

timeline
Oct. 2025         →  OpenAI & Broadcom annoncent le partenariat puce sur mesure
Fév. 2026         →  Nvidia investit 30 Md$ dans OpenAI (accord Vera Rubin inclus)
24 juin 2026      →  Jalapeño public ; échantillons en labo
Fin 2026           →  Premier déploiement commercial (Azure & partenaires)
2027              →  Production de masse, > 1,3 GW
2028 (prévu)      →  Deuxième génération de puce
2029 (objectif)   →  10 GW de capacité puce maison
FAQ

Questions fréquentes

Non, pas pour l'instant. Inférence LLM uniquement, pas d'entraînement. La domination Nvidia sur le training reste solide à court terme — plutôt complémentaire.

Données de labo précoces de Hock Tan à Bloomberg. Benchmarks tiers manquants ; rapport complet dans quelques mois.

Si l'économie se confirme : tarifs ChatGPT/API plus bas, réponses plus rapides. À long terme, IA plus accessible.

Pas d'explication officielle. Tradition de nommer les projets d'après des aliments — le piment pourrait symboliser la performance ou l'impact marché.

Formulation « pour les LLM de toute l'industrie » — ouverture externe possible plus tard. D'abord les besoins OpenAI.

Roadmap multi-générations. Prochaine itération visée 2028, puis cycles annuels.

Réaction limitée. Avantage training préservé à court terme ; pression structurelle long terme via puces maison des géants.

Conclusion

Jalapeño n'est pas la balle d'argent contre Nvidia — mais il existe, tourne GPT-5.3-Codex-Spark en labo, et signale que l'ère où les labos IA n'achètent que du compute externe touche à sa fin. OpenAI rejoint Google, Amazon, Microsoft et Meta dans le silicium maison — levier, pas remplacement total. Si 50 % se confirment en production, l'économie de l'IA bascule.

Pour les développeurs : Codex et l'API ChatGPT pourraient coûter moins cher — mais Xcode, la validation d'agents et les droits GUI OpenClaw exigent toujours un vrai Mac. Inférence cloud et dev Mac distant coexistent. Sous Windows/Linux, pour valider Codex Spark ou OpenClaw sur macOS : VNCMac Mac distant + VNC reste le chemin le plus court — nœud M4 via le bouton ci-dessous.