ИИ-железо 25 июня 2026 ~ 18 мин OpenAI Jalapeño

OpenAI × Broadcom:
первый собственный ASIC Jalapeño

−50 % стоимость инференса · TSMC 3 нм · 9 месяцев до tape-out · конкуренция · дорожная карта

OpenAI и Broadcom представляют кастомный ASIC для инференса Jalapeño

24 июня 2026 года OpenAI и Broadcom представили Jalapeño — первый кастомный ASIC, заточенный исключительно под инференс больших языковых моделей (LLM). По ранним тестам чип обещает снизить стоимость инференса примерно на 50 % относительно типичных ИИ-GPU, изготовлен на TSMC 3 нм и к концу года развернётся в дата-центрах Microsoft Azure. В материале — мотивация, архитектура, метрики, цикл разработки за 9 месяцев, цепочка поставок, дорожная карта (Azure 2026, 1,3 ГВт в 2027, 10 ГВт к 2029, следующее поколение в 2028), конкуренция с Nvidia ($30 млрд инвестиций), влияние на отрасль, ключевые фигуры, хронология и семь FAQ — плюс, как разработчикам валидировать Codex и агентов OpenClaw на удалённом Mac VNCMac.

01

Контекст: зачем OpenAI делает свой чип

OpenAI — один из крупнейших потребителей GPU в мире. Каждый запрос к ChatGPT запускает инференс — генерацию ответа на основе обученной модели. С ростом возможностей GPT-4 и GPT-5 этот пост становится главным барьером на пути к прибыльности.

Раньше и обучение, и инференс почти полностью шли на Nvidia H100, H200 и Blackwell. Мощные, но универсальные ускорители: в однородных LLM-нагрузках значительная доля вычислений уходит впустую. GPU Nvidia — швейцарский нож; Jalapeño — скальпель для одной задачи.

Конкуренты давно в своём кремнии

КомпанияСвой чипНазначение
GoogleTPU (Tensor Processing Unit)Обучение + инференс
AmazonTrainium / InferentiaОбучение + инференс
MicrosoftMaia 100Инференс
MetaMTIAИнференс
OpenAIJalapeño (2026)Инференс

OpenAI стартовал поздно, но агрессивно: от первого дизайна до tape-out прошло 9 месяцев — по заявлениям компаний, самый быстрый цикл ASIC в классе передовых высокопроизводительных полупроводников.

02

Что такое Jalapeño? Техническая картина

2.1 ASIC, а не GPU

ASIC (Application-Specific Integrated Circuit) делает ровно одно — инференс LLM. Ни игры, ни обучение, ни универсальные вычисления. Специализация даёт максимальную эффективность в своей нише.

«Jalapeño спроектирован с нуля для инференса LLM и отражает наш опыт в исполнении ядер, перемещении данных, сети и режимах сервинга.» — Richard Ho, руководитель аппаратного направления OpenAI

2.2 Архитектурные акценты

  1. 01

    Дизайн с чистого листа: не патч старой архитектуры, а новая схема под паттерны инференса Transformer.

  2. 02

    Минимизация перемещения данных: узкое место часто не в вычислениях, а в пропускной способности памяти. Jalapeño сокращает лишние передачи между памятью и вычислительными блоками.

  3. 03

    Баланс вычислений / памяти / сети: настройка под реальные LLM-нагрузки для утилизации ближе к теоретическому пику.

  4. 04

    Межсоединение Broadcom Tomahawk: масштабируемая кластерная связь для мульти-чипового инференса крупных моделей.

  5. 05

    Интеграция плат / стоек Celestica: EMS-партнёр собирает чипы в материнские платы и стойки для массового производства.

2.3 Производство и лабораторная валидация

  • Производство: TSMC, техпроцесс 3 нм (та же генерация, что Apple M4 и Nvidia Blackwell)
  • Лаборатория: инженерные образцы уже работают на целевых частоте и TDP — в том числе с GPT-5.3-Codex-Spark, флагманской моделью инференса для кода
03

Производительность и стоимость: ключевые цифры

Оговорка: все цифры — из ранних тестов Хока Тана (Broadcom) и OpenAI. Независимая проверка ещё впереди; полный техотчёт — через несколько месяцев.

МетрикаJalapeño (ранние тесты)База сравнения
Стоимость инференса~ 50 % экономииvs типичные ИИ-GPU
Производительность на ваттзначительно выше SOTAЗаявление OpenAI
Абсолютная производительностьсопоставима с Blackwell, TPU GoogleХок Тан (Reuters)
Тепловые характеристикилучше ожидаемогоВнутренние тесты OpenAI

Хок Тан в интервью Bloomberg: «На данный момент Jalapeño показывает около 50 % экономии по сравнению с типичными ИИ-GPU». Президент OpenAI Грег Брокман добавил: «От первого дизайна до tape-out — 9 месяцев; часть проектирования ускорили собственные ИИ-модели OpenAI».

«50 %» пока — лабораторные данные Broadcom. Продакшен-реальность зависит от: ① техотчёта OpenAI; ② развёртывания в Azure; ③ независимых бенчмарков.

04

Разработка: 9 месяцев до tape-out

От первой спецификации до запуска в производство — 9 месяцев. OpenAI и Broadcom называют это самым быстрым циклом ASIC в сегменте передовых высокопроизводительных чипов.

  1. 01

    Совместная разработка HW/SW: команды моделей и чипа работают параллельно, без угадывания требований софта.

  2. 02

    ИИ-ассистированное проектирование: модели OpenAI ускорили часть решений (VentureBeat пишет об использовании предыдущих поколений).

  3. 03

    IP-библиотека Broadcom: проверенные блоки для реализации и сети сократили путь от логики к физике.

05

Цепочка поставок и партнёры

РольКомпанияЗона ответственности
Архитектура чипаOpenAIОптимизация LLM-инференса, full-stack дизайн
Кремний и сетьBroadcomРеализация, Tomahawk, поддержка производства
ФабрикаTSMCПроизводство 3 нм
Системная интеграцияCelesticaМатеринские платы, стойки, серверы
Первое развёртываниеMicrosoft AzureДата-центры с конца 2026
06

Развёртывание и коммерческая дорожная карта

Краткосрочно (конец 2026)

  • Инженерные образцы тестируются в лабораториях OpenAI
  • Коммерческий запуск в Azure и у партнёров по ДЦ
  • Приоритет — внутренний инференс (ChatGPT, Codex, API)

Среднесрочно (2027)

  • Массовое производство, резкий рост объёма инференса
  • Broadcom прогнозирует более 1,3 ГВт установленной мощности
  • Возможное открытие для внешних ИИ-компаний

Долгосрочно (до 2029)

  • Цель: 10 ГВт мощности на собственных чипах (порядка десяти АЭС)
  • Многопоколенная roadmap; следующее поколение — 2028, затем ежегодные итерации
  • Чипы для обучения возможны — сейчас только инференс
07

Конкуренция: ров Nvidia ещё держится?

Краткосрочно — не замена Nvidia

  1. 01

    Только инференс: обучение frontier-моделей по-прежнему на Nvidia. В феврале 2026 Nvidia вложила в OpenAI $30 млрд — глубокая стратегическая связь.

  2. 02

    Экосистема CUDA: десятилетие инструментов для разработчиков — главный ров; Jalapeño его не перепрыгнет.

  3. 03

    Жёсткость ASIC: фундаментальная смена архитектуры LLM потребует дорогой адаптации.

Стратегический смысл: диверсификация, не разрыв

Даже 20–30 % инференса на Jalapeño — реальная экономия и рычаг в переговорах с Nvidia. Как у Google, Amazon и Microsoft: не уйти от Nvidia, а перестать зависеть от одного поставщика.

«Nobody wants to be beholden to Nvidia.» — Ben Barringer, Global Technology Research, Quilter Cheviot

Ответ Nvidia и Broadcom

Nvidia опирается на Vera Rubin, CUDA и сделку на $30 млрд — конкурент и партнёр одновременно. Broadcom становится центральным подрядчиком кастомных ASIC: TPU Google v5/v6, MTIA Meta, Jalapeño OpenAI. За первые пять месяцев 2026 акции Broadcom выросли примерно на 18 %; с конца 2022 — почти в 7 раз.

08

Влияние на индустрию ИИ

  1. 01

    Экономика инференса: если 50 % подтвердятся в проде, тарифы API снизятся — пол ценовой войны ИИ опустится ещё ниже.

  2. 02

    Full-stack ИИ: OpenAI проектирует чип, ядра, память, сеть, планировщик и продукт — конкуренция смещается к сквозной эффективности.

  3. 03

    Полупроводники: выигрывают Broadcom, TSMC, поставщики HBM SK Hynix/Samsung; под давлением Nvidia (доля инференса) и AMD.

09

Ключевые фигуры

ИмяДолжностьРоль
Greg BrockmanСооснователь и президент OpenAIПубличный анонс, стратегия full-stack инфраструктуры
Richard HoРуководитель hardware, OpenAIТехническое лидерство архитектуры
Hock TanCEO BroadcomЗаявления о perf/стоимости (уровень Blackwell, −50 %)
Sam AltmanCEO OpenAIСтратегическое направление — контроль над compute
10

Хронология

timeline
Окт. 2025         →  OpenAI и Broadcom объявляют партнёрство по кастомному чипу
Фев. 2026         →  Nvidia инвестирует $30 млрд в OpenAI (сделка Vera Rubin)
24 июня 2026      →  Публичный релиз Jalapeño; образцы в лаборатории
Конец 2026        →  Первое коммерческое развёртывание (Azure и партнёры)
2027              →  Массовое производство, > 1,3 ГВт
2028 (план)       →  Второе поколение чипа
2029 (цель)       →  10 ГВт мощности на собственных чипах
FAQ

Частые вопросы

Нет, по крайней мере пока. Только инференс LLM, не обучение. Доминирование Nvidia в тренинге краткосрочно не под угрозой — скорее дополнение.

Ранние лабораторные данные Хока Тана для Bloomberg. Сторонние бенчмарки ещё не проводились; полный отчёт — через несколько месяцев.

При подтверждении экономии — ниже тарифы ChatGPT/API, быстрее ответы. В перспективе — более доступный ИИ.

Официального объяснения нет. Внутри OpenAI проекты часто называют в честь еды — перец может символизировать производительность или рыночный эффект.

Формулировка «для LLM всей отрасли» намекает на внешнее использование позже. Сначала — потребности OpenAI.

Многолетняя roadmap. Следующее поколение — ориентир 2028, далее ежегодные итерации.

Реакция сдержанная. Преимущество в обучении краткосрочно считается сохранённым; долгосрочно — структурное давление от собственных чипов гигантов.

Итог

Jalapeño — не серебряная пуля против Nvidia, но он реален, в лаборатории крутит GPT-5.3-Codex-Spark и знаменует конец эпохи, когда ИИ-лабы только покупали compute у сторонних поставщиков. OpenAI присоединяется к Google, Amazon, Microsoft и Meta в собственном кремнии — цель в рычаге, не в тотальной замене. Если 50 % подтвердятся в продакшене, экономика ИИ сдвинется заметно.

Для разработчиков: Codex и ChatGPT API могут подешеветь — но Xcode, приёмка агентов и GUI-права OpenClaw по-прежнему требуют настоящий Mac. Облачный инференс и удалённая Mac-разработка идут параллельно. На Windows/Linux для валидации Codex Spark или OpenClaw на macOS VNCMac удалённый Mac + VNC остаётся кратчайшим путём — узел M4 по кнопке ниже.