−50 % стоимость инференса · TSMC 3 нм · 9 месяцев до tape-out · конкуренция · дорожная карта
24 июня 2026 года OpenAI и Broadcom представили Jalapeño — первый кастомный ASIC, заточенный исключительно под инференс больших языковых моделей (LLM). По ранним тестам чип обещает снизить стоимость инференса примерно на 50 % относительно типичных ИИ-GPU, изготовлен на TSMC 3 нм и к концу года развернётся в дата-центрах Microsoft Azure. В материале — мотивация, архитектура, метрики, цикл разработки за 9 месяцев, цепочка поставок, дорожная карта (Azure 2026, 1,3 ГВт в 2027, 10 ГВт к 2029, следующее поколение в 2028), конкуренция с Nvidia ($30 млрд инвестиций), влияние на отрасль, ключевые фигуры, хронология и семь FAQ — плюс, как разработчикам валидировать Codex и агентов OpenClaw на удалённом Mac VNCMac.
OpenAI — один из крупнейших потребителей GPU в мире. Каждый запрос к ChatGPT запускает инференс — генерацию ответа на основе обученной модели. С ростом возможностей GPT-4 и GPT-5 этот пост становится главным барьером на пути к прибыльности.
Раньше и обучение, и инференс почти полностью шли на Nvidia H100, H200 и Blackwell. Мощные, но универсальные ускорители: в однородных LLM-нагрузках значительная доля вычислений уходит впустую. GPU Nvidia — швейцарский нож; Jalapeño — скальпель для одной задачи.
| Компания | Свой чип | Назначение |
|---|---|---|
| TPU (Tensor Processing Unit) | Обучение + инференс | |
| Amazon | Trainium / Inferentia | Обучение + инференс |
| Microsoft | Maia 100 | Инференс |
| Meta | MTIA | Инференс |
| OpenAI | Jalapeño (2026) | Инференс |
OpenAI стартовал поздно, но агрессивно: от первого дизайна до tape-out прошло 9 месяцев — по заявлениям компаний, самый быстрый цикл ASIC в классе передовых высокопроизводительных полупроводников.
ASIC (Application-Specific Integrated Circuit) делает ровно одно — инференс LLM. Ни игры, ни обучение, ни универсальные вычисления. Специализация даёт максимальную эффективность в своей нише.
«Jalapeño спроектирован с нуля для инференса LLM и отражает наш опыт в исполнении ядер, перемещении данных, сети и режимах сервинга.» — Richard Ho, руководитель аппаратного направления OpenAI
Дизайн с чистого листа: не патч старой архитектуры, а новая схема под паттерны инференса Transformer.
Минимизация перемещения данных: узкое место часто не в вычислениях, а в пропускной способности памяти. Jalapeño сокращает лишние передачи между памятью и вычислительными блоками.
Баланс вычислений / памяти / сети: настройка под реальные LLM-нагрузки для утилизации ближе к теоретическому пику.
Межсоединение Broadcom Tomahawk: масштабируемая кластерная связь для мульти-чипового инференса крупных моделей.
Интеграция плат / стоек Celestica: EMS-партнёр собирает чипы в материнские платы и стойки для массового производства.
Оговорка: все цифры — из ранних тестов Хока Тана (Broadcom) и OpenAI. Независимая проверка ещё впереди; полный техотчёт — через несколько месяцев.
| Метрика | Jalapeño (ранние тесты) | База сравнения |
|---|---|---|
| Стоимость инференса | ~ 50 % экономии | vs типичные ИИ-GPU |
| Производительность на ватт | значительно выше SOTA | Заявление OpenAI |
| Абсолютная производительность | сопоставима с Blackwell, TPU Google | Хок Тан (Reuters) |
| Тепловые характеристики | лучше ожидаемого | Внутренние тесты OpenAI |
Хок Тан в интервью Bloomberg: «На данный момент Jalapeño показывает около 50 % экономии по сравнению с типичными ИИ-GPU». Президент OpenAI Грег Брокман добавил: «От первого дизайна до tape-out — 9 месяцев; часть проектирования ускорили собственные ИИ-модели OpenAI».
«50 %» пока — лабораторные данные Broadcom. Продакшен-реальность зависит от: ① техотчёта OpenAI; ② развёртывания в Azure; ③ независимых бенчмарков.
От первой спецификации до запуска в производство — 9 месяцев. OpenAI и Broadcom называют это самым быстрым циклом ASIC в сегменте передовых высокопроизводительных чипов.
Совместная разработка HW/SW: команды моделей и чипа работают параллельно, без угадывания требований софта.
ИИ-ассистированное проектирование: модели OpenAI ускорили часть решений (VentureBeat пишет об использовании предыдущих поколений).
IP-библиотека Broadcom: проверенные блоки для реализации и сети сократили путь от логики к физике.
| Роль | Компания | Зона ответственности |
|---|---|---|
| Архитектура чипа | OpenAI | Оптимизация LLM-инференса, full-stack дизайн |
| Кремний и сеть | Broadcom | Реализация, Tomahawk, поддержка производства |
| Фабрика | TSMC | Производство 3 нм |
| Системная интеграция | Celestica | Материнские платы, стойки, серверы |
| Первое развёртывание | Microsoft Azure | Дата-центры с конца 2026 |
Только инференс: обучение frontier-моделей по-прежнему на Nvidia. В феврале 2026 Nvidia вложила в OpenAI $30 млрд — глубокая стратегическая связь.
Экосистема CUDA: десятилетие инструментов для разработчиков — главный ров; Jalapeño его не перепрыгнет.
Жёсткость ASIC: фундаментальная смена архитектуры LLM потребует дорогой адаптации.
Даже 20–30 % инференса на Jalapeño — реальная экономия и рычаг в переговорах с Nvidia. Как у Google, Amazon и Microsoft: не уйти от Nvidia, а перестать зависеть от одного поставщика.
«Nobody wants to be beholden to Nvidia.» — Ben Barringer, Global Technology Research, Quilter Cheviot
Nvidia опирается на Vera Rubin, CUDA и сделку на $30 млрд — конкурент и партнёр одновременно. Broadcom становится центральным подрядчиком кастомных ASIC: TPU Google v5/v6, MTIA Meta, Jalapeño OpenAI. За первые пять месяцев 2026 акции Broadcom выросли примерно на 18 %; с конца 2022 — почти в 7 раз.
Экономика инференса: если 50 % подтвердятся в проде, тарифы API снизятся — пол ценовой войны ИИ опустится ещё ниже.
Full-stack ИИ: OpenAI проектирует чип, ядра, память, сеть, планировщик и продукт — конкуренция смещается к сквозной эффективности.
Полупроводники: выигрывают Broadcom, TSMC, поставщики HBM SK Hynix/Samsung; под давлением Nvidia (доля инференса) и AMD.
| Имя | Должность | Роль |
|---|---|---|
| Greg Brockman | Сооснователь и президент OpenAI | Публичный анонс, стратегия full-stack инфраструктуры |
| Richard Ho | Руководитель hardware, OpenAI | Техническое лидерство архитектуры |
| Hock Tan | CEO Broadcom | Заявления о perf/стоимости (уровень Blackwell, −50 %) |
| Sam Altman | CEO OpenAI | Стратегическое направление — контроль над compute |
Окт. 2025 → OpenAI и Broadcom объявляют партнёрство по кастомному чипу Фев. 2026 → Nvidia инвестирует $30 млрд в OpenAI (сделка Vera Rubin) 24 июня 2026 → Публичный релиз Jalapeño; образцы в лаборатории Конец 2026 → Первое коммерческое развёртывание (Azure и партнёры) 2027 → Массовое производство, > 1,3 ГВт 2028 (план) → Второе поколение чипа 2029 (цель) → 10 ГВт мощности на собственных чипах
Нет, по крайней мере пока. Только инференс LLM, не обучение. Доминирование Nvidia в тренинге краткосрочно не под угрозой — скорее дополнение.
Ранние лабораторные данные Хока Тана для Bloomberg. Сторонние бенчмарки ещё не проводились; полный отчёт — через несколько месяцев.
При подтверждении экономии — ниже тарифы ChatGPT/API, быстрее ответы. В перспективе — более доступный ИИ.
Официального объяснения нет. Внутри OpenAI проекты часто называют в честь еды — перец может символизировать производительность или рыночный эффект.
Формулировка «для LLM всей отрасли» намекает на внешнее использование позже. Сначала — потребности OpenAI.
Многолетняя roadmap. Следующее поколение — ориентир 2028, далее ежегодные итерации.
Реакция сдержанная. Преимущество в обучении краткосрочно считается сохранённым; долгосрочно — структурное давление от собственных чипов гигантов.
Jalapeño — не серебряная пуля против Nvidia, но он реален, в лаборатории крутит GPT-5.3-Codex-Spark и знаменует конец эпохи, когда ИИ-лабы только покупали compute у сторонних поставщиков. OpenAI присоединяется к Google, Amazon, Microsoft и Meta в собственном кремнии — цель в рычаге, не в тотальной замене. Если 50 % подтвердятся в продакшене, экономика ИИ сдвинется заметно.
Для разработчиков: Codex и ChatGPT API могут подешеветь — но Xcode, приёмка агентов и GUI-права OpenClaw по-прежнему требуют настоящий Mac. Облачный инференс и удалённая Mac-разработка идут параллельно. На Windows/Linux для валидации Codex Spark или OpenClaw на macOS VNCMac удалённый Mac + VNC остаётся кратчайшим путём — узел M4 по кнопке ниже.