추론 비용 최대 50% 절감 · TSMC 3nm · 9개월 테이프아웃 · 경쟁 구도 · 배포 로드맵
2026년 6월 24일, OpenAI와 Broadcom(브로드컴)은 LLM 추론 전용 맞춤형 ASIC Jalapeño를 공동 발표했습니다. 주류 AI GPU 대비 추론 비용을 약 50% 절감할 수 있다고 하며, 와트당 성능도 현행 최첨단을 크게 상회한다고 밝혔습니다. 제조는 TSMC 3nm 공정이며, 연말 Microsoft Azure 등 파트너 데이터센터에 첫 배포가 예정되어 있습니다. 본문은 자체 칩화 배경, 기술 아키텍처, 성능 데이터와 주의사항, 9개월 개발 주기, 공급망, 2026/2027/2029 배포 계획(10GW 목표), 엔비디아 경쟁, 업계 파급, 핵심 인물, 타임라인, FAQ를 모두 다루며, 개발자가 VNCMac 원격 Mac에서 Codex / OpenClaw 등 Agent 워크플로를 검수하는 방법도 설명합니다.
OpenAI는 세계 최대급 GPU 소비 기업 중 하나입니다. ChatGPT에 질문이 들어올 때마다 서버군은 추론(Inference)——입력을 바탕으로 답을 생성하는 처리——에 막대한 연산 자원을 씁니다. GPT-4·GPT-5 시리즈 역량이 커질수록 추론 비용은 수익화의 가장 큰 걸림돌이 되었습니다.
지금까지 OpenAI의 추론·학습은 거의 전적으로 엔비디아 GPU에 의존해 왔습니다. H100, H200, Blackwell 시리즈는 강력하지만 범용 가속기이며 LLM 추론에 특화된 설계가 아닙니다. 동질화된 LLM 워크로드에서는 상당한 연산이 사실상 낭비됩니다. 비유하자면 엔비디아 GPU는 스위스 아미 나이프, Jalapeño는 외과용 메스입니다.
| 기업 | 자체 칩 | 용도 |
|---|---|---|
| TPU (Tensor Processing Unit) | 학습 + 추론 | |
| Amazon | Trainium(학습) / Inferentia(추론) | 학습 + 추론 |
| Microsoft | Maia 100 | 추론 |
| Meta | MTIA | 추론 |
| OpenAI | Jalapeño(2026) | 추론 |
대형사 중 가장 늦은 진입이지만, 설계부터 테이프아웃까지 9개월이라는 속도로 고성능 첨단 반도체 분야 ASIC 개발 사상 최고 속도급이라고 주장합니다.
ASIC(Application-Specific Integrated Circuit, 용도 특화 집적회로)는 한 가지 일——여기서는 LLM 추론——만 수행하는 칩입니다. 게임, 학습, 범용 연산은 담당하지 않습니다. 그 특화 덕분에 담당 영역에서는 극도로 높은 효율을 냅니다.
「Jalapeño는 백지에서 LLM 추론을 위해 설계되었으며, 최첨단 모델의 커널 실행·메모리 이동·네트워크 통신·서비스 형태에 대한 깊은 통찰을 담았다.」—— OpenAI 하드웨어 책임자 Richard Ho
블랭크 슬레이트 설계: 기존 아키텍처 패치가 아니라 현대 LLM 추론을 출발점으로 재설계. 모든 결정이 Transformer 연산 패턴에 맞춰집니다.
데이터 이동 최소화: 추론 병목은 연산력보다 메모리 대역인 경우가 많아, Jalapeño는 메모리와 연산 유닛 사이 불필요한 전송을 줄이는 구조를 씁니다.
연산·메모리·네트워크 균형: 실제 LLM 부하 특성에 맞춘 전용 튜닝으로 이론 피크에 가까운 활용률을 노립니다.
Broadcom Tomahawk 클러스터 상호연결: 대규모 클러스터 배포 시 노드 간 통신을 강화해 멀티카드 협업 초대형 모델 추론을 지원합니다.
Celestica 기판·랙 통합: EMS인 Celestica가 서버 기판·랙 시스템 구현과 양산 체제를 맡습니다.
주의: 아래는 브로드컴 CEO 호크 탄과 OpenAI 공식 발표에 따른 초기 시험 결과입니다. 공식 기술 보고서는 수개월 후 공개 예정이며 제3자 독립 벤치마크는 아직 없습니다. 반드시 「공식 자체 시험치」로 읽어야 합니다.
| 지표 | Jalapeño(초기 시험) | 비교 기준 |
|---|---|---|
| 추론 비용 절감 | 약 50% | 현행 주류 AI GPU 대비 |
| 와트당 성능 | 현행 SoTA를 크게 상회 | OpenAI 공식 성명 |
| 절대 성능 | 엔비디아 Blackwell·Google TPU와 동급 | 브로드컴 CEO(Reuters 보도) |
| 열 특성 | 예상보다 양호 | OpenAI 내부 시험 |
호크 탄은 Bloomberg 인터뷰에서 「지금까지 Jalapeño는 전형적인 AI GPU 대비 약 50% 비용 절감을 보여준다」고 말했습니다. OpenAI 공동창업자·사장 Greg Brockman은 「Jalapeño는 초기 설계부터 테이프아웃까지 9개월이며, 설계·최적화 일부에 OpenAI 자체 AI 모델도 썼다」고 덧붙였습니다.
「50%」는 현재 브로드컴 측 초기 랩 데이터입니다. 프로덕션 실효치는 ① OpenAI 완전 기술 보고서, ② Microsoft 등 파트너 DC 실제 배포, ③ 제3자 벤치마크가 나올 때까지 기다려야 합니다.
Jalapeño는 초기 설계부터 제조 테이프아웃까지 단 9개월. OpenAI와 브로드컴은 이를 고성능 첨단 반도체 ASIC 개발 사상 최고 속도급으로 포지셔닝합니다.
소프트·하드 심층 공동 개발: 모델 팀과 칩 팀이 병행해 요구사항을 맞추며, 전통 ASIC에서 흔한 「하드가 소프트 요구를 추측하는」 재작업을 줄였습니다.
AI 보조 칩 설계: OpenAI AI 모델이 설계 판단·최적화 일부를 가속(VentureBeat는 관계자 발언으로 이전 세대 OpenAI 모델 사용을 보도).
브로드컴 성숙 IP: 칩 구현·네트워크 등 재사용 IP가 풍부해 논리 설계에서 물리 구현까지 기간을 단축했습니다.
| 역할 | 기업 | 담당 |
|---|---|---|
| 칩 아키텍처 | OpenAI | LLM 추론 최적화, 풀스택 설계 |
| 실리콘 구현·네트워크 | Broadcom | 구현, Tomahawk 네트워크, 양산 지원 |
| 파운드리 | TSMC | 3nm 제조 |
| 시스템 통합 | Celestica | 기판·랙·서버 통합, 양산 |
| 초기 배포처 | Microsoft Azure | 데이터센터 배포(연말 시작) |
추론만, 학습은 대상 아님: 최첨단 모델 학습은 여전히 엔비디아 GPU 의존이 강함. 2026년 2월 엔비디아가 OpenAI에 300억 달러 직접 투자, 전략적 결속은 매우 깊음.
CUDA 소프트웨어 생태계: 십수 년간 쌓은 개발자 기반은 가장 큰 해자이며 Jalapeño로 대체 불가.
유연성 한계: ASIC은 고도 특화라 LLM 아키텍처가 근본적으로 바뀌면 적응 비용이 큼.
Jalapeño가 OpenAI 추론 부하의 20~30%만 담당해도 실질 비용 절감, 엔비디아 조달가 협상력, 단일 벤더 의존 회피 효과는 큽니다. Google·Amazon·Microsoft와 같이 「엔비디아를 버리는」 게 아니라 「완전 의존을 끝내는」 전략입니다.
「누구도 엔비디아에 종속되고 싶지 않다.」—— Quilter Cheviot 글로벌 테크 연구 책임자 Ben Barringer
엔비디아 강점은 Vera Rubin 플랫폼, CUDA 생태계, OpenAI 300억 달러 투자 결속——경쟁자이면서 깊은 이해공동체도 됩니다. 한편 브로드컴은 Google(TPU v5/v6), Meta(MTIA), OpenAI(Jalapeño) 맞춤 ASIC을 맡는 「AI 맞춤 칩계 파운드리 왕」으로 부상 중입니다. 2026년 상반기 브로드컴 주가는 연초 대비 약 18% 상승, 2022년 말부터 누적 약 7배에 달합니다.
추론 경제학이 비즈니스 모델 재편: 50% 절감이 프로덕션에서 입증되면 ChatGPT API 비용이 더 내려가 OpenAI 흑자화 경로가 선명해집니다. 「AI 가격전」 하한도 더 내려갑니다.
「풀스택 AI 기업」이 새 표준: 칩 설계부터 커널·메모리·네트워크·스케줄링·배포·제품 경험까지 내재화——경쟁 축이 「어떤 모델이 우수한가」에서 「풀스택 효율이 얼마나 높은가」로 이동합니다.
반도체 세력도 재편 가속: 수혜는 Broadcom, TSMC, SK하이닉스/삼성(HBM) 등. 추론 점유율을 뺏길 수 있는 쪽은 엔비디아·AMD입니다.
| 이름 | 직책 | 역할 |
|---|---|---|
| Greg Brockman | OpenAI 공동창업자·사장 | 공개 발표, 「풀스택 인프라 전략」 포지셔닝 |
| Richard Ho | OpenAI 하드웨어 책임자 | 기술 아키텍처 리드 |
| Hock Tan(호크 탄) | 브로드컴 CEO | Blackwell급 성능·50% 비용 절감 공언 |
| Sam Altman | OpenAI CEO | 연산력 자체 통제 전략 추진(과거 공개 발언) |
2025년 10월 → OpenAI·브로드컴 맞춤 칩 공동 개발 공식 발표 2026년 2월 → 엔비디아 OpenAI에 300억 달러 직접 투자(Vera Rubin 연산 합의 포함) 2026년 6월 24일 → Jalapeño 칩 공개, 엔지니어링 샘플 랩 가동 2026년 말 → 초기 상용 배포(Microsoft Azure 등 파트너 DC) 2027년 → 대규모 양산, 배포 규모 1.3 GW 초과 전망 2028년(예정) → 2세대 칩 출시 2029년(목표) → 자체 칩으로 10 GW 연산 지원
현재로서는 아닙니다. LLM 추론 전용이며 학습에는 쓰이지 않습니다. 학습 영역 엔비디아 지위는 단기간 흔들리지 않으며 양자는 보완 관계입니다.
브로드컴 CEO가 Bloomberg 인터뷰에서 공개한 초기 랩 시험 수치입니다. 제3자 검증은 없으며 공식 보고서는 수개월 후 예정입니다. 신중히 읽어야 합니다.
프로덕션에서 비용 절감이 입증되면 ChatGPT/API 요금 인하·응답 가속이 기대됩니다. 장기적으로 AI 서비스가 더 저렴하고 보편화됩니다.
공식 명명 이유는 미공개입니다. OpenAI는 음식 이름 프로젝트 전통이 있으며 성능·시장 자극을 암시한다는 해석도 있습니다.
「현재·미래 LLM 전체를 위해 설계」라는 공식 설명으로 외부 제공 가능성을 시사합니다. 당분간 OpenAI 자체 수요가 최우선입니다.
다세대 로드맵이 계획되어 있으며 차세대는 2028년경 출시 후 매년 이터레이션할 예정입니다.
발표 직후 주가 반응은 제한적이었습니다. 학습 분야 우위는 당분간 유지된다는 견해가 주류이나, 대형 고객 자체 칩화는 장기 구조적 압력입니다.
Jalapeño는 엔비디아 패권을 끝내는 은탄환은 아닙니다. 그러나 실재하며 랩에서 GPT-5.3-Codex-Spark를 가동했고, 「AI 기업이 단순히 최고 입찰자에게 연산을 사는 시대」가 끝나가는 상징입니다. OpenAI는 Google·Amazon·Microsoft·Meta 자체 실리콘 대열에 합류——완전 대체가 아니라 레버리지·비용 절감·풀스택 장악을 목표로 합니다. 50% 수치가 프로덕션에서 입증되면 AI 경제학에 의미 있는 변화가 옵니다.
개발자에게 직접적 영향은 Codex/ChatGPT API가 더 저렴·빨라질 가능성——한편 Mac에서 코딩, Xcode 실행, OpenClaw Agent 배포 워크로드는 사라지지 않습니다. 풀스택 AI 시대는 「클라우드 추론 비용 최적화」와 「로컬/원격 Mac 개발 환경」을 두 개의 병행 레인으로 나눕니다. 전자는 Jalapeño들이, 후자는 Apple Silicon과 그래픽 세션이 계속 맡습니다. Windows/Linux를 주력으로 Codex Spark나 OpenClaw macOS GUI 경계를 검수한다면 VNCMac 원격 Mac+VNC가 최단 경로입니다——아래 버튼으로 M4 노드를 바로 개통하세요.