生產環境最佳 Agent 數量是多少？

經驗數據顯示 3–8 個 Agent 是甜蜜點；超過此數量協調開銷往往超過收益，應考慮階層化。

編排拓撲和底層模型哪個更重要？

AdaptOrch（2026）研究證明，在多 Agent 系統中編排拓撲的選擇對效能的影響比底層模型更大，可帶來 12–23% 的提升。

MCP 和 A2A 分別解決什麼問題？

MCP 是垂直層：Agent 與工具/外部系統；A2A 是水平層：Agent 與 Agent 之間的任務委託與能力發現。

為什麼多 Agent 開發需要 VNC 遠端 Mac？

LangGraph/CrewAI/OpenClaw 多 Agent 常需 macOS 圖形權限、鑰匙圈、瀏覽器 MCP 與本機 MCP Server 驗收，純 SSH 無法完成 TCC 彈窗點選。

多 Agent 協作架構實戰：設計模式到生產落地

01

為什麼單一 Agent 不夠用了

「單體 Agent」——一個 LLM 包辦檢索、編碼、審核——原型極易搭建，卻在生產規模化時結構性失效：

01
上下文視窗瓶頸：複雜任務的中間結果塞滿上下文，後續推理品質驟降。
02
專業能力稀釋：一個 Agent 既檢索又寫程式又審核，樣樣都做但樣樣不精。
03
串行執行低效：總耗時 = 各步驟之和，無法並行。
04
單點故障：一個 Agent 出問題，整個流程停擺；子 Agent 可獨立升級則能規避此風險。

根據 MLflow 2026 報告與 AdaptOrch 論文，問題不在模型，而在編排——選對拓撲，比換更強模型收益更穩定。

02

核心概念：什麼是多 Agent 協作系統

多 Agent 協作系統（MAS）：由多個獨立 AI Agent 透過明確通訊協定與編排機制協作，完成單一 Agent 無法高效處理的複雜任務。

特徵	描述
角色專一	只負責明確定義的子任務（檢索、推理、生成、驗證）
工具存取	擁有完成自身任務所需的特定工具集
狀態隔離	維護自己的上下文，不污染其他 Agent
可替換性	可獨立升級、替換，不影響整體

三種控制模式

模式	優點	缺點
集中式（Orchestrator）	可稽核、可控	單點瓶頸
分散式（P2P）	高彈性、低延遲	除錯難、非確定性高
階層式（Hierarchical）	平衡控制與彈性	設計複雜度中等

03

六大編排設計模式詳解

以下六種模式涵蓋生產中 95%+ 的多 Agent 場景。

模式一：順序流水線（Sequential Pipeline）

Agent A 輸出 → Agent B 輸入，嚴格線性。適用：文章創作、程式碼審查、合規流程。總耗時 = 各步驟之和；單步失敗則整體阻塞。

LangGraph · 順序流水線

builder = StateGraph(PipelineState)
builder.add_node("retriever", retrieval_agent)
builder.add_node("analyzer", analysis_agent)
builder.add_node("writer", writer_agent)
builder.add_edge(START, "retriever")
builder.add_edge("retriever", "analyzer")
builder.add_edge("analyzer", "writer")
builder.add_edge("writer", END)
pipeline = builder.compile()

模式二：並行扇出/扇入（Fan-out / Fan-in）

多 Agent 並行處理獨立子任務，匯聚節點合併結果。總耗時 ≈ max(T1…Tn)。LangGraph Send API + Annotated[list, operator.add] Reducer 自動聚合並行結果。

模式三：階層主管-工人（Supervisor-Worker）

主管負責意圖識別與路由，Worker 執行專業任務。建議雙層路由：關鍵字快速通道（<1ms，無 LLM）+ LLM 精確路由處理模糊意圖。典型案例：Replit 程式助手、客服系統。

模式四：群體協作（Swarm）

點對點傳遞，無中央協調，靠輪數/共識/逾時終止。適合程式碼審查辯論；生產環境慎用，非確定性高，建議以階層模式替代。AutoGen GroupChat 須設 max_round 硬性上限。

模式五：黑板架構（Blackboard）

共享結構化工作空間，Agent 在前提條件滿足時主動讀寫黑板。適用：小時級/天級非同步任務、異質團隊協作、難以預先路由的複雜工作流。

模式六：混合模式（Hybrid）

常見組合：Intent 路由 → 簡單查詢直答 / 複雜報告走 Supervisor → 並行研究扇出 + 品質保障流水線（審核 → 人工 → 發布）。

模式	適用場景	關鍵風險
順序流水線	固定依賴步驟	延遲累加
並行扇出	獨立子任務、降延遲	分支同步（LangGraph 用 `defer=True`）
階層主管	動態路由、多專業領域	路由錯誤級聯
Swarm	多輪辯論	無限迴圈、成本失控
黑板	長時非同步	狀態一致性
混合	企業內容平台	過度設計

04

主流框架橫向對比：LangGraph vs CrewAI vs AutoGen

維度	LangGraph	CrewAI	AutoGen
架構範式	狀態機圖	角色制團隊	對話式多 Agent
狀態管理	原生支援	需自行實作	有限
Human-in-the-Loop	原生 `interrupt()`	需自行實作	支援
可觀測性	LangSmith	有限	Azure Monitor
生產就緒度	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
快速原型	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
最佳場景	複雜有狀態工作流	角色制內容流水線	對話式協作/辯論

選型速記：金融/醫療/合規 → LangGraph；1–2 天驗證 Idea → CrewAI；Azure 技術棧 + 多輪辯論 → AutoGen。

05

通訊協定雙層架構：MCP + A2A

2026 年，兩者均已納入 Linux Foundation Agentic AI Foundation：

MCP（垂直）：Agent ↔ 工具/資料庫/API——「寫一次，到處用」。
A2A（水平）：Agent ↔ Agent——任務委託、能力發現（Agent Card @ /.well-known/agent.json）、JSON-RPC 2.0。

A2A 由 Google 2025 年 4 月開源，2026 年初 v1.0，已有 Atlassian、Salesforce、SAP 等 50+ 合作夥伴。Orchestrator 流程：取得 Agent Card → 驗證技能 → message/send 委託任務。

站內延伸閱讀：MCP 為何成為 AI 時代的 HTTP、從零開發 MCP Server。

06

生產級工程實踐

01
狀態持久化：LangGraph PostgresSaver 檢查點，thread_id 跨程序恢復。
02
Human-in-the-Loop：interrupt() 在高風險操作前暫停，等待人工確認。
03
熔斷器：CLOSED/OPEN/HALF_OPEN 三態，失敗閾值觸發熔斷以保護下游 Agent。
04
Token 預算：TokenBudgetManager 在呼叫前檢查剩餘預算，防止單任務費用暴漲。
05
硬性上限：MAX_ITERATIONS=10、MAX_TOOL_CALLS_PER_AGENT=20、MAX_TOTAL_TOKENS=50_000；高代價工具前 interrupt_before。

07

可觀測性：讓黑盒變透明

MAST 研究團隊分析 1,642 條執行追蹤，故障分布如下；更令人擔憂的是：57% 組織已有 Agent 在生產運行，僅 8% 完成 LLM 可觀測性實施——錯誤常以 HTTP 200 回傳，儀表板全綠但輸出錯誤。

故障類型	占比	說明
系統設計問題	41.77%	步驟重複、工具選擇錯誤、上下文溢位、缺少終止條件
Agent 間不對齊	36.94%	交接上下文遺失、幻覺成為下一 Agent 的「事實」
任務驗證失敗	21.30%	過早終止、不完整驗證

核心指標：端到端成功率 >85%、P95 延遲 <30s、各 Agent 錯誤率 <5%；品質面以 LLM-as-Judge 評 completeness/accuracy/relevance/hallucination。每次 Agent 呼叫攜帶 correlation_id，OpenTelemetry 形成完整呼叫鏈。

08

常見踩坑與防坑指南

陷阱	現象	防坑
上下文污染	Agent A 幻覺傳給 B/C，HTTP 200 但結果錯	交接點 Schema + 置信度 >0.7 驗證
無限迴圈	幾分鐘 Token 費用漲百倍	硬性迭代/工具/Token 上限
過度工程	兩步鏈拆成 8 個 Agent	從流水線開始；最佳數量 3–8 個
Demo→生產鴻溝	邊緣輸入導致級聯失敗	輸入長度/注入偵測、PII 過濾、有害內容偵測
並行分支同步	LangGraph 慢分支未完成就重跑 Supervisor	`defer=True` 顯式同步屏障

09

選型決策樹

Q1
任務是否有明確線性依賴？是 → 子任務可並行？否 → 順序流水線；是 → 並行扇出+流水線混合。
Q2
否 → 是否有決策權威 Agent？是 → 規模需子團隊？否 → Supervisor-Worker；是 → 階層式。
Q3
否 → 長時非同步？是 → 黑板；否 → Agent ≤5 且終止明確？是 → Swarm（硬上限）；否 → 重構為階層。

10

總結與 2026 趨勢

五條核心回顧：① 編排拓撲 > 模型選擇；② 從順序流水線開始再加 Agent；③ MCP+A2A 是新標準；④ 可觀測性不是可選項；⑤ 生產 Agent 數量 3–8 個最佳。

2026 值得關注：聯邦編排（多團隊子編排器共享路由策略）、多模態多 Agent、自適應拓撲選擇（AdaptOrch 方向）、EU AI Act 強制決策稽核鏈。

遠端 Mac 上多 Agent 驗收五步

01
開通 VNC 遠端 Mac，確認 Python 3.11+ 與 Node 版本滿足框架要求。
02
在圖形工作階段中完成 macOS 隱私權限（螢幕錄製、輔助功能）——純 SSH 無法點選。
03
部署 LangGraph/CrewAI 最小流水線，驗證 Postgres 檢查點恢復。
04
啟動本機 MCP Server，在 Cursor/Claude Desktop 中完成工具發現與呼叫驗收。
05
對照 LangSmith/OpenTelemetry 追蹤，確認 correlation_id 貫穿全鏈路。

FAQ

可以：CrewAI 做快速角色原型，LangGraph 接管需要持久狀態與 HITL 的生產分支。注意統一 MCP 工具層，避免 N×M 重複整合。

OpenClaw Subagent/ACP 接近階層主管+黑板混合；v2026.5.18 的 spawn 註冊表與 completion handoff 對應本文「交接點驗證」要求。詳見站內 Subagent 實戰。

邏輯開發可在 Windows 完成，但 macOS 專屬 MCP（瀏覽器自動化、鑰匙圈）、OpenClaw GUI 授權與部分框架測試，仍建議租用 VNC 遠端 Mac 做圖形驗收。

結語

多 Agent 架構的核心紀律是：先選對拓撲，再談換模型。在筆電或 Linux VPS 上跑通 Demo 後，生產往往卡在三件事：macOS 權限彈窗、MCP Server 本機驗收，以及 57% vs 8% 的可觀測性鴻溝。

自購 Mac 要面對睡眠策略、系統更新中斷與折舊；低配機器則在並行扇出與 LangSmith 追蹤並存時容易記憶體告急。租用 VNC 遠端 Mac把線上率與基礎映像交給專業服務商，你仍掌握編排拓撲與金鑰面，卻能在與 Gateway 同機的圖形工作階段裡完成 MCP 與 OpenClaw 多 Agent 的按序驗收。

若你希望少押一台自有硬體、又要在遠端節點上跑通本文第五節與驗收五步，可透過 VNCMac 租用雲端 Mac：下方主按鈕進入購買頁；對比套餐請先瀏覽首頁。

多 Agent 協作架構實戰：從設計模式到生產落地