Сколько агентов оптимально в продакшене?

Практика показывает 3–8 агентов как sweet spot. Больше — накладные расходы координации часто превышают выгоду, нужна иерархия.

Что важнее: топология оркестрации или базовая модель?

AdaptOrch (2026): в мультиагентных системах выбор топологии влияет на производительность сильнее модели — прирост 12–23%.

Что решают MCP и A2A?

MCP — вертикальный слой: агент ↔ инструменты/внешние системы. A2A — горизонтальный: агент ↔ агент для делегирования и discovery.

Зачем VNC удалённый Mac для мультиагентной разработки?

LangGraph/CrewAI/OpenClaw требуют графических прав macOS, Keychain, браузерного MCP и приёмки локального MCP Server — через SSH диалоги TCC не нажать.

Мультиагентная архитектура на практике: от паттернов до продакшена

01

Почему одного агента недостаточно

«Монолитный агент» — один LLM на retrieval, код и ревью — легко прототипируется, но структурно ломается в продакшене:

01
Узкое место контекста: промежуточные результаты заполняют окно, качество рассуждений падает.
02
Размытая экспертиза: один агент на всё — нигде не силён.
03
Последовательное выполнение: общее время = сумма шагов, без параллелизма.
04
Единая точка отказа: сбой одного агента останавливает всё; независимые sub-agent'ы это обходят.

По отчёту MLflow 2026 и AdaptOrch: проблема в оркестрации, не в модели — правильная топология надёжнее смены модели.

02

Ключевая концепция: мультиагентные системы (MAS)

Мультиагентная система (MAS): несколько независимых AI-агентов сотрудничают через явные протоколы и оркестрацию для задач, которые один агент не тянет эффективно.

Характеристика	Описание
Специализация ролей	Чёткие подзадачи: retrieval, reasoning, генерация, валидация
Доступ к инструментам	Свой набор tools под задачу
Изоляция состояния	Свой контекст, без загрязнения других агентов
Заменяемость	Независимое обновление/замена без остановки всего

Три режима управления

Режим	Плюсы	Минусы
Централизованный (Orchestrator)	Аудируем, контролируем	Единое узкое место
Децентрализованный (P2P)	Эластичность, низкая задержка	Сложный debug, недетерминизм
Иерархический	Баланс контроля и эластичности	Средняя сложность дизайна

03

Шесть паттернов оркестрации

Эти шесть паттернов покрывают более 95% продакшен-сценариев мультиагентов.

Паттерн 1: последовательный pipeline

Выход A → вход B, строго линейно. Статьи, code review, compliance. Время = сумма; сбой шага блокирует всё.

LangGraph · последовательный pipeline

builder = StateGraph(PipelineState)
builder.add_node("retriever", retrieval_agent)
builder.add_node("analyzer", analysis_agent)
builder.add_node("writer", writer_agent)
builder.add_edge(START, "retriever")
builder.add_edge("retriever", "analyzer")
builder.add_edge("analyzer", "writer")
builder.add_edge("writer", END)
pipeline = builder.compile()

Паттерн 2: fan-out / fan-in

Параллельные подзадачи, узел слияния. Время ≈ max(T1…Tn). LangGraph Send API + Reducer Annotated[list, operator.add].

Паттерн 3: supervisor-worker

Supervisor для intent и маршрутизации, worker'ы для экспертных задач. Двухуровневый routing: keyword fast path (<1 ms) + LLM для неясных intent'ов. Replit, поддержка.

Паттерн 4: swarm

P2P без центра, стоп по раундам/timeout. Дебаты ревью; в продакшене осторожно — высокий недетерминизм. AutoGen GroupChat требует жёсткий max_round.

Паттерн 5: blackboard

Общее структурированное пространство; агенты читают/пишут при выполнении предусловий. Долгие async-процессы, гетерогенные команды.

Паттерн 6: hybrid

Типично: intent routing → простые запросы напрямую / сложные отчёты через supervisor → параллельный research + QA pipeline (review → human → publish).

Паттерн	Сценарий	Риск
Pipeline	Фиксированные зависимости	Накопление latency
Fan-out	Независимые подзадачи	Синхрон веток (`defer=True`)
Supervisor	Динамический routing	Каскад ошибок routing
Swarm	Многораундовые дебаты	Бесконечные циклы, cost
Blackboard	Долгий async	Консистентность state
Hybrid	Enterprise content	Over-engineering

04

Сравнение фреймворков: LangGraph vs CrewAI vs AutoGen

Измерение	LangGraph	CrewAI	AutoGen
Парадигма	Граф state machine	Команда по ролям	Диалоговые мультиагенты
State	Нативно	Самостоятельно	Ограничено
Human-in-the-Loop	Нативный `interrupt()`	Самостоятельно	Поддерживается
Observability	LangSmith	Ограничено	Azure Monitor
Готовность к prod	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
Быстрый прототип	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Лучше для	Сложные stateful WF	Контент-pipeline по ролям	Диалог/дебаты

Краткий выбор: финансы/медицина/compliance → LangGraph; идея за 1–2 дня → CrewAI; Azure + дебаты → AutoGen.

05

Двухслойные протоколы: MCP + A2A

В 2026 оба входят в Linux Foundation Agentic AI Foundation:

MCP (вертикаль): агент ↔ tools/БД/API — «написал один раз — используй везде».
A2A (горизонталь): агент ↔ агент — делегирование, discovery (Agent Card @ /.well-known/agent.json), JSON-RPC 2.0.

A2A: Google OSS апрель 2025, v1.0 начало 2026, 50+ партнёров. Orchestrator: получить Agent Card → проверить skills → message/send.

Читать также: Почему MCP — HTTP эпохи ИИ, Разработка MCP Server с нуля.

06

Инженерия продакшена

01
Персистентность state: LangGraph PostgresSaver, thread_id для recovery между процессами.
02
Human-in-the-Loop: interrupt() перед высокорисковыми действиями.
03
Circuit breaker: CLOSED/OPEN/HALF_OPEN защищает downstream-агентов.
04
Token budget: TokenBudgetManager проверяет перед вызовами.
05
Жёсткие лимиты: MAX_ITERATIONS=10, MAX_TOOL_CALLS_PER_AGENT=20, MAX_TOTAL_TOKENS=50_000; interrupt_before для дорогих tools.

07

Observability: из чёрного ящика — в прозрачность

MAST проанализировал 1 642 trace. Тревожнее: 57% организаций уже в prod с агентами, только 8% внедрили LLM observability — ошибки с HTTP 200, дашборды зелёные, вывод неверный.

Тип сбоя	Доля	Пояснение
Дизайн системы	41,77%	Дубли шагов, неверные tools, overflow контекста, нет stop condition
Рассинхрон агентов	36,94%	Потеря handoff-контекста, галлюцинация становится «фактом»
Сбой валидации	21,30%	Ранний выход, неполная проверка

Ключевые метрики: E2E success >85%, P95 <30 s, error rate агента <5%; качество через LLM-as-Judge. Каждый вызов с correlation_id, полная цепочка OpenTelemetry.

08

Типичные ловушки и защита

Ловушка	Симптом	Защита
Загрязнение контекста	Галлюцинация A→B/C, HTTP 200, неверный результат	Handoff schema + confidence >0,7
Бесконечный цикл	Cost tokens ×100 за минуты	Жёсткие лимиты iterations/tools/tokens
Over-engineering	2 шага → 8 агентов	С pipeline; sweet spot 3–8
Demo→prod gap	Edge input каскадирует	Длина/injection, PII, harmful content
Синхрон параллели	LangGraph: медленная ветка, supervisor перезапускается	Барьер `defer=True`

09

Дерево решений

Q1
Есть явная линейная зависимость? Да → подзадачи параллельны? Нет → pipeline; да → fan-out + pipeline.
Q2
Нет → есть агент-решатель? Да → нужны sub-команды? Нет → supervisor-worker; да → иерархия.
Q3
Нет → долгий async? Да → blackboard; нет → ≤5 агентов, ясный stop? да → swarm (лимиты); нет → перестроить в иерархию.

10

Итог и тренды 2026

Пять тезисов: ① топология > модель; ② начинать с pipeline; ③ MCP+A2A — стандарт; ④ observability обязательна; ⑤ 3–8 агентов оптимально.

Смотреть в 2026: федеративная оркестрация, мультимодальные мультиагенты, адаптивный выбор топологии (AdaptOrch), audit chains EU AI Act.

Пять шагов приёмки мультиагентов на удалённом Mac

01
Развернуть VNC удалённый Mac; проверить Python 3.11+ и версии Node.
02
Разрешения macOS (запись экрана, универсальный доступ) в графической сессии — SSH недостаточно.
03
Минимальный pipeline LangGraph/CrewAI; проверить recovery checkpoint Postgres.
04
Запустить локальный MCP Server; приёмка discovery и вызовов в Cursor/Claude Desktop.
05
Traces LangSmith/OpenTelemetry: correlation_id через всю цепочку.

FAQ

Да: CrewAI для быстрых role-прототипов, LangGraph для prod-веток с персистентным state и HITL. Унифицируйте слой MCP tools, чтобы избежать N×M интеграций.

OpenClaw Subagent/ACP близок к hybrid supervisor+blackboard; spawn registry v2026.5.18 и completion handoff = валидация handoff. См. практика Subagent.

Логику — да; macOS MCP (браузер, Keychain), GUI-авторизация OpenClaw и часть тестов фреймворков требуют VNC удалённого Mac для графической приёмки.

Заключение

Дисциплина мультиагентов: сначала топология, потом модель. После demo на laptop/VPS prod часто упирается в TCC macOS, локальную приёмку MCP и разрыв observability (57% vs 8%).

Свой Mac: sleep, обновления ОС, амортизация; слабое железо не тянет fan-out + LangSmith. Аренда VNC удалённого Mac отдаёт uptime и base image провайдеру — топология и ключи у вас, MCP/OpenClaw проверяете на desktop Gateway.

Без лишнего железа — раздел 5 и пять шагов на удалённом узле? VNCMac — основная кнопка на тарифы, пакеты на главной.

Мультиагентная архитектура на практике:от паттернов до продакшена