Wie viele Agents sind in Produktion optimal?

Erfahrungswerte: 3–8 Agents sind der Sweet Spot. Darüber übersteigt der Koordinationsaufwand oft den Nutzen — Hierarchisierung erwägen.

Was ist wichtiger: Orchestrierungstopologie oder Basismodell?

AdaptOrch (2026) zeigt: In Multi-Agent-Systemen beeinflusst die Topologiewahl die Performance stärker als das Basismodell — 12–23 % Verbesserung.

Was lösen MCP und A2A jeweils?

MCP ist die vertikale Schicht: Agent ↔ Tools/externe Systeme. A2A ist horizontal: Agent ↔ Agent für Task-Delegation und Capability Discovery.

Warum braucht Multi-Agent-Entwicklung einen VNC-Remote-Mac?

LangGraph/CrewAI/OpenClaw Multi-Agent brauchen macOS-Grafikrechte, Keychain, Browser-MCP und lokale MCP-Server-Abnahme — per SSH lassen sich TCC-Dialoge nicht bedienen.

Multi-Agent-Architektur in der Praxis: Designmuster bis Produktion

01

Warum ein einzelner Agent nicht reicht

Der „monolithische Agent“ — ein LLM für Retrieval, Coding und Review — ist im Prototyp trivial, scheitert in Produktion strukturell:

01
Kontextfenster-Engpass: Zwischenergebnisse füllen den Kontext, spätere Inferenzqualität bricht ein.
02
Verwässerte Expertise: Ein Agent für alles — nichts wirklich gut.
03
Serielle Ineffizienz: Gesamtzeit = Summe der Schritte, keine Parallelisierung.
04
Single Point of Failure: Ein Agent-Ausfall stoppt alles; unabhängig upgradebare Sub-Agents vermeiden das.

Laut MLflow-Bericht 2026 und AdaptOrch: Das Problem ist Orchestrierung, nicht das Modell — die richtige Topologie schlägt ein stärkeres Modell zuverlässiger.

02

Kernkonzept: Multi-Agent-Systeme (MAS)

Multi-Agent-System (MAS): Mehrere unabhängige AI-Agents kooperieren über klare Protokolle und Orchestrierung, um komplexe Aufgaben zu lösen, die ein einzelner Agent nicht effizient bewältigt.

Merkmal	Beschreibung
Rollenspezialisierung	Nur definierte Subtasks (Retrieval, Reasoning, Generierung, Validierung)
Tool-Zugang	Eigene Toolsets für die jeweilige Aufgabe
Status-Isolation	Eigener Kontext, keine Kontamination anderer Agents
Austauschbarkeit	Unabhängiges Upgrade/Ersatz ohne Gesamtausfall

Drei Steuerungsmodi

Modus	Vorteile	Nachteile
Zentral (Orchestrator)	Auditierbar, kontrollierbar	Einzelner Engpass
Dezentral (P2P)	Hohe Elastizität, niedrige Latenz	Schwer debugbar, nichtdeterministisch
Hierarchisch	Balance Kontrolle/Elastizität	Mittlere Designkomplexität

03

Sechs Orchestrierungs-Designmuster

Diese sechs Muster decken über 95 % der Multi-Agent-Szenarien in Produktion ab.

Muster 1: Sequentielle Pipeline

Agent A → Agent B, strikt linear. Für: Content-Erstellung, Code-Review, Compliance. Gesamtzeit = Summe; ein Fehler blockiert alles.

LangGraph · Sequentielle Pipeline

builder = StateGraph(PipelineState)
builder.add_node("retriever", retrieval_agent)
builder.add_node("analyzer", analysis_agent)
builder.add_node("writer", writer_agent)
builder.add_edge(START, "retriever")
builder.add_edge("retriever", "analyzer")
builder.add_edge("analyzer", "writer")
builder.add_edge("writer", END)
pipeline = builder.compile()

Muster 2: Fan-out / Fan-in

Parallele Subtasks, Merge-Knoten. Gesamtzeit ≈ max(T1…Tn). LangGraph Send API + Annotated[list, operator.add] Reducer.

Muster 3: Supervisor-Worker

Supervisor für Intent und Routing, Worker für Fachaufgaben. Zweistufiges Routing: Keyword-Fast-Path (<1 ms) + LLM für vage Intents. Beispiele: Replit, Support-Bots.

Muster 4: Swarm

P2P ohne Zentralsteuerung, Stopp per Runden/Timeout. Für Debatten; in Produktion vorsichtig — hohe Nichtdeterministik. AutoGen GroupChat braucht hartes max_round.

Muster 5: Blackboard

Gemeinsamer strukturierter Workspace; Agents lesen/schreiben bei erfüllten Vorbedingungen. Für stunden-/tagelange async Workflows.

Muster 6: Hybrid

Typisch: Intent-Routing → einfache Queries direkt / komplexe Reports via Supervisor → parallele Recherche + QA-Pipeline (Review → Human → Publish).

Muster	Einsatz	Risiko
Pipeline	Feste Abhängigkeiten	Latenz summiert sich
Fan-out	Unabhängige Subtasks	Branch-Sync (`defer=True`)
Supervisor	Dynamisches Routing	Routing-Fehler kaskadieren
Swarm	Mehr-Runden-Debatten	Endlosschleifen, Kosten
Blackboard	Lang async	State-Konsistenz
Hybrid	Enterprise-Content	Over-Engineering

04

Framework-Vergleich: LangGraph vs CrewAI vs AutoGen

Dimension	LangGraph	CrewAI	AutoGen
Paradigma	State-Machine-Graph	Rollenbasiertes Team	Dialog-Multi-Agent
State	Nativ	Selbst bauen	Begrenzt
Human-in-the-Loop	`interrupt()` nativ	Selbst bauen	Unterstützt
Observability	LangSmith	Begrenzt	Azure Monitor
Produktionsreife	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
Schneller Prototyp	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Beste für	Komplexe Stateful Workflows	Rollen-Content-Pipelines	Dialog/Debatten

Kurzwahl: Finanz/Medizin/Compliance → LangGraph; Idea in 1–2 Tagen → CrewAI; Azure + Debatten → AutoGen.

05

Zwei-Schichten-Protokolle: MCP + A2A

2026 sind beide in der Linux Foundation Agentic AI Foundation:

MCP (vertikal): Agent ↔ Tools/DB/API — „einmal schreiben, überall nutzen“.
A2A (horizontal): Agent ↔ Agent — Delegation, Capability Discovery (Agent Card @ /.well-known/agent.json), JSON-RPC 2.0.

A2A: Google OSS April 2025, v1.0 Anfang 2026, 50+ Partner (Atlassian, Salesforce, SAP). Orchestrator: Agent Card holen → Skills prüfen → message/send.

Weiterlesen: Warum MCP das HTTP der KI-Ära ist, MCP Server von null entwickeln.

06

Produktions-Engineering

01
State-Persistenz: LangGraph PostgresSaver, thread_id für Recovery über Prozesse.
02
Human-in-the-Loop: interrupt() vor Hochrisiko-Aktionen.
03
Circuit Breaker: CLOSED/OPEN/HALF_OPEN schützt Downstream-Agents.
04
Token-Budget: TokenBudgetManager prüft vor Calls.
05
Harte Limits: MAX_ITERATIONS=10, MAX_TOOL_CALLS_PER_AGENT=20, MAX_TOTAL_TOKENS=50_000; interrupt_before bei teuren Tools.

07

Observability: Die Blackbox öffnen

MAST analysierte 1.642 Traces. Besorgniserregend: 57 % der Organisationen betreiben Agents in Produktion, nur 8 % haben LLM-Observability — Fehler kommen als HTTP 200, Dashboards grün, Output falsch.

Fehlertyp	Anteil	Erklärung
Systemdesign	41,77 %	Doppelte Schritte, falsche Tools, Context Overflow, fehlende Stop-Bedingung
Agent-Mismatch	36,94 %	Verlorener Handoff-Kontext, Halluzination wird „Fakt“
Validierung	21,30 %	Früher Abbruch, unvollständige Prüfung

Kernmetriken: E2E-Erfolg >85 %, P95 <30 s, Agent-Fehler <5 %; Qualität via LLM-as-Judge. Jeder Call mit correlation_id, OpenTelemetry für die volle Kette.

08

Typische Fallen und Gegenmaßnahmen

Falle	Symptom	Gegenmaßnahme
Kontext-Kontamination	Halluzination A→B/C, HTTP 200, falsches Ergebnis	Handoff-Schema + Konfidenz >0,7
Endlosschleife	Token-Kosten ×100 in Minuten	Harte Iterations-/Tool-/Token-Limits
Over-Engineering	2 Schritte → 8 Agents	Mit Pipeline starten; Sweet Spot 3–8
Demo→Prod-Gap	Edge-Input kaskadiert	Längen-/Injection-Checks, PII, Harm Detection
Parallel-Sync	LangGraph: langsamer Branch, Supervisor läuft weiter	`defer=True` Barrier

09

Entscheidungsbaum

Q1
Lineare Abhängigkeit? Ja → Subtasks parallel? Nein → Pipeline; Ja → Fan-out + Pipeline.
Q2
Nein → Entscheidungs-Agent? Ja → Subteams nötig? Nein → Supervisor-Worker; Ja → Hierarchisch.
Q3
Nein → Lang async? Ja → Blackboard; Nein → ≤5 Agents, klares Ende? Ja → Swarm (Limits); Nein → Hierarchisch umbauen.

10

Fazit und Trends 2026

Fünf Kernaussagen: ① Topologie > Modell; ② Mit Pipeline starten; ③ MCP+A2A ist Standard; ④ Observability ist Pflicht; ⑤ 3–8 Agents optimal.

2026 beobachten: Föderierte Orchestrierung, multimodale Multi-Agents, adaptive Topologiewahl (AdaptOrch), EU AI Act Audit-Ketten.

Fünf Schritte: Multi-Agent-Abnahme auf Remote-Mac

01
VNC-Remote-Mac bereitstellen; Python 3.11+ und Node-Versionen prüfen.
02
macOS-Datenschutz (Bildschirmaufnahme, Bedienungshilfen) in grafischer Session — SSH reicht nicht.
03
Minimale LangGraph/CrewAI-Pipeline deployen; Postgres-Checkpoint-Recovery testen.
04
Lokalen MCP-Server starten; Tool-Discovery in Cursor/Claude Desktop abnehmen.
05
LangSmith/OpenTelemetry: correlation_id durch die gesamte Kette.

FAQ

Ja: CrewAI für schnelle Rollen-Prototypen, LangGraph für produktive Zweige mit Persistenz und HITL. MCP-Tool-Schicht vereinheitlichen, um N×M-Integrationen zu vermeiden.

OpenClaw Subagent/ACP entspricht Supervisor+Blackboard-Hybrid; v2026.5.18 Spawn-Registry und Completion-Handoff decken Handoff-Validierung ab. Siehe Subagent-Praxis.

Logik-Entwicklung ja; macOS-MCP (Browser, Keychain), OpenClaw-GUI-Freigaben und manche Framework-Tests brauchen VNC-Remote-Mac für grafische Abnahme.

Schlusswort

Disziplin bei Multi-Agent: erst Topologie, dann Modell. Nach dem Demo auf Laptop/VPS scheitert Produktion oft an macOS-TCC, lokaler MCP-Abnahme und der Observability-Lücke (57 % vs. 8 %).

Eigener Mac: Sleep, OS-Updates, Abschreibung; schwache Hardware kämpft bei Fan-out plus LangSmith. VNC-Remote-Mac mieten überlässt Uptime und Base-Image dem Anbieter — Sie behalten Topologie und Keys, prüfen MCP/OpenClaw im Gateway-Desktop.

Ohne extra Hardware Abschnitt 5 und die fünf Abnahmeschritte auf einem Remote-Knoten? VNCMac Cloud-Mac — Hauptbutton zur Preisseite, Pakete auf der Startseite.

Multi-Agent-Architektur in der Praxis:Von Designmustern bis Produktion