Sechs Orchestrierungsmuster · Framework-Wahl · Protokolle · Observability · Fallen · Entscheidungsbaum
AI-Ingenieure und Architekten, die 2024–2025 Agents in Produktion brachten, merkten schnell: alle Aufgaben in einen LLM-Agent zu packen, lässt Systeme bei Skalierung kollabieren. Googles interner Agent Bake-Off zeigte: verteilte Multi-Agent-Architekturen verkürzten die Laufzeit von 1 Stunde auf 10 Minuten (6×); AdaptOrch (2026) belegt, dass die Orchestrierungstopologie stärker wirkt als die Modellwahl (12–23 % Performance-Differenz). Dieser Leitfaden deckt ab: Single-Agent-Grenzen → MAS-Kernkonzepte → sechs Orchestrierungsmuster (mit Code) → LangGraph/CrewAI/AutoGen → MCP+A2A → Produktionsengineering → MAST-Observability → vier Fallen → Entscheidungsbaum → Trends 2026 — plus warum VNC-Remote-Mac für Multi-Agent- und MCP-Abnahme in grafischen Sessions nötig ist.
Der „monolithische Agent“ — ein LLM für Retrieval, Coding und Review — ist im Prototyp trivial, scheitert in Produktion strukturell:
Kontextfenster-Engpass: Zwischenergebnisse füllen den Kontext, spätere Inferenzqualität bricht ein.
Verwässerte Expertise: Ein Agent für alles — nichts wirklich gut.
Serielle Ineffizienz: Gesamtzeit = Summe der Schritte, keine Parallelisierung.
Single Point of Failure: Ein Agent-Ausfall stoppt alles; unabhängig upgradebare Sub-Agents vermeiden das.
Laut MLflow-Bericht 2026 und AdaptOrch: Das Problem ist Orchestrierung, nicht das Modell — die richtige Topologie schlägt ein stärkeres Modell zuverlässiger.
Multi-Agent-System (MAS): Mehrere unabhängige AI-Agents kooperieren über klare Protokolle und Orchestrierung, um komplexe Aufgaben zu lösen, die ein einzelner Agent nicht effizient bewältigt.
| Merkmal | Beschreibung |
|---|---|
| Rollenspezialisierung | Nur definierte Subtasks (Retrieval, Reasoning, Generierung, Validierung) |
| Tool-Zugang | Eigene Toolsets für die jeweilige Aufgabe |
| Status-Isolation | Eigener Kontext, keine Kontamination anderer Agents |
| Austauschbarkeit | Unabhängiges Upgrade/Ersatz ohne Gesamtausfall |
| Modus | Vorteile | Nachteile |
|---|---|---|
| Zentral (Orchestrator) | Auditierbar, kontrollierbar | Einzelner Engpass |
| Dezentral (P2P) | Hohe Elastizität, niedrige Latenz | Schwer debugbar, nichtdeterministisch |
| Hierarchisch | Balance Kontrolle/Elastizität | Mittlere Designkomplexität |
Diese sechs Muster decken über 95 % der Multi-Agent-Szenarien in Produktion ab.
Agent A → Agent B, strikt linear. Für: Content-Erstellung, Code-Review, Compliance. Gesamtzeit = Summe; ein Fehler blockiert alles.
builder = StateGraph(PipelineState)
builder.add_node("retriever", retrieval_agent)
builder.add_node("analyzer", analysis_agent)
builder.add_node("writer", writer_agent)
builder.add_edge(START, "retriever")
builder.add_edge("retriever", "analyzer")
builder.add_edge("analyzer", "writer")
builder.add_edge("writer", END)
pipeline = builder.compile()Parallele Subtasks, Merge-Knoten. Gesamtzeit ≈ max(T1…Tn). LangGraph Send API + Annotated[list, operator.add] Reducer.
Supervisor für Intent und Routing, Worker für Fachaufgaben. Zweistufiges Routing: Keyword-Fast-Path (<1 ms) + LLM für vage Intents. Beispiele: Replit, Support-Bots.
P2P ohne Zentralsteuerung, Stopp per Runden/Timeout. Für Debatten; in Produktion vorsichtig — hohe Nichtdeterministik. AutoGen GroupChat braucht hartes max_round.
Gemeinsamer strukturierter Workspace; Agents lesen/schreiben bei erfüllten Vorbedingungen. Für stunden-/tagelange async Workflows.
Typisch: Intent-Routing → einfache Queries direkt / komplexe Reports via Supervisor → parallele Recherche + QA-Pipeline (Review → Human → Publish).
| Muster | Einsatz | Risiko |
|---|---|---|
| Pipeline | Feste Abhängigkeiten | Latenz summiert sich |
| Fan-out | Unabhängige Subtasks | Branch-Sync (defer=True) |
| Supervisor | Dynamisches Routing | Routing-Fehler kaskadieren |
| Swarm | Mehr-Runden-Debatten | Endlosschleifen, Kosten |
| Blackboard | Lang async | State-Konsistenz |
| Hybrid | Enterprise-Content | Over-Engineering |
| Dimension | LangGraph | CrewAI | AutoGen |
|---|---|---|---|
| Paradigma | State-Machine-Graph | Rollenbasiertes Team | Dialog-Multi-Agent |
| State | Nativ | Selbst bauen | Begrenzt |
| Human-in-the-Loop | interrupt() nativ | Selbst bauen | Unterstützt |
| Observability | LangSmith | Begrenzt | Azure Monitor |
| Produktionsreife | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| Schneller Prototyp | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Beste für | Komplexe Stateful Workflows | Rollen-Content-Pipelines | Dialog/Debatten |
Kurzwahl: Finanz/Medizin/Compliance → LangGraph; Idea in 1–2 Tagen → CrewAI; Azure + Debatten → AutoGen.
2026 sind beide in der Linux Foundation Agentic AI Foundation:
/.well-known/agent.json), JSON-RPC 2.0.A2A: Google OSS April 2025, v1.0 Anfang 2026, 50+ Partner (Atlassian, Salesforce, SAP). Orchestrator: Agent Card holen → Skills prüfen → message/send.
Weiterlesen: Warum MCP das HTTP der KI-Ära ist, MCP Server von null entwickeln.
State-Persistenz: LangGraph PostgresSaver, thread_id für Recovery über Prozesse.
Human-in-the-Loop: interrupt() vor Hochrisiko-Aktionen.
Circuit Breaker: CLOSED/OPEN/HALF_OPEN schützt Downstream-Agents.
Token-Budget: TokenBudgetManager prüft vor Calls.
Harte Limits: MAX_ITERATIONS=10, MAX_TOOL_CALLS_PER_AGENT=20, MAX_TOTAL_TOKENS=50_000; interrupt_before bei teuren Tools.
MAST analysierte 1.642 Traces. Besorgniserregend: 57 % der Organisationen betreiben Agents in Produktion, nur 8 % haben LLM-Observability — Fehler kommen als HTTP 200, Dashboards grün, Output falsch.
| Fehlertyp | Anteil | Erklärung |
|---|---|---|
| Systemdesign | 41,77 % | Doppelte Schritte, falsche Tools, Context Overflow, fehlende Stop-Bedingung |
| Agent-Mismatch | 36,94 % | Verlorener Handoff-Kontext, Halluzination wird „Fakt“ |
| Validierung | 21,30 % | Früher Abbruch, unvollständige Prüfung |
Kernmetriken: E2E-Erfolg >85 %, P95 <30 s, Agent-Fehler <5 %; Qualität via LLM-as-Judge. Jeder Call mit correlation_id, OpenTelemetry für die volle Kette.
| Falle | Symptom | Gegenmaßnahme |
|---|---|---|
| Kontext-Kontamination | Halluzination A→B/C, HTTP 200, falsches Ergebnis | Handoff-Schema + Konfidenz >0,7 |
| Endlosschleife | Token-Kosten ×100 in Minuten | Harte Iterations-/Tool-/Token-Limits |
| Over-Engineering | 2 Schritte → 8 Agents | Mit Pipeline starten; Sweet Spot 3–8 |
| Demo→Prod-Gap | Edge-Input kaskadiert | Längen-/Injection-Checks, PII, Harm Detection |
| Parallel-Sync | LangGraph: langsamer Branch, Supervisor läuft weiter | defer=True Barrier |
Lineare Abhängigkeit? Ja → Subtasks parallel? Nein → Pipeline; Ja → Fan-out + Pipeline.
Nein → Entscheidungs-Agent? Ja → Subteams nötig? Nein → Supervisor-Worker; Ja → Hierarchisch.
Nein → Lang async? Ja → Blackboard; Nein → ≤5 Agents, klares Ende? Ja → Swarm (Limits); Nein → Hierarchisch umbauen.
Fünf Kernaussagen: ① Topologie > Modell; ② Mit Pipeline starten; ③ MCP+A2A ist Standard; ④ Observability ist Pflicht; ⑤ 3–8 Agents optimal.
2026 beobachten: Föderierte Orchestrierung, multimodale Multi-Agents, adaptive Topologiewahl (AdaptOrch), EU AI Act Audit-Ketten.
VNC-Remote-Mac bereitstellen; Python 3.11+ und Node-Versionen prüfen.
macOS-Datenschutz (Bildschirmaufnahme, Bedienungshilfen) in grafischer Session — SSH reicht nicht.
Minimale LangGraph/CrewAI-Pipeline deployen; Postgres-Checkpoint-Recovery testen.
Lokalen MCP-Server starten; Tool-Discovery in Cursor/Claude Desktop abnehmen.
LangSmith/OpenTelemetry: correlation_id durch die gesamte Kette.
Ja: CrewAI für schnelle Rollen-Prototypen, LangGraph für produktive Zweige mit Persistenz und HITL. MCP-Tool-Schicht vereinheitlichen, um N×M-Integrationen zu vermeiden.
OpenClaw Subagent/ACP entspricht Supervisor+Blackboard-Hybrid; v2026.5.18 Spawn-Registry und Completion-Handoff decken Handoff-Validierung ab. Siehe Subagent-Praxis.
Logik-Entwicklung ja; macOS-MCP (Browser, Keychain), OpenClaw-GUI-Freigaben und manche Framework-Tests brauchen VNC-Remote-Mac für grafische Abnahme.
Disziplin bei Multi-Agent: erst Topologie, dann Modell. Nach dem Demo auf Laptop/VPS scheitert Produktion oft an macOS-TCC, lokaler MCP-Abnahme und der Observability-Lücke (57 % vs. 8 %).
Eigener Mac: Sleep, OS-Updates, Abschreibung; schwache Hardware kämpft bei Fan-out plus LangSmith. VNC-Remote-Mac mieten überlässt Uptime und Base-Image dem Anbieter — Sie behalten Topologie und Keys, prüfen MCP/OpenClaw im Gateway-Desktop.
Ohne extra Hardware Abschnitt 5 und die fünf Abnahmeschritte auf einem Remote-Knoten? VNCMac Cloud-Mac — Hauptbutton zur Preisseite, Pakete auf der Startseite.