Six modèles d'orchestration · choix de framework · protocoles · observabilité · pièges · arbre de décision
Les ingénieurs IA et architectes qui ont poussé les agents en production en 2024–2025 ont vite constaté : concentrer toutes les tâches dans un seul agent LLM fait s'effondrer le système à l'échelle. Le Agent Bake-Off interne de Google montre que l'architecture multi-agents distribuée réduit le temps de traitement de 1 heure à 10 minutes (×6) ; AdaptOrch (2026) prouve que la topologie d'orchestration pèse plus que le choix du modèle (12–23 % d'écart). Ce guide couvre : limites de l'agent unique → concepts MAS → six patterns (avec code) → LangGraph/CrewAI/AutoGen → MCP+A2A → ingénierie production → observabilité MAST → quatre pièges → arbre de décision → tendances 2026, et pourquoi un Mac distant VNC est indispensable pour valider multi-agents et MCP en session graphique.
L'« agent monolithique » — un LLM pour retrieval, code et revue — se prototype facilement mais échoue structurellement en production :
Plafond de contexte : les résultats intermédiaires saturent la fenêtre, la qualité de raisonnement chute.
Expertise diluée : un agent fait tout, rien excellemment.
Exécution séquentielle : temps total = somme des étapes, pas de parallélisme.
Point de défaillance unique : un agent en panne stoppe tout ; des sous-agents remplaçables l'évitent.
Selon MLflow 2026 et AdaptOrch : le problème est l'orchestration, pas le modèle — la bonne topologie bat un modèle plus puissant de façon plus fiable.
Système multi-agents (MAS) : plusieurs agents IA indépendants collaborent via protocoles et orchestration explicites pour accomplir des tâches qu'un agent seul ne gère pas efficacement.
| Caractéristique | Description |
|---|---|
| Spécialisation des rôles | Sous-tâches définies (retrieval, raisonnement, génération, validation) |
| Accès aux outils | Ensemble d'outils dédié à sa mission |
| Isolation d'état | Contexte propre, sans pollution des autres agents |
| Remplaçabilité | Mise à niveau ou remplacement indépendant |
| Mode | Avantages | Inconvénients |
|---|---|---|
| Centralisé (Orchestrator) | Auditable, contrôlable | Goulot unique |
| Décentralisé (P2P) | Élasticité, faible latence | Debug difficile, non déterministe |
| Hiérarchique | Équilibre contrôle/élasticité | Complexité modérée |
Ces six patterns couvrent plus de 95 % des scénarios multi-agents en production.
Sortie A → entrée B, linéaire strict. Cas : rédaction, revue de code, conformité. Temps total = somme ; une étape en échec bloque tout.
builder = StateGraph(PipelineState)
builder.add_node("retriever", retrieval_agent)
builder.add_node("analyzer", analysis_agent)
builder.add_node("writer", writer_agent)
builder.add_edge(START, "retriever")
builder.add_edge("retriever", "analyzer")
builder.add_edge("analyzer", "writer")
builder.add_edge("writer", END)
pipeline = builder.compile()Sous-tâches parallèles, nœud de fusion. Temps ≈ max(T1…Tn). LangGraph Send API + Reducer Annotated[list, operator.add].
Supervisor pour intent et routage, workers spécialisés. Double routage : voie rapide mots-clés (<1 ms) + LLM pour intents flous. Ex. : Replit, support client.
Passage P2P sans coordinateur central, arrêt par tours/timeout. Débats de revue ; prudence en prod — forte non-déterminisme. AutoGen GroupChat : plafond max_round obligatoire.
Espace partagé structuré ; agents lisent/écrivent quand les prérequis sont remplis. Workflows async longs, équipes hétérogènes.
Typique : routage d'intent → requêtes simples directes / rapports complexes via supervisor → recherche parallèle + pipeline QA (revue → humain → publication).
| Pattern | Usage | Risque |
|---|---|---|
| Pipeline | Dépendances fixes | Latence cumulée |
| Fan-out | Sous-tâches indépendantes | Sync branches (defer=True) |
| Supervisor | Routage dynamique | Erreurs en cascade |
| Swarm | Débats multi-tours | Boucles, coûts |
| Blackboard | Async long | Cohérence d'état |
| Hybride | Plateformes contenu | Sur-ingénierie |
| Dimension | LangGraph | CrewAI | AutoGen |
|---|---|---|---|
| Paradigme | Graphe à états | Équipe par rôles | Multi-agents dialogués |
| État | Natif | À implémenter | Limité |
| Human-in-the-Loop | interrupt() natif | À implémenter | Supporté |
| Observabilité | LangSmith | Limitée | Azure Monitor |
| Prêt production | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| Prototype rapide | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Meilleur pour | Workflows stateful complexes | Pipelines contenu par rôles | Collaboration/débats |
Raccourci : finance/santé/conformité → LangGraph ; idée en 1–2 jours → CrewAI ; stack Azure + débats → AutoGen.
En 2026, les deux relèvent de la Linux Foundation Agentic AI Foundation :
/.well-known/agent.json), JSON-RPC 2.0.A2A : open source Google avril 2025, v1.0 début 2026, 50+ partenaires. Flux orchestrator : récupérer Agent Card → valider skills → message/send.
À lire : Pourquoi MCP est le HTTP de l'ère IA, Développer un MCP Server from scratch.
Persistance d'état : checkpoints LangGraph PostgresSaver, thread_id inter-processus.
Human-in-the-Loop : interrupt() avant actions à haut risque.
Circuit breaker : états CLOSED/OPEN/HALF_OPEN protègent les agents aval.
Budget tokens : TokenBudgetManager vérifie avant chaque appel.
Plafonds durs : MAX_ITERATIONS=10, MAX_TOOL_CALLS_PER_AGENT=20, MAX_TOTAL_TOKENS=50_000 ; interrupt_before sur outils coûteux.
MAST a analysé 1 642 traces. Plus inquiétant : 57 % des organisations ont des agents en prod, seulement 8 % ont implémenté l'observabilité LLM — erreurs en HTTP 200, tableaux de bord verts, sortie fausse.
| Type de panne | Part | Explication |
|---|---|---|
| Conception système | 41,77 % | Étapes dupliquées, mauvais outils, overflow contexte, pas de condition d'arrêt |
| Désalignement agents | 36,94 % | Contexte handoff perdu, hallucination devient « fait » |
| Échec validation | 21,30 % | Arrêt prématuré, validation incomplète |
Métriques clés : succès E2E >85 %, P95 <30 s, erreurs agent <5 % ; qualité via LLM-as-Judge. Chaque appel porte un correlation_id, chaîne complète OpenTelemetry.
| Piège | Symptôme | Parade |
|---|---|---|
| Contamination de contexte | Hallucination A→B/C, HTTP 200, résultat faux | Schema handoff + confiance >0,7 |
| Boucle infinie | Coût tokens ×100 en minutes | Plafonds iterations/outils/tokens |
| Sur-ingénierie | 2 étapes → 8 agents | Commencer par pipeline ; sweet spot 3–8 |
| Gap démo→prod | Entrées edge en cascade | Longueur/injection, PII, contenu nocif |
| Sync parallèle | LangGraph : branche lente, supervisor relancé | Barrière defer=True |
Dépendance linéaire claire ? Oui → sous-tâches parallélisables ? Non → pipeline ; oui → fan-out + pipeline.
Non → agent décisionnaire ? Oui → sous-équipes ? Non → supervisor-worker ; oui → hiérarchique.
Non → async long ? Oui → blackboard ; non → ≤5 agents, fin claire ? oui → swarm (limites) ; non → refactoriser en hiérarchique.
Cinq points : ① topologie > modèle ; ② commencer par pipeline ; ③ MCP+A2A standard ; ④ observabilité obligatoire ; ⑤ 3–8 agents optimal.
À suivre en 2026 : orchestration fédérée, multi-agents multimodaux, topologie adaptative (AdaptOrch), chaînes d'audit EU AI Act.
Provisionner un Mac distant VNC ; vérifier Python 3.11+ et versions Node.
Permissions macOS (enregistrement écran, accessibilité) en session graphique — SSH insuffisant.
Déployer pipeline minimal LangGraph/CrewAI ; tester recovery checkpoint Postgres.
Lancer MCP Server local ; valider discovery et appels dans Cursor/Claude Desktop.
Vérifier traces LangSmith/OpenTelemetry : correlation_id de bout en bout.
Oui : CrewAI pour prototypes par rôles, LangGraph pour branches prod avec état persistant et HITL. Unifier la couche outils MCP pour éviter N×M intégrations.
Subagent/ACP OpenClaw ≈ hybride supervisor+blackboard ; registre spawn v2026.5.18 et handoff completion = validation handoff. Voir pratique Subagent.
La logique oui ; MCP macOS (automation navigateur, trousseau), autorisations GUI OpenClaw et certains tests framework demandent un Mac distant VNC pour validation graphique.
La discipline multi-agents : d'abord la topologie, ensuite le modèle. Après la démo sur laptop/VPS, la prod bloque souvent sur TCC macOS, validation MCP locale et le fossé observabilité (57 % vs 8 %).
Mac acheté : veille, mises à jour OS, amortissement ; machine faible peine avec fan-out + LangSmith. Louer un Mac distant VNC délègue uptime et image de base — vous gardez topologie et clés, validez MCP/OpenClaw sur le bureau Gateway.
Sans hardware supplémentaire, sections 5 et cinq étapes sur un nœud distant ? VNCMac — bouton principal vers les tarifs, offres sur l'accueil.