Expertise — MLOps état de l'art 2026

MLOps & MLflow — tracer, versionner, opérer.

Un système d'IA sans MLOps n'est pas un système — c'est une démo qui dérive. MLflow en pivot pour le tracking, le model registry, le tracing LLM et l'évaluation. Complété par Langfuse, Arize Phoenix, LangSmith selon les besoins. Conformité AI Act art. 11-12 par traçabilité native, drift detection continu, llm-as-judge automatisé.

MLflow Tracking · Registry · Tracing Langfuse · Phoenix · LangSmith Audit AI Act llm-as-judge continu
01 / Le constat

MLOps pour LLM ≠ MLOps classique.

Le MLOps des années 2018-2023 (tabular, computer vision) reposait sur des métriques numériques claires : accuracy, F1, AUC. Les LLM cassent ce modèle. Les sorties sont du texte libre, les métriques sont subjectives, les modes d'échec sont innombrables.

Différence 1

Métriques non-déterministes

Pas de F1 sur du texte libre. Il faut RAGAS + llm-as-judge + métriques métier custom. Tout doit être versionné — y compris les prompts d'évaluation.

Différence 2

Le prompt EST le modèle

Changer un prompt change le comportement autant qu'un fine-tuning. Un prompt registry est aussi critique qu'un model registry.

Différence 3

Trajectoires, pas prédictions

Un agent LangGraph fait 10-50 appels LLM. Il faut tracer chaque étape, pas juste la sortie finale. MLflow Tracing avec OpenTelemetry GenAI.

Différence 4

Coût et latence pilotent

En classique, le modèle prédit en 5 ms. En LLM, une trajectoire coûte 30 secondes et 0,05 €. Le suivi coût/requête devient une métrique de premier ordre.

02 / MLflow en pivot

Les 4 piliers MLflow pour LLM.

MLflow a évolué massivement en 2024-2026 pour les LLM. Quatre composants couvrent l'essentiel des besoins MLOps pour les systèmes IA modernes.

Les 4 piliers MLflow — tracking, registry, tracing, evaluation
① TRACKING Expérimentations • params (prompts, hp) • metrics (RAGAS, eval) • artifacts (datasets) • tags & lineage Backend Postgres artifacts S3 / MinIO ② REGISTRY Modèles & prompts • versioning sémantique • stages (Staging/Prod) • prompt registry v3.0+ • signature, schema Approval workflow RBAC, webhooks ③ TRACING LLM Observability • spans nested LLM • tool calls trace • tokens, latence, coût • OTel GenAI compatible Auto-instrument LangChain, LangGraph, LI ④ EVALUATION Suites continues • RAGAS intégré • llm-as-judge natif • custom metrics • comparison runs CI/CD ready PR gate quality

MLflow couvre le cycle complet : de l'expérimentation (tracking), à la mise en stock (registry), à la production (tracing), au pilotage (evaluation). Open source, self-host, compatible OpenTelemetry GenAI.

Exemple — tracer un agent LangGraph avec MLflow 3

L'instrumentation est en deux lignes. Tous les nœuds LangGraph, appels LLM, tool calls deviennent observables.

agent_traced.pyPython · MLflow 3.0+ · LangGraph
import mlflow
from langgraph.graph import StateGraph

# Auto-instrumentation LangChain / LangGraph / LlamaIndex
mlflow.langchain.autolog()

mlflow.set_experiment("acpr-agent-prod")

with mlflow.start_run() as run:
    # Le graphe est tracé automatiquement
    graph = build_graph()
    result = graph.invoke({"messages": [user_msg]})

    # Métriques métier ajoutées manuellement
    mlflow.log_metric("trajectory_steps", len(result["messages"]))
    mlflow.log_metric("tool_calls", result.get("tool_count", 0))

    # Evaluation llm-as-judge sur la sortie
    eval_result = mlflow.evaluate(
        data=[{"input": user_msg, "output": result["messages"][-1].content}],
        extra_metrics=[
            mlflow.metrics.genai.faithfulness(model="anthropic:/claude-opus-4-7"),
            mlflow.metrics.genai.answer_relevance(model="anthropic:/claude-opus-4-7"),
        ],
    )
03 / Cycle de vie

Le cycle de vie d'un système IA en production.

Six étapes, six points de contrôle MLflow. Aucune ne peut être sautée si vous voulez opérer sereinement.

Étape 1

Expérimentation

Tracking de chaque essai (prompt, retrieval config, modèle, hp). MLflow Tracking + Tracing dès le premier prototype.

Étape 2

Évaluation pré-prod

Suite RAGAS + llm-as-judge sur jeu d'éval. Comparaison automatique des runs. Gate avant promotion en Staging.

Étape 3

Staging

Modèle ou prompt promu dans le Registry, stage Staging. Tests d'intégration. Charge synthétique. Validation RBAC.

Étape 4

A/B canary

10 % du trafic prod vers la nouvelle version. Monitoring continu via Tracing + Langfuse. Win rate, latence, coût.

Étape 5

Production

Promotion Production. Observability complète. Alertes Grafana sur drift, coût, latence, taux d'erreur.

Étape 6

Rollback / Archive

Toggle de rollback en 30 secondes. Anciennes versions Archived (jamais supprimées) pour audit AI Act.

04 / Observability

MLflow + les bons compléments.

MLflow couvre 80 % des besoins. Les 20 % restants demandent des outils spécialisés selon le contexte. Voici notre matrice.

OutilTrackingRegistryTracing LLMSelf-hostNotre usage
MLflowexcellentexcellentv3+ouiPivot
LangfusebasiquepromptsexcellentouiObservability LLM prod, OSS, EU-friendly
LangSmithbasiquepromptsnatif LC/LGpayantNatif LangGraph, debug DX
Arize Phoenixbasiqueexcellentoui (OSS)Drift & eval visualisation
Heliconepromptsproxy LLMouiProxy gateway + caching
Weights & BiasesexcellentartifactsWeaveSaaS USRare — souveraineté
OpenTelemetry GenAIstandard 2026vendor-neutralStandard backbone
Notre boîte à outils par défaut

MLflow en pivot (tracking + registry + eval + tracing) + Langfuse auto-hébergé pour la prod-time observability LLM (dashboards utilisateurs, debug rapide) + Grafana / Prometheus pour les métriques infra. Tout en self-host, tout en EU, aucun cloud US obligatoire.

05 / AI Act

Traçabilité native AI Act.

L'AI Act exige (art. 11-12) que les systèmes IA à haut risque maintiennent une documentation technique et des logs d'événements permettant la traçabilité. MLflow + Langfuse couvrent cette exigence sans surcoût.

Art. 11

Documentation technique

Description du modèle, données d'entraînement, métriques d'évaluation, méthodes de validation, limitations connues — toutes générables depuis les runs MLflow.

Art. 12

Logs d'événements

Enregistrement automatique pour traçabilité : période d'utilisation, profils d'usage, données d'entrée. MLflow Tracing + Langfuse archivés ≥ 6 mois.

Art. 15

Exactitude & robustesse

Tests de robustesse continus (red teaming Pyrit / Garak), métriques RAGAS suivies, alertes sur dégradation. Tout dans MLflow Evaluation.

Art. 17

Système de gestion qualité

Processus documentés via MLflow workflows, RBAC sur Registry, approval workflow, rollback plan. Auditabilité de bout en bout.

06 / Runbook

Le runbook que nous mettons en place de production.

Trois alertes, trois actions automatiques. La même grille pour tous nos clients en mode managé.

Alerte 1

Drift de qualité (RAGAS)

Faithfulness en baisse > 2 pts sur 24 h → rollback automatique au dernier modèle Staging stable. Notification équipe + ticket d'investigation.

Alerte 2

Coût / requête anormal

P95 coût/requête × 1.5 vs moyenne 7 jours → throttling automatique, alerte équipe. Probable boucle d'agent ou contexte explosé.

Alerte 3

Pic de prompt injection

Lakera / Llama Guard score > 0.8 sur 5+ requêtes en 1 minute → activation circuit breaker, isolation utilisateur, escalade SOC.

Hebdo

Rapport qualité automatique

Tous les lundis matin : rapport MLflow auto-généré (top traces, top régressions, top utilisateurs, top coûts) envoyé à l'équipe IA + RSSI.

Une plateforme MLOps à construire ?

Mise en place MLflow self-host, intégration LangGraph/LlamaIndex, dashboards Langfuse, suites RAGAS en CI/CD, conformité AI Act. Première analyse de faisabilité offerte.