Expertise — RAG état de l'art 2026

RAG intelligent — au-delà du chunk + vector search.

Le RAG naïf de 2023 (chunk, embed, top-k cosine) plafonne sur les vrais corpus d'entreprise. En 2026, un RAG en production combine hybrid search (BM25 + dense + ColBERT), reranking cross-encoder, et des patterns avancés : GraphRAG, Agentic RAG, Contextual Retrieval, late chunking, multi-hop. C'est ce que nous concevons.

Hybrid + Rerank GraphRAG · Agentic RAG Contextual Retrieval RAGAS continue
01 / Le constat

Pourquoi le RAG naïf plafonne en production.

Le RAG « chunk + embed + top-k » suffit pour une démo. Sur un vrai corpus métier (centaines de milliers de docs, vocabulaire spécialisé, requêtes ambiguës), il s'effondre. Quatre échecs récurrents.

Échec 1

Vocabulaire spécialisé

Les embeddings denses généralistes manquent les acronymes métiers, les numéros de référence, les codes produit. Le BM25 voit les mots : il faut les deux.

Échec 2

Chunks décontextualisés

Un paragraphe sorti de son chapitre perd la moitié de son sens. Le retriever ne sait pas que « le client » réfère au client mentionné 10 pages avant.

Échec 3

Multi-hop & raisonnement

« Quelle est l'évolution du chiffre d'affaires de notre concurrent X entre Q1 et Q3 ? » nécessite plusieurs recherches successives. Un top-k single-shot ne sait pas faire.

Échec 4

Pas d'évaluation

Le RAG marche « globalement »… mais combien d'hallucinations passent en silence ? Sans RAGAS + llm-as-judge en CI, vous codez en aveugle.

02 / Fondations 2026

Hybrid search + reranking cross-encoder.

La fondation d'un RAG sérieux en 2026. Trois étages : retrieval lexical (BM25), retrieval dense (embeddings), fusion (RRF ou pondération), puis reranking cross-encoder sur les top-50 pour produire le top-5 envoyé au LLM.

Pipeline hybrid + rerank — le minimum vital en 2026
Question query RETRIEVAL LEXICAL BM25 OpenSearch / Elastic — top 50 RETRIEVAL DENSE Qdrant / pgvector embeddings — top 50 FUSION RRF Reciprocal Rank Fusion RERANKER Cross-encoder · top 5 → contexte LLM

Un seul des deux retrievers donne ~75 % de qualité. Les deux fusionnés + reranking cross-encoder atteignent 90-95 % sur la majorité des corpus. Le coût supplémentaire est marginal.

Pourquoi cette architecture marche

03 / Patterns état de l'art

Cinq patterns RAG état de l'art 2026.

Au-delà de l'hybrid+rerank, cinq patterns avancés transforment un RAG honnête en RAG redoutable. Chacun adresse une famille d'échecs distincte.

① Contextual Retrieval (Anthropic)

Quand : chunks ambigus hors contexte

Avant l'indexation, chaque chunk est réécrit avec son contexte ambient (chapitre, section, document). Anthropic a montré -49 % d'échecs de retrieval. Coût : un appel LLM par chunk à l'indexation (one-shot, avec prompt caching).

  • Contexte injecté : « Ce chunk provient du chapitre X du document Y, traite de Z »
  • Embeddings calculés sur le chunk + contexte
  • Compatible avec Hybrid + Rerank
  • Prompt caching Claude / Gemini divise le coût par 10
Chunk brut "Le taux est 5.2%" Doc complet Rapport ACPR 2026 LLM annotate + prompt caching Chunk contextualisé "Dans Rapport ACPR Q3 2026... taux 5.2%"

② GraphRAG (Microsoft)

Quand : questions globales sur un corpus

L'indexation construit un graphe de connaissance (entités + relations) extrait du corpus. Les questions globales (« quels sont les principaux thèmes ? ») interrogent le graphe + summaries de communautés Leiden. Les questions locales (« qui a dit X ? ») restent en RAG classique.

  • Extraction LLM des entités/relations à l'indexation
  • Détection de communautés (algorithme Leiden)
  • Summaries hiérarchiques de communautés
  • Excellent pour les corpus structurés en domaines
Soc.A CEO Soc.B Proj.X Proj.Y dirige conseille Graphe + summaries de communautés

③ Agentic RAG

Quand : multi-hop, ambiguïté, exploration

Le retrieval n'est plus une étape monolithique mais un outil mobilisé par un agent LangGraph. L'agent peut interroger plusieurs fois le RAG, raffiner sa requête, croiser plusieurs sources, demander des clarifications. Le pattern le plus puissant en 2026.

  • Query rewriting / decomposition automatique
  • Self-querying : l'agent construit ses filtres metadata
  • Multi-hop : recherche A → résultat → recherche B
  • Verification : vérifie la cohérence avant de répondre
AGENTLangGraph Retrieval A SharePoint Retrieval B SQL Web search Tavily / Brave L'agent décide, itère, croise

④ Late chunking

Quand : conserver le contexte long sans surcoût

Au lieu d'embedder chaque chunk séparément, on embedde le document entier en une passe, puis on extrait les embeddings de chaque chunk à partir des token embeddings finaux. Le contexte global imprègne chaque vecteur de chunk. Compatible avec les modèles à long contexte (Jina v3, voyage-3, BGE-M3).

  • Une seule passe encoder par document
  • Chaque chunk garde la trace du contexte global
  • Coût d'indexation comparable au chunking classique
  • +10 à +20 % de qualité retrieval sur les corpus longs
Document entier (8K-32K tokens) → encoder long-context (Jina v3, voyage-3) vec₁ vec₂ vec₃ vec₄ ↑ pooling des tokens du chunk chaque vec contient le contexte du document entier

⑤ Multi-hop query decomposition

Quand : questions complexes en plusieurs sous-questions

Un nœud LangGraph décompose la question en sous-questions atomiques, exécute un RAG sur chacune, puis synthétise. Indispensable pour les questions analytiques : « Compare la stratégie de X et Y depuis 2024 », « Quelles évolutions réglementaires ont affecté Z entre Q1 et Q3 ? »

  • Decomposition LLM Opus → liste de sous-questions
  • RAG parallèle sur chacune (asyncio)
  • Synthèse finale avec citation par sous-question
  • Compatible avec hybrid + rerank + contextual
Question complexe SQ1 SQ2 SQ3 RAG RAG RAG ↓ synthèse finale avec citations
04 / Vector DBs

Choisir sa base vectorielle.

Pas de winner universel. Notre choix par défaut est Qdrant pour la majorité des cas, pgvector quand l'écosystème Postgres pèse, Weaviate pour les besoins hybrid+graph natifs.

Vector DBHybrid natifFiltres metadataScaleSouverainetéNotre usage
Qdrantexcellentpayload richeclusterself-host EUDéfaut
WeaviateBM25 + denseGraphQLclusterself-hostHybrid + classes liées
pgvectorvia SQLSQL natifverticalPostgresEco Postgres existant
LanceDBen montéeSQL-likeverticalembarquableApps embarquées
Milvushybridscalar fieldsmilliardsself-hostTrès gros volumes
OpenSearchBM25 natifLuceneclusterself-hostQuand Elastic existe
Pineconehybrid serverlessfiltersserverlessUS SaaSRarement (souveraineté)
ChromalimitésimpledevlocalPOC, jamais en prod
05 / Embeddings

Le bon modèle d'embeddings pour votre corpus.

Le choix d'embeddings change le top-5 de retrieval. Sur les corpus français/multilingues d'entreprise, nos benchmarks 2026 placent :

🇪🇺 EU souverain

Mistral Embed

Notre défaut pour RAG souverain on-premise. Performance multilingue état de l'art, déployable via vLLM. Compatibilité parfaite avec les modèles génératifs Mistral.

Top API

voyage-3-large

Meilleur sur MTEB en 2026. 1024 dims, support binary embeddings, matryoshka. Notre choix quand on a accès aux API US.

Open-weight

BGE-M3 / Jina v3

Open-weight performants. BGE-M3 supporte dense + sparse + ColBERT en un modèle. Jina v3 excelle en long-context (8K).

Spécialisé

nomic-embed-text-v2, gte-Qwen2-7B

Cas spécifiques : code, sciences, légal. Souvent vainqueurs sur leur niche.

Notre conseil

Toujours benchmarker 3-4 modèles sur votre jeu d'évaluation avant de figer. Le « meilleur » embeddings dépend du domaine et de la langue. Différence de 15-25 % en Recall@5 fréquente entre modèles génériques et modèles fine-tunés sur votre corpus.

06 / Évaluation continue

La métrique précède le code.

Pas de RAG en production sans jeu d'évaluation. Notre boîte à outils : RAGAS + DeepEval + llm-as-judge, orchestré dans MLflow, déclenché en CI à chaque PR.

Retrieval

Context Precision & Recall

Les bons documents sont-ils dans le top-k ? Mesurés contre un ground truth de questions / docs pertinents annotés en cadrage.

Generation

Faithfulness & Answer Relevancy

La réponse est-elle ancrée dans les docs (faithfulness) ? Répond-elle réellement à la question (relevancy) ? llm-as-judge Opus.

Hallucination

Groundedness & citations

Chaque affirmation a-t-elle une citation traçable ? Detection des inventions via comparison embeddings entre réponse et contexte.

Opérationnel

Latence, coût, drift

P50/P95 latence, €/requête, drift sur les questions production vs eval. Tracé dans MLflow, alertes Langfuse / Arize.

CI/CD avec RAGAS

Chaque PR sur le RAG déclenche un eval RAGAS sur 200-500 questions de référence. Si Faithfulness chute de plus de 2 points ou Context Recall de plus de 3 points, la PR est bloquée. Régression invisible = impossible.

Un RAG en production à mettre à niveau ?

Audit retrieval, migration vers hybrid + rerank, intégration des patterns état de l'art 2026, mise en place RAGAS en CI. Première analyse de faisabilité offerte.