Expertise — Fine-tuning état de l'art 2026

Fine-tuning — quand le prompt et le RAG ne suffisent plus.

Spécialiser un modèle open-weight (Mistral, Llama, Qwen) sur votre vocabulaire, vos processus, votre style. Notre boîte à outils : Unsloth (2× plus rapide, 60 % moins de mémoire), TRL et Axolotl, les méthodes état de l'art (LoRA, QLoRA, DPO, KTO, ORPO, GRPO) et l'évaluation rigoureuse avant promotion en production.

Unsloth · 2× plus rapide LoRA · QLoRA · DPO Quantization AWQ/GPTQ MLflow Model Registry

Table des matières

01 Quand fine-tuner (vs prompt, vs RAG)
02 Les 7 méthodes état de l'art 2026
03 Unsloth, TRL, Axolotl
04 Données d'entraînement
05 Quantization & déploiement
06 Évaluation & promotion

01 / Arbre de décision

Quand faut-il vraiment fine-tuner ?

90 % des projets IA en 2026 n'ont pas besoin de fine-tuning. Le prompt engineering plus le RAG résolvent l'essentiel. Mais sur les 10 % restants, le fine-tuning est irremplaçable.

Avant tout

1. Prompt engineering

Few-shot, chain-of-thought, structured output, prompt chaining. Coût négligeable, itération en minutes. Toujours la première option.

Si manque de données

2. RAG

Connaissance externe ou changeante, citations, vérifiabilité, mise à jour rapide. Quasi-toujours la bonne réponse pour « le modèle ne connaît pas X ».

Si format/style

3. Fine-tuning léger (LoRA)

Quand le modèle connaît X mais ne sait pas le formater ou le styliser comme vous voulez. Vocabulaire métier, ton, structure de sortie.

Si comportement

4. DPO / KTO / RLHF

Quand vous voulez aligner le modèle sur des préférences — choisir A plutôt que B sur 5000 exemples. Pour l'agentique fiable et le suivi d'instructions complexes.

Notre règle

Ne jamais commencer un projet par « on va fine-tuner ». Commencer par un prompt + RAG. Mesurer (RAGAS, llm-as-judge). Si la qualité plafonne sur des points spécifiques (format, ton, vocabulaire, comportement), alors fine-tuner — sur ces points précis, pas en général.

02 / Méthodes état de l'art

Sept méthodes de fine-tuning en 2026.

Le paysage s'est complexifié depuis 2024. Voici les 7 méthodes que nous mobilisons en production, par cas d'usage.

Spectre des méthodes — du plus simple au plus exigeant

SFT

Supervised Fine-Tuning

Entraînement sur paires (input, output_attendu). Le pain quotidien. À combiner avec LoRA pour la majorité des cas.

LoRA / QLoRA

Adapter rank-r seul

On gèle le modèle et on entraîne des matrices de rank faible (r=16 à 64). 0.1-1 % des paramètres. QLoRA quantifie en 4-bit la base. Permet d'entraîner Mistral Large 3 sur 1× H100.

DPO

Direct Preference Optimization

À partir de paires (chosen, rejected), apprend les préférences sans reward model. Alternative légère à PPO/RLHF. Stable et reproductible.

KTO

Kahneman-Tversky Optimization

Comme DPO mais avec des exemples « bon / mauvais » non-appariés. Données plus faciles à collecter. Performance comparable.

ORPO

Odds-Ratio Preference Opt.

Combine SFT + alignement en une passe. Plus efficace en données et en compute. Notre choix par défaut depuis 2025.

GRPO

Group Relative Policy Opt.

Méthode DeepSeek R1. Pour entraîner le raisonnement avec reward vérifiable (math, code, structured output). Démocratise le RLHF.

03 / Frameworks

Unsloth, TRL, Axolotl — notre boîte à outils.

Trois frameworks dominent le fine-tuning open-weight en 2026. Notre choix par défaut : Unsloth pour la vitesse, TRL pour les méthodes avancées, Axolotl pour les pipelines déclaratifs et reproductibles.

Framework	Vitesse	Mémoire	Méthodes	Modèles	Notre usage
Unsloth	2×	−60%	SFT, LoRA, QLoRA, DPO, KTO, ORPO, GRPO	Llama, Mistral, Gemma, Phi, Qwen, DeepSeek	Pivot
TRL (HF)	baseline	baseline	Toutes (référence)	Tous HF	Méthodes exotiques
Axolotl	moyen	moyen	SFT, DPO, KTO, ORPO	Llama, Mistral, Qwen	YAML déclaratif, MLOps
LLaMA-Factory	moyen	moyen	Toutes + GUI	Tous HF	Démos, exploration
PEFT (HF)	—	—	LoRA, QLoRA, IA3 (lib seule)	Tous HF	Lib de base utilisée par TRL
Mistral Forge	managé	managé	SFT, DPO managé	Mistral uniquement	Si stack 100% Mistral

Exemple — fine-tuning Mistral 7B en LoRA via Unsloth

Quatre fois moins de code que TRL pur. Tient en mémoire sur une seule H100 80GB pour un Mistral Large 3 quantifié en 4-bit.

finetune_mistral.pyPython · Unsloth 2026.5

from unsloth import FastLanguageModel
from trl import SFTTrainer
from datasets import load_dataset
import mlflow

# Modèle quantifié 4-bit, prêt pour LoRA
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Mistral-Large-3-Instruct-bnb-4bit",
    max_seq_length=8192,
    load_in_4bit=True,
)

# Adapter LoRA — 0.5 % des paramètres
model = FastLanguageModel.get_peft_model(
    model,
    r=32, lora_alpha=64, lora_dropout=0,
    target_modules=["q_proj","k_proj","v_proj","o_proj",
                    "gate_proj","up_proj","down_proj"],
    use_gradient_checkpointing="unsloth",
)

dataset = load_dataset("json", data_files="corpus_acpr.jsonl", split="train")

with mlflow.start_run(experiment_id="finetune-acpr"):
    mlflow.log_params({"r": 32, "lora_alpha": 64, "epochs": 3})
    trainer = SFTTrainer(
        model=model, tokenizer=tokenizer,
        train_dataset=dataset,
        max_seq_length=8192,
        args=dict(per_device_train_batch_size=4, gradient_accumulation_steps=4,
                  warmup_steps=10, num_train_epochs=3, learning_rate=2e-4,
                  output_dir="out/", report_to="mlflow"),
    )
    trainer.train()

    # Sauvegarde adapter LoRA seul (~50MB)
    model.save_pretrained("acpr-adapter-v1")
    # Enregistrement dans MLflow Model Registry
    mlflow.transformers.log_model(model, "model", registered_model_name="acpr-mistral-lora")

04 / Datasets

Les données font tout.

Le fine-tuning ne réussit qu'autant que le dataset est bon. Trois leviers pour produire des datasets de qualité : collecte humaine ciblée, distillation depuis un modèle supérieur, génération synthétique vérifiée.

① Humain

Annotation ciblée

500 à 5000 exemples annotés par vos experts métier. Qualité maximale. Coûteux. Indispensable pour les cas critiques (juridique, médical, réglementaire).

② Distillation

Teacher Claude Opus → Student Mistral

Un modèle supérieur (Claude Opus, GPT-5, DeepSeek R1) génère 10k-100k exemples. Le student les apprend. Permet d'avoir on-premise une fraction de la qualité d'un flagship.

③ Synthétique

Self-instruct & RLAIF

Génération par le modèle lui-même + filtrage par llm-as-judge. Évolutif. Risque de mode collapse — toujours mélanger avec de la donnée réelle (10-30 %).

Qualité

Curation aggressive

Déduplication (MinHash), filtrage qualité (perplexity, classifier), équilibrage des classes, removal de PII (Presidio). 80 % du temps de dataset = curation.

Notre recette pour le DPO

Pour 5000 paires de préférences : 2000 annotées humain (qualité), 2000 distillées Claude Opus (couverture), 1000 self-instruct + llm-as-judge (diversité). Toujours validation set séparé annoté à 100 % humain.

05 / Quantization

De l'entraînement au déploiement quantifié.

Le modèle fine-tuné en BF16 fait 240 GB pour Mistral Large 3. Pour le déployer, quantization indispensable. Plusieurs formats coexistent, chacun avec son usage.

Format	Précision	Taille	Inférence	Cas d'usage
BF16 / FP16	16-bit	100 %	vLLM, SGLang	Référence qualité, GPU H100/H200
FP8 (H100)	8-bit	50 %	vLLM + TensorRT-LLM	Production scale, perte qualité minime
AWQ	4-bit weight	25 %	vLLM, SGLang	Default 4-bit pour vLLM, qualité > GPTQ
GPTQ	4-bit weight	25 %	vLLM, TGI	Alternative AWQ, écosystème mature
GGUF (Q4_K_M)	4-bit mixed	25-30 %	llama.cpp, Ollama	Edge, CPU, Mac, dev local
EXL2	2 à 8-bit	variable	ExLlamaV2	Mix précision optimisé qualité/taille
MXFP4 (Blackwell)	4-bit float	25 %	TensorRT-LLM B100/B200	2026+, GPU nouvelle gen

Notre défaut 2026

Production sur H100/H200 : AWQ 4-bit. Production B100/B200 : FP8 ou MXFP4. Edge / dev local : GGUF Q4_K_M. Mac avec puce M : MLX. Toujours benchmarker la perte qualité sur jeu d'éval avant promotion.

06 / Évaluation

De l'adapter aux artefacts versionnés.

Un modèle fine-tuné n'a aucune valeur tant qu'il n'a pas passé une suite d'évaluation rigoureuse. Notre process en 5 étapes :

Étape 1

Eval set figé en cadrage

300-1000 questions/tasks annotées par les experts métier. Jamais touché pendant l'entraînement. Mesure la qualité absolue.

Étape 2

Benchmarks publics ciblés

MMLU pour la généralité, GSM8K/MATH pour math, HumanEval pour code, MT-Bench pour chat. S'assure qu'on n'a pas dégradé les capacités générales.

Étape 3

llm-as-judge croisé

Claude Opus juge les sorties du modèle fine-tuné vs baseline. Win rate par catégorie. Détection des régressions invisibles.

Étape 4

A/B en pré-prod

Routing 10 % du trafic réel vers le nouveau modèle. Monitoring qualité (RAGAS, llm-as-judge), latence, coût. 2 semaines minimum.

Étape 5

Promotion via MLflow

Si métriques OK : promotion Staging → Production dans MLflow Model Registry. Sinon, retour à l'étape 1.

Étape 6

Rollback documenté

Trace MLflow complète. Toggle de retour en arrière en 30 secondes. Pas de fine-tuning sans plan de rollback.

Fine-tuning — quand le prompt et le RAG ne suffisent plus.

Quand faut-il vraiment fine-tuner ?

1. Prompt engineering

2. RAG

3. Fine-tuning léger (LoRA)

4. DPO / KTO / RLHF

Sept méthodes de fine-tuning en 2026.

Supervised Fine-Tuning

Adapter rank-r seul

Direct Preference Optimization

Kahneman-Tversky Optimization

Odds-Ratio Preference Opt.

Group Relative Policy Opt.

Unsloth, TRL, Axolotl — notre boîte à outils.

Exemple — fine-tuning Mistral 7B en LoRA via Unsloth

Les données font tout.

Annotation ciblée

Teacher Claude Opus → Student Mistral

Self-instruct & RLAIF

Curation aggressive

De l'entraînement au déploiement quantifié.

De l'adapter aux artefacts versionnés.

Eval set figé en cadrage

Benchmarks publics ciblés

llm-as-judge croisé

A/B en pré-prod

Promotion via MLflow

Rollback documenté

Un modèle à spécialiser ?