DepthCrafter, Génération de Séquences de Profondeur Cohérentes pour les Vidéos en Monde Ouvert
- Dean Corso
- Jun 20
- 1 min read
La publication "DepthCrafter" présente une méthode novatrice pour estimer la profondeur dans les vidéos, particulièrement celles du monde ouvert, c'est-à-dire des vidéos diverses sans contraintes spécifiques.
Le défi principal de l'estimation de profondeur vidéo est de maintenir la cohérence temporelle des images, évitant ainsi le "scintillement" souvent observé avec les méthodes conçues pour des images statiques. DepthCrafter résout ce problème en s'appuyant sur les modèles de diffusion vidéo, notamment un modèle pré-entraîné de diffusion d'image à vidéo, et propose une approche en trois étapes d'entraînement ainsi qu'une stratégie ingénieuse pour les vidéos de très longue durée.
Cette méthode génère des séquences de profondeur détaillées et stables sans nécessiter d'informations supplémentaires comme les mouvements de caméra, ouvrant la voie à des applications avancées en réalité mixte ou en robotique
Ecouter et Comprendre la publication DepthCraft en 8 minutes et en français :

Pour aller plus loin :
Le papier original sur ARXIV : https://arxiv.org/pdf/2409.02095
La publication sur HuggingFace : https://huggingface.co/papers/2409.02095
Le repo GITHUB : https://depthcrafter.github.io/
La démo en ligne sur HuggingFace : https://huggingface.co/spaces/tencent/DepthCrafter
A bientôt pour un nouveau PodCast : "Good morning IA"
Comments