Campagne 2010 Fiche descriptive de la thèse
Transcription
Campagne 2010 Fiche descriptive de la thèse
Campagne 2010 Fiche descriptive de la thèse Encadrant Orange Labs: Joel Jung Adresse électronique de l'encadrant : [email protected] Site: Issy Sujet de la thèse (Titre): Codage multi-vues plus profondeur (MVD) avancé pour la TV-3D et le FTV. Contexte global de l'étude et état de l'art La vidéo mutli-vues, capturée par des caméras synchronisées à partir de points de vue différents, comporte des informations 3D importantes pour les nouveaux services tels que la TV-3D ou le FTV (Free ViewPoint TV). Néanmoins, deux points majeurs sont susceptibles de ralentir leur arrivée pour le grand public : 1- la qualité d’affichage (rendering/display), et 2- la qualité du contenu (codage 3D). En ce qui concerne le premier point, différentes études montrent que les avis semblent converger globalement. Dans [1], à la question « quelle est la techno d’affichage la plus prometteuse pour introduire les services 3D à la maison ?», la réponse est majoritairement les «Stereoscopic Display» avec lunettes polarisées (attendus en 2010-2012). Des variantes d’ « Auto-stereoscopic Display », bien que fournissant aujourd’hui une expérience utilisateur insuffisante, sont notées de «prometteur» à «très prometteurs» pour 2015-2020, avec résolutions allant de 1080p 50Hz (certain), à 2160p (très probable). Ces dernières variantes ne doivent donc pas être écartées aujourd’hui. En ce qui concerne le second point, la quantité d’information nécessaire pour fournir le contenu 3D, liée au nombre de points de vue, est gigantesque. Disposer d’un codeur video multi-vues performant est donc nécessaire pour permettre l’essor de ces applications TV-3D ou FTV. Les travaux sur le codage de vues multiples ne sont pas récents : MPEG-2 inclus un profile capable de traiter 2 vues. En 2007, MPEG-C part 3 facilite l’approche « 2D + profondeur », en proposant un format de représentation pour les «Auxiliary Video and Supplemental Information», comme les cartes de profondeur. Enfin, en 2008, l’annexe multi-vues de H.264 est proposée. Les résultats associés sont cependant très décevants. Globalement, le débit requis reste proportionnel au nombre de vues – un gain de 20% seulement, par exemple, est observé par rapport au simulcast dans le cas de 8 vues. MVC n’est donc pas une solution long terme pour le codage multi-vues. Aujourd’hui, MPEG et l’ITU-T lancent le projet H.265. Initialement ce projet adresse le codage 2D pur : il est fort probable qu’il n’y ait pas de fonctionnalité multi-vues dans un premier temps, mais que celle-ci apparaisse plus tard sous forme d’une sur-couche e Le but de cette thèse est d’adresser en profondeur le 2 point, tout en considérant l’environnement (points 1), qui sera modélisé le plus fidèlement possible. Le contexte global est idéal pour aborder cette problématique de codage multi-vues de bout en bout : la première génération d’écran est disponible, d’une part, ce qui permet l’évaluation des résultats, et d’autre part les fonctionnalités de codage multi-vues ont été abordées, mais n’apportent pas à ce jour de gains suffisants. Objectifs de la thèse/ Résultats attendus/ Défis scientifiques/techniques à relever. L’objectif de la thèse est de proposer des méthodes de codage innovantes pour la prise en compte de n vues (avec m cartes de profondeurs 0 m n ), dans le cadre d’applications telles que la TV-3D haute résolution, ou FTV. De manière additionnelle, elle pourra fournir, à plus court terme, des briques de codage lors de la mise en place de l’annexe multi-vues du codeur H.265. Les défis scientifiques consistent d’une part à mieux coder le flux multi-vidéos, en utilisant plus efficacement la corrélation inter-vues, par exemple, mais aussi de prendre en compte les artefacts de codage et de restitution du relief dans le cadre d’applications ciblées. Sur quelle composante du flux vidéo peut-on gagner ? Quel impact sur la vidéo 3D restituée ? L’environnement global du codage vidéo sera étudié, et pris en compte pour une optimisation de bout en bout. En effet, l’adaptation aux caractéristiques du display et au rendering sont encore plus cruciaux qu’en 2D pour fournir un rendu 3D cohérent. Approche méthodologique proposée par le responsable technique (Préciser les compétences recherchées nécessaires à l'approche) Le codage multi-vues multi-profondeurs laisse place à ce jour à de nombreuses voies d’exploration. La corrélation inter-vues n’est pas correctement exploitée, c’est pourquoi malgré son apport de 8 à 12% elle n’a pas été conservée dans MVC [2][3]. Plus de recul et de recherches sont nécessaires pour intégrer efficacement ces schémas, et adresser les problématiques telles que la compensation d’illumination, l’interpolation de la profondeur, l’estimation, la compensation et le codage de la disparité, la correction de couleur, le calcul de GDV (global disparity vector) pour des approches de type motion skip, par disparité dense [4] ou autres, ou encore les View synthesis prediction (VSP). L’analyse de la robustesse et des schémas de transport appropriés s’appuiera sur les résultats de travaux de recherche récents [5][6][7]. L’adaptation aux caractéristiques du display sera le résultat d’études subjectives poussées. Des liens étroits avec d’autres thèses menées dans l’URD CVA sont envisagés : prise en compte du mouvement intra et inter vues (liens avec les tubes de mouvements (M. Urvoy), et outils de codage de mouvement 2D (Laroche, Thiesse), ou encore pour la prédiction par synthèse de vues (M. Moinard, + sujet 2010 Codage vidéo scalable par analyse et synthèse de données)). Planning Global du déroulement de la thèse (grandes lignes) Le déroulement de la thèse sera le suivant : 1- Etat de l’art, bibliographie, focus sur MVC 2- Mise en place du cadre formel de l’étude : sélection de displays/rendering utilisation de modélisation existante 3- Proposition d’outils de codages et développement, évaluation subjectives et objectives dans le cadre spécifié par l’étude 4- Rédaction du manuscrit Contributions secondaires si prévues (participation à des projets collaboratifs) References [1] ―Beyond HDTV: Implications for Digital Delivery‖ , K. McCann, ZetaCast, Independent Report, July 2009. [2] Coding techniques in Multiview Video Coding and Joint Multiview Video Model, Ying Chen; Hannuksela, M.M.; Ling Zhu; Hallapuro, A.; Gabbouj, M.; Houqiang Li; Picture Coding Symposium, 2009. PCS 2009. [3] Coding Algorithms for 3DTV—A Survey, Smolic, A.; Mueller, K.; Stefanoski, N.; Ostermann, J.; Gotchev, A.; Akar, G.B.; Triantafyllidis, G.; Koz, A.; IEEE Transactions on CSVT [4] Dense disparity estimation in multiview video coding, Daribo, I.; Kaaniche, M.; Miled, W.; Cagnazzo, M.; Pesquet-Popescu, B.; Multimedia Signal Processing, 2009. IEEE International Workshop on MMSP '09. [5] SVC/MVC content protection over P2P delivery networks, Garcia, L.; Arnaiz, L.; Alvarez, F.; Zahariadis, T.; Consumer Electronics, 2009. ICCE '09. [6] Multiple Description Coding versus Transport Layer FEC for Resilient Video Transmission, Soldani, C.; Leduc, G.; Verdicchio, F.; Munteanu, A.; Digital Telecommunications, , 2006. ICDT '06. [7] A performance comparison of multiple description video streaming in peer-to-peer and content delivery networks, Khan, S.; Schollmeier, R.; Steinbach, E.; Multimedia and Expo, 2004. ICME '04. 2004