Campagne 2010 Fiche descriptive de la thèse

Transcription

Campagne 2010 Fiche descriptive de la thèse
Campagne 2010
Fiche descriptive de la thèse
Encadrant Orange Labs: Joel Jung
Adresse électronique de l'encadrant : [email protected]
Site: Issy
Sujet de la thèse (Titre):
Codage multi-vues plus profondeur (MVD) avancé pour la TV-3D et le FTV.
Contexte global de l'étude et état de l'art
La vidéo mutli-vues, capturée par des caméras synchronisées à partir de points de vue différents,
comporte des informations 3D importantes pour les nouveaux services tels que la TV-3D ou le FTV
(Free ViewPoint TV). Néanmoins, deux points majeurs sont susceptibles de ralentir leur arrivée pour
le grand public : 1- la qualité d’affichage (rendering/display), et 2- la qualité du contenu (codage 3D).
En ce qui concerne le premier point, différentes études montrent que les avis semblent converger
globalement. Dans [1], à la question « quelle est la techno d’affichage la plus prometteuse pour
introduire les services 3D à la maison ?», la réponse est majoritairement les «Stereoscopic Display»
avec lunettes polarisées (attendus en 2010-2012). Des variantes d’ « Auto-stereoscopic Display »,
bien que fournissant aujourd’hui une expérience utilisateur insuffisante, sont notées de «prometteur»
à «très prometteurs» pour 2015-2020, avec résolutions allant de 1080p 50Hz (certain), à 2160p (très
probable). Ces dernières variantes ne doivent donc pas être écartées aujourd’hui.
En ce qui concerne le second point, la quantité d’information nécessaire pour fournir le contenu 3D,
liée au nombre de points de vue, est gigantesque. Disposer d’un codeur video multi-vues performant
est donc nécessaire pour permettre l’essor de ces applications TV-3D ou FTV. Les travaux sur le
codage de vues multiples ne sont pas récents : MPEG-2 inclus un profile capable de traiter 2 vues. En
2007, MPEG-C part 3 facilite l’approche « 2D + profondeur », en proposant un format de
représentation pour les «Auxiliary Video and Supplemental Information», comme les cartes de
profondeur. Enfin, en 2008, l’annexe multi-vues de H.264 est proposée. Les résultats associés sont
cependant très décevants. Globalement, le débit requis reste proportionnel au nombre de vues – un
gain de 20% seulement, par exemple, est observé par rapport au simulcast dans le cas de 8 vues.
MVC n’est donc pas une solution long terme pour le codage multi-vues. Aujourd’hui, MPEG et l’ITU-T
lancent le projet H.265. Initialement ce projet adresse le codage 2D pur : il est fort probable qu’il n’y ait
pas de fonctionnalité multi-vues dans un premier temps, mais que celle-ci apparaisse plus tard sous
forme d’une sur-couche
e
Le but de cette thèse est d’adresser en profondeur le 2 point, tout en considérant l’environnement
(points 1), qui sera modélisé le plus fidèlement possible. Le contexte global est idéal pour aborder
cette problématique de codage multi-vues de bout en bout : la première génération d’écran est
disponible, d’une part, ce qui permet l’évaluation des résultats, et d’autre part les fonctionnalités de
codage multi-vues ont été abordées, mais n’apportent pas à ce jour de gains suffisants.
Objectifs de la thèse/ Résultats attendus/ Défis scientifiques/techniques à
relever.
L’objectif de la thèse est de proposer des méthodes de codage innovantes pour la prise en compte de
n vues (avec m cartes de profondeurs 0 m n ), dans le cadre d’applications telles que la TV-3D
haute résolution, ou FTV. De manière additionnelle, elle pourra fournir, à plus court terme, des briques
de codage lors de la mise en place de l’annexe multi-vues du codeur H.265.
Les défis scientifiques consistent d’une part à mieux coder le flux multi-vidéos, en utilisant plus
efficacement la corrélation inter-vues, par exemple, mais aussi de prendre en compte les artefacts de
codage et de restitution du relief dans le cadre d’applications ciblées. Sur quelle composante du flux
vidéo peut-on gagner ? Quel impact sur la vidéo 3D restituée ?
L’environnement global du codage vidéo sera étudié, et pris en compte pour une optimisation de bout
en bout. En effet, l’adaptation aux caractéristiques du display et au rendering sont encore plus
cruciaux qu’en 2D pour fournir un rendu 3D cohérent.
Approche méthodologique proposée par le responsable technique
(Préciser les compétences recherchées nécessaires à l'approche)
Le codage multi-vues multi-profondeurs laisse place à ce jour à de nombreuses voies d’exploration.
La corrélation inter-vues n’est pas correctement exploitée, c’est pourquoi malgré son apport de 8 à
12% elle n’a pas été conservée dans MVC [2][3]. Plus de recul et de recherches sont nécessaires
pour intégrer efficacement ces schémas, et adresser les problématiques telles que la compensation
d’illumination, l’interpolation de la profondeur, l’estimation, la compensation et le codage de la
disparité, la correction de couleur, le calcul de GDV (global disparity vector) pour des approches de
type motion skip, par disparité dense [4] ou autres, ou encore les View synthesis prediction (VSP).
L’analyse de la robustesse et des schémas de transport appropriés s’appuiera sur les résultats de
travaux de recherche récents [5][6][7]. L’adaptation aux caractéristiques du display sera le résultat
d’études subjectives poussées.
Des liens étroits avec d’autres thèses menées dans l’URD CVA sont envisagés : prise en compte du
mouvement intra et inter vues (liens avec les tubes de mouvements (M. Urvoy), et outils de codage de
mouvement 2D (Laroche, Thiesse), ou encore pour la prédiction par synthèse de vues (M. Moinard, +
sujet 2010 Codage vidéo scalable par analyse et synthèse de données)).
Planning Global du déroulement de la thèse (grandes lignes)
Le déroulement de la thèse sera le suivant :
1- Etat de l’art, bibliographie, focus sur MVC
2- Mise en place du cadre formel de l’étude : sélection de displays/rendering utilisation de
modélisation existante
3- Proposition d’outils de codages et développement, évaluation subjectives et objectives dans le
cadre spécifié par l’étude
4- Rédaction du manuscrit
Contributions secondaires si prévues (participation à des projets collaboratifs)
References
[1] ―Beyond HDTV: Implications for Digital Delivery‖ , K. McCann, ZetaCast, Independent Report, July
2009.
[2] Coding techniques in Multiview Video Coding and Joint Multiview Video Model, Ying Chen;
Hannuksela, M.M.; Ling Zhu; Hallapuro, A.; Gabbouj, M.; Houqiang Li; Picture Coding Symposium,
2009. PCS 2009.
[3] Coding Algorithms for 3DTV—A Survey, Smolic, A.; Mueller, K.; Stefanoski, N.; Ostermann, J.;
Gotchev, A.; Akar, G.B.; Triantafyllidis, G.; Koz, A.; IEEE Transactions on CSVT
[4] Dense disparity estimation in multiview video coding, Daribo, I.; Kaaniche, M.; Miled, W.;
Cagnazzo, M.; Pesquet-Popescu, B.; Multimedia Signal Processing, 2009. IEEE International
Workshop on MMSP '09.
[5] SVC/MVC content protection over P2P delivery networks, Garcia, L.; Arnaiz, L.; Alvarez, F.;
Zahariadis, T.; Consumer Electronics, 2009. ICCE '09.
[6] Multiple Description Coding versus Transport Layer FEC for Resilient Video Transmission, Soldani,
C.; Leduc, G.; Verdicchio, F.; Munteanu, A.; Digital Telecommunications, , 2006. ICDT '06.
[7] A performance comparison of multiple description video streaming in peer-to-peer and content
delivery networks, Khan, S.; Schollmeier, R.; Steinbach, E.; Multimedia and Expo, 2004. ICME '04.
2004

Documents pareils