Différents formats

Les ordinateurs sont des appareils digitaux et ils travaillent avec des images rectangulaires composées de pixels. Il n’est pas possible de représenter une image sphérique directement en informatique. Pour ceci nous travaillons avec des images carrées qui sont ensuite appliquées à une sphère via des projections. La représentation de la scène dans l’image peut varier comme nous allons voir ci-après.

Figure 1 – Exemple reprojection exagérée pour illustration

Panoramique (360°/180°)

Figure 2 – Exemple image format panoramique non-projetée

Le projection panoramique, ou projection cylindrique équidistante, est une représentation qui peut paraître très logique et naturelle. Ceci est dû au fait qu’on y a été bien habitué, en effet c’est une représentation quasi identique à un atlas de planète, cependant on regarde la sphère depuis l’intérieur et pas depuis l’extérieur ici. Cette méthode de projection est la plus commune car elle a une bonne distribution de qualité à la hauteur des yeux, mais si on approche les pôles de la sphère la qualité va diminuer car les pixels seront plus étirés que ceux au centre.

 

Cubemap / 6-cubeface

Cette technique a été principalement utilisée dans les applications temps réel, comme les jeux vidéo, sous le nom de Cubemap. Elle y était mieux adaptée car le calcul de reprojection est plus facile à effectuer et ceci a pour effet une meilleure performance. On représente la projection par un cube à 6 faces qui représente chaque direction du regard. On reprojette ensuite ce cube à l’infini par rapport au point de vue de la scène et l’illusion d’une sphère est bien reconstituée.

On peut voir cette image comme un cube découpé en 2 « C » qui sont imbriqués selon l’illustration ci-dessous.

Re-projection entre les variantes

Certaines applications ne supportent pas automatiquement le format qu’on a à disposition. Dans ce cas, on peut reprojeter entre ces formats avec des outils comme Photoshop (pour les images) ou FFMPEG (pour les images et les vidéos). C’est une opération avec de la perte d’information, donc il vaut mieux toujours conserver la source et travailler à partir de celle-ci pour la création de nouvelles projections.

FFMPEG est également très bien adapté à changer la résolution ou la bande passante des vidéos pour optimiser la taille de la vidéo par rapport à la qualité souhaitée ou l’appareil utilisée pour l’affichage. En effet, un Meta Quest 3 est relativement puissant, mais il ne pourra pas lire une vidéo avec une large bande passante (250Mbps ou plus haut). Cela aura aussi un effet sur la taille du fichier qui fera environ 30MB par seconde de vidéo.

Stéréoscopie

La stéréoscopie est le terme utilisé pour la technique qui reproduit notre vision humaine à 2 yeux. Elle permet de berner le cerveau pour lui faire croire qu’il voit une scène en profondeur, mais elle a du sens uniquement lorsqu’elle est utilisée avec un casque de réalité virtuelle pour afficher chaque image à son œil respectif.

Vous vous demandez peut-être comment, c’est possible de capturer une image 360 stéréoscopique ? Si on utilise 2 caméras 360 l’une à côté de l’autre, on verra chaque fois la caméra dans l’autre capture. Autrement on pourrait capturer les images une après l’autre, mais cela devient compliqué et pénible de faire des images, sans parler du fait que cela devient impossible pour une vidéo. En réalité, les captures se font sur des appareils photographiques de forme cylindrique ou sphérique avec 3 ou plus de caméras (6 ou 8 caméras est le plus courant).

Dans le précédent paragraphe nous n’avons pas parlé d’un aspect important : si on part du principe qu’on fait 2 captures l’une à côté de l’autre, le décalage des yeux ne correspondra plus lorsqu’on tourne la tête. Il faut comprendre qu’en fait les appareils qui produisent des images ou des vidéos 360 stéréoscopiques doivent faire beaucoup de calcul pour ajuster l’image 360 pour donner l’impression que le décalage des yeux donne un bon effet de stéréoscopie. Nous n’allons pas aller dans les détails des techniques utilisées.

Nécessite caméra 360 spéciale avec minimum 3 caméras. Matériel très coûteux, exemple ci-contre est à environ 15’000.-. Ensuite, du côté logiciel on a une reconstruction qui représente la scène stéréoscopique avec uniquement 2 images.

Au niveau du fichier image ou vidéo, les images sont généralement disposées l’une en-dessus de l’autre. L’image du haut correspond généralement à l’œil de droite, et l’image du bas à l’œil de gauche. Le logiciel qui lit le fichier va lui ensuite séparer la texture et l’afficher correctement.

Qualité recommandée

Comme les pixels de l’image sont distribué sur toute une sphère. Un champ de vision standard est d’environ 60° à l’horizontale. Ainsi, si on prenait l’équivalent de qualité 1080p (1920×1080 pixels) pour des photos prises avec un appareil photo standard, il faudrait une photo 360 de  pixels de large pour avoir le même degré de qualité. Si on calcule ceci pour les 2 axes, on se retrouverait avec une image d’environ 120 mégapixels. Ceci est au niveau de la qualité des satellites scientifiques, ainsi on doit vivre avec le compromis qu’on n’aura pas encore une qualité absolue sur nos appareils.

Pour les casques de réalité virtuelle, nous recommandons une résolution de vidéo entre 4096px et 5760px de large idéalement. Au-dessus, cela devient problématique pour être joué sur des appareils de VR mobiles haut-de-gamme, tels que des Meta Quest 2 ou des Pico Neo 4. Nous recommandons de ne pas aller au-dessous de 3000px de large pour garder un certain degré de qualité, surtout en VR.

Figure 4 – Photo 360 de 3000px exemple
Figure 5 – Photo 360 3000px avec large zoom

Pour résumer

 RecommandéMinimum
Résolution4096-5760px de large3000px de large
Bande passante (minimum)35-50 Mbit/s
(ou 50-70 Mbit/s en H.264)
15-20+ Mbit/s
(ou 20-25 Mbit/s en H.264)
EncodageH.265 ou H.264H.265 ou H.264

Quels avantages ?

  • Immersion visuelle,
    Lorsqu’on visionne la vidéo en VR, on est englobé dans la scène
  • Immersion auditive
    Possibilité d’intégrer de l’audio ambisonique qui enregistre l’origine de tous les sons et s’adapte en fonction de la rotation de la tête
  • Immersion scénaristique
    On est au centre de l’action car la caméra ne va rarement être déplacée.
  • Rejouabilité d’une vidéo
    Dans une vidéo 360, on ne peut pas voir tous les angles à la fois, on voudra éventuellement revoir la vidéo pour remarquer des choses qu’on n’avait jusqu’alors pas remarqués.
  • Réalisme
    Comme la capture est faite à partir d’une vraie scène, on sera au plus proche de la réalité. Même avec les avancements des appareils, les vidéos 360 enregistrées ou rendues auront un niveau de fidélité supérieur par rapport à une scène 3D reconstruite à partir de la réalité. L’écart se réduit en revanche d’année en année.

Quels inconvénients ?

Désavantages pointilleux, si on recherche l’immersion avec les 360, cela joue bien.

Par rapport aux vidéos standard :

  • Les fichiers sont plus importants et il est nécessaire d’avoir une bonne bande passante si la vidéo est streamée via le réseau
  • Plus difficile à produire, tout le plateau de tournage doit être libre : l’équipe de tournage ne peut : pas se « cacher » derrière la caméra, pas de perchman pour l’enregistrement audio, etc. C’est pourquoi il arrive de mettre les caméras 360 sur les acteurs directement, mais l’acteur doit alors fait attention à ne pas trop se déplacer.
  • L’utilisateur choisit où il veut regarder, mais il peut rater des éléments qu’on souhaitait lui montrer. Ainsi il faut veiller à bien le guider sur où regarder avec des indications visuelles ou acoustiques.

Par rapport à une scène immersive 3D (visite virtuelle, jeu vidéo VR, etc.) :

  • Le point de vue reste fixe, on ne peut pas se déplacer dans la scène.
  • Pas d’interaction possible, on subit la vidéo sans pouvoir agir, prendre un objet, presser un bouton, etc.
  • Sans stéréoscopie, l’effet est bizarre en réalité virtuelle car tout est à la même distance
    Une autre option serait de faire l’environnement en 3D entièrement