Projet Intercom : Comment optimiser la compression de vidéos pour des requêtes spécifiques dans un contexte de télévision à point de vue libre ?

Au travers de cette série d’interviews, nous vous invitons à découvrir certains des projets du labex CominLabs tout en en apprenant plus sur les sciences du numérique.

Nous avons eu l’occasion d’interviewer Aline Roumy, directrice de recherche Inria au Centre Inria Rennes – Bretagne Atlantique, sur le projet Intercom dont elle a été la responsable scientifique.

Pouvez-vous vous présenter ?

Je m’appelle Aline Roumy, je suis directrice de recherche Inria au Centre Inria Bretagne-Atlantique à Rennes. Je travaille dans l’équipe-projet Sirocco. Mon domaine de recherche est la compression d’images et de vidéos en tenant compte de leur communication, leur transmission, donc l’aspect du streaming.

Pouvez-vous m’expliquer en quoi consiste la compression ?

Le premier objectif d’une compression est de réduire un fichier le plus possible pour le stocker ou le transmettre.

Il existe d’une part la compression sans perte d’information, qui est utilisée lorsqu’il est nécessaire de conserver l’intégrité du contenu du fichier. Lors de la compression sans perte, on enlève tout d’abord toutes les redondances ou répétitions contenues dans le fichier. Puis, on utilise le fait que certains symboles sont plus fréquents que d’autres avec un code à longueur variable. Par exemple, cette idée est exploitée dans le morse. Le « e », qui est souvent utilisé, est codé sur un signal qui est court. A l’inverse, une lettre qui est moins souvent utilisée, comme le « y », pourra être codée sur un signal plus long. Déjà quand on joue avec cela, nous pouvons compresser l’information et gagner en débit, en volume de représentations des mêmes données, tout en gardant l’intégrité du message.

Pour les images et les vidéos, les fichiers sont énormes et il faut pouvoir compresser encore plus. Pour ce faire, on s’autorise une dégradation et on cherche alors la représentation de l’image la plus compacte (en nombre de bits) qui ne dégrade pas plus que la limite que l’on s’est fixée ou qui ne va pas au-delà d’un niveau de visibilité, selon le service visé. Par exemple, on peut retirer les détails, les hautes fréquences des images.

Sur quels projets CominLabs êtes-vous intervenus ?

J’ai porté le projet Intercom pour « Communication Interactive » où nous avons abordé la question de la compression dans un contexte de communication avec interactions entre un utilisateur et un serveur. C’est-à-dire que nous considérons un usage particulier où l’utilisateur n’est pas intéressé par la totalité de la vidéo, ou, de manière plus générale, d’une base de données, mais seulement à une petite partie que nous allons extraire. Dans le cadre du projet Intercom, nous avons appréhendé le problème de la télévision à point de vue libre.

Qu’est-ce que la télévision à point de vue libre ?

Nous pouvons prendre l’exemple d’une scène qui a été captée par plusieurs caméras avec différents points de vue. Le spectateur peut être intéressé par un point de vue à un moment donné. Puis, il peut souhaiter changer de point de vue. Imaginons un match de tennis à Rolland Garros où l’utilisateur souhaite se concentrer sur un des joueurs malgré l’action en cours dans la rencontre.

La question émergeant dans ces cas-là est : d’une même scène avec différents points de vue, comment faire pour compresser toutes ces vidéos tout en permettant à tous les utilisateurs ayant des requêtes différentes de ne recevoir que la partie qui les intéresse ?

La difficulté vient du fait que l’on souhaite compresser toutes ces vidéos ensemble afin d’exploiter au mieux leurs redondances. Ce faisant, on crée alors un unique fichier, où toutes les informations sont mêlées et où il n’est pas possible d’en extraire facilement une partie sans décompresser toutes les vidéos.

T. Maugey, C. Le Cam, L. Guillo, Télévision à point de vue libre et système de capture à plusieurs caméra omnidirectionnelles, GRETSI, Juan-les-Pins, France, Sep. 2017.

Quelle est l’origine du projet ?

Nous avions commencé par formaliser ce problème de télévision à point de vue libre par une approche mathématique et nous avions dérivé des bornes théoriques de compression.

Les premiers résultats étaient très prometteurs. Nous avons montré qu’il est possible d’extraire les données dans le domaine compressé (sans décompression) avec le même débit que si l’on avait décompressé toute la base de données avant de faire l’extraction. On peut ainsi économiser toutes ces décompressions, ce qui est important dans le cas où de nombreux utilisateurs font des requêtes concurrentes à une même base de données.

 

Quelles personnes et quelles compétences ont été impliquées dans ce projet ?

Si ce premier résultat était très prometteur, il fallait maintenant construire l’algorithme de compression proprement dit. Une première étape consistait à construire une généralisation du code à longueur variable à notre problème avec interaction. Ce travail a été réalisé par nos partenaires spécialistes de construction de code à l’IMT Atlantique et au Lab-STICC, Elsa Dupraz et Karine Amis.

Dans l’équipe-projet Sirocco, et avec Thomas Maugey, nous avons construit l’algorithme qui exploite toutes les redondances dans les images ou les vidéos, avec cette contrainte d’interactivité. Cette étape reposait sur nos compétences en compression d’images et de vidéos.

Nous avons aussi remarqué que cette question de compression de source avec interactivité se retrouve dans d’autres applications que la vidéo et l’image. Nous avons un collègue chez Inria, Jean Dumoulin de l’équipe-projet I4S, qui travaille sur des bases de données météorologiques qui représentent un grand nombre de données. Ici aussi l’utilisateur n’est généralement pas intéressé par récupérer la totalité des données.

Tous ces travaux de construction d’algorithme étaient guidés par les résultats théoriques. Les techniques de preuve donnaient des intuitions sur la manière de construire les algorithmes. Nous avons donc poursuivi cet effort en nous basant sur nos expériences communes et diverses de théorie de l’information entre notre équipe Sirocco, l’équipe de l’IMT Atlantique et également Michel Kieffer du laboratoire L2S à Saclay.

Enfin, nous nous sommes intéressés à la modélisation de la navigation d’une part, et d’autre part à d’autres modalités d’images comme les images omnidirectionnelles, c’est-à-dire prises à 360°. Pour ce faire, nous avons collaboré avec un autre partenaire Pascal Frossard de l’École Polytechnique Fédérale de Lausanne (EPFL), dans une extension à l’international du projet Intercom également soutenue par CominLabs.

« A un instant donné, un utilisateur n’observe qu’une partie d’une image 360°. Dans un tel scénario, des algorithmes de compression interactive développés dans le projet Intercom permettent de ne transmettre que ce qui est nécessaire, sans perte de performance en compression. » N. Mahmoudian-Bidgoli, T. Maugey, A. Roumy, “Fine granularity access in interactive compression of 360-degree images based on rate adaptive channel codes”, accepted in IEEE Transactions on Multimedia, July 2020.

Quels sont les résultats de ce projet Intercom ?

Le principal résultat, qui était le but premier de ce projet, était l’obtention d’un algorithme de compression avec interactivité. Nous avons atteint cet objectif et un démonstrateur pour les images omnidirectionnelles a été développé. Il contient les briques développées par les partenaires du projet.

Un autre résultat a été la généralisation du premier résultat théorique. Avant le projet, nous avions travaillé sur la compression sans perte et nous devions, pour les besoins du projet, étendre les résultats au cas de la compression avec pertes.

D’autres résultats ont été obtenus pour les images omnidirectionnelles. Ces images peuvent être vues comme des fonctions définies sur la sphère. Nous avons développé une nouvelle approche, où tous les traitements sont directement définis sur la sphère de manière à exploiter au mieux les caractéristiques de ces images.

Le coût de transmission est souvent pris en compte comme une contrainte forte. La question du stockage des volumes de données créées chaque jour est devenue aussi très importante. L’optimisation du compromis entre les coûts de stockage et de transmission a été un autre résultat important du projet.

 

Quelles sont les suites de ce projet et ses perspectives ?

Nos travaux sur l’optimisation du compromis entre les coûts de stockage et de transmission a été à l’origine d’une collaboration avec la société MediaKind, spécialiste des algorithmes de compression vidéo. Un contrat de thèse Cifre a été signé au printemps 2021 entre MediaKind et Inria.

Nous nous sommes fortement investis dans la consolidation et la valorisation des résultats du projet. Pour cela, nous avons bénéficié de la part de CominLabs d’une action d’innovation intitulée MOVE.

Nous avons également obtenu d’autres soutiens. Inria nous a accordé une action de développement technologique (ADT) nommée ICOV pour réaliser une démonstration complète. L’idée est de créer un algorithme fini pouvant s’intégrer dans des players vidéos tels que VLC.

Une autre suite envisagée est un projet de start-up. Nous sommes actuellement dans un processus de maturation. Elle sera lancée en septembre 2021 via le programme de financement Inria Startup Studio.

 

Qu’est-ce que vous a apporté le Labex CominLabs dans le déroulement du projet Intercom ?

La confiance que CominLabs nous a accordé a été très importante. La proximité avec la gouvernance a aussi été un plus. A l’écoute des porteurs de projets, la gouvernance nous conseille, nous aiguille tout au long du projet mais aussi après, afin d’exploiter au mieux toutes les retombées du projet.

 

Est-ce que vous voulez ajouter un mot ?

En tant que responsable du projet, je suis fière, de ce que nous avons atteint d’un point de vue scientifique et de la portée des résultats, mais également de cette synergie et de l’enthousiasme partagé par les partenaires tout au long du projet.

 

Pour en savoir plus, vous pouvez aller sur le site du projet Intercom (site en anglais).

 

Les commentaires sont clos.