La sémantique automatique de l’image

Publié le 15 décembre 2020

Cet article a été initialement publié sur I'MTech, le blog d'actualité scientifique et technologique de l'Institut Mines-Télécom.

Reconnaître les visages, des objets, les motifs, la musique, l’architecture voire les mouvements de caméra : les progrès considérables de l’intelligence artificielle permettent aujourd’hui de caractériser chaque plan, chaque séquence d’une vidéo. Dans le cadre du laboratoire commun IA TV créé en octobre dernier entre France télévisions et Télécom SudParis, les chercheurs développent actuellement un algorithme capable d’analyser l’offre de programmes de fiction du service audiovisuel public.

À mesure que fleurissent en ligne des plateformes de vidéos à la demande, se sont déployés les algorithmes de recommandation associés, capables de prendre en compte – entre autres – les goûts des téléspectateurs en fonction du genre, des acteurs et de la thématique du programme. In fine, s’offrir plus de chances de tomber juste. L’intelligence artificielle permet aujourd’hui d’aller encore plus loin : s’ouvre désormais la possibilité de spécifier le lieu de l’intrigue, le type de plans et d’actions ou encore l’enchaînement des scènes.

C’est sur cet objectif que travaillent les équipes de France Télévisions et de Télécom SudParis depuis octobre 2019 et le lancement du laboratoire commun IA TV. Elles s’attachent à l’automatisation de l’analyse de contenus vidéo de fictions.

« Aujourd’hui, nos règles de recommandation sont très basiques. Si un téléspectateur a apprécié un contenu, une émission, un film, un documentaire, on ne sait pas grand-chose des raisons pour lesquelles il l’a apprécié ni même des caractéristiques du contenu en lui-même. Pour une fiction, était-ce l’époque, le casting, l’intrigue ? Il existe tellement de dimensions qui peuvent l’avoir séduit », souligne Matthieu Parmentier, à la tête du département Data & IA chez France Télévisions.

L’IA appliquée aux contenus de fiction

L’objectif du partenariat est justement d’explorer ces dimensions. En s’appuyant sur le deep learning, une technique d’apprentissage profond par réseaux neuronaux, les chercheurs passent à la moulinette de leur algorithme une quantité massive de vidéos. Les différentes couches de neurones successives extraient et analysent des caractéristiques de plus en plus complexes d’une scène visuelle : la première couche prend les pixels de l’image, la dernière fournit les étiquettes.

« Grâce à cette technologie, nous sommes capables de catégoriser les contenus, c’est-à-dire de classifier chaque séquence, chaque scène, afin de savoir, par exemple, si elle est tournée en extérieur ou en intérieur, de reconnaître les personnages/acteurs impliqués, d’identifier des objets ou lieux d’intérêt ainsi que les relations entre ces différents éléments, ou encore d’en extraire des caractéristiques émotionnelles ou esthétiques. Notre objectif est d’arriver à rendre la machine capable de dériver automatiquement vers une interprétation de scène sémantiquement semblable à celle des humains. » précise Titus Zaharia, chercheur à Télécom SudParis, spécialiste de l’IA appliquée aux contenus multimédias.

Les chercheurs ont déjà obtenu des résultats probants. La scène se déroule-t-elle dans une voiture ? Dans un parc ? À l’intérieur d’un bus ? L’outil propose les catégories les plus pertinentes par ordre de probabilité. Leur algorithme parvient également à déterminer les valeurs de plan des séquences analysées : plan large, plan d’ensemble, gros plan. « Cela n’existait pas encore sur le marché », s’enthousiasme Matthieu Parmentier. « Et en plus de détecter ces changements de plans, l’algorithme parvient à identifier ceux qui appartiennent à la même scène. »

Pour France Télévisions, les applications seront nombreuses. D’abord, l’extraction automatique des trames-clé, c’est-à-dire, pour chaque séquence et selon des critères esthétiques, l’image la plus représentative pour illustrer un contenu de fiction ; ensuite, l’identification dans un programme des moments « idéaux » entre lesquels introduire une publicité. « Toutefois, nous travaillons actuellement sur des plans vidéo fixes. Un de nos prochains objectifs est de parvenir à caractériser des plans en mouvement comme les zooms, les travellings, ou les panoramiques. Pour nous, cela peut être très intéressant dans une perspective d’assistance au montage ou de réutilisation de contenus », ajoute Matthieu Parmentier.

Des solutions IA multimodales

Afin de s’adapter aux nouveaux usages numériques des téléspectateurs, les équipes de France Télévisions et de Télécom SudParis collaborent ensemble depuis plus de cinq ans. Elles ont concouru à la création de solutions et d’outils d’intelligence artificielle appliqués à l’image numérique, mais aussi à d’autres formes de contenus, textes et sons.

En 2014, les deux structures ont lancé le projet collaboratif Média4Dplayer, un prototype de lecteur média destiné aux quatre écrans (TV, PC, tablette et smartphone), accessible à tous et plus particulièrement aux populations vieillissantes ou en situation de handicap. Quelques mois plus tard, elles s’intéressaient à la génération automatique de sous-titres. Ici, les intérêts sont pluriels : l’égalité d’accès aux contenus ou encore la possibilité de visionner une vidéo sans le son.

« Dans le cas du journal télévisé, par exemple, les sous-titres sont générés en direct par des petites mains, des scribes professionnels. Nous en avons tous fait l’expérience, cela peut entraîner parfois des erreurs mais surtout un décalage entre ce que l’on entend et ce que l’on lit » explique Titus Zaharia. La solution développée par les deux équipes a permis de produire cette synchronisation de manière automatique à destination de l’offre Replay de France TV. Une technologie pour laquelle ils ont pu déposer un brevet commun après deux ans et demi de développement. « Nous espérons, à terme, pouvoir proposer des sous-titres parfaitement synchronisés, quelques secondes après la diffusion de tout type d’émissions en direct », poursuit Matthieu Parmentier.

« France Télévisions recèle des problèmes non résolus en matière de recherche scientifique, notamment en intelligence artificielle. Ce qui nous intéresse, c’est de développer des outils qu’ils pourront utiliser et industrialiser rapidement, mais qui seront suffisamment génériques et méthodologiquement porteurs pour trouver dans l’avenir d’autres domaines d’application », conclut Titus Zaharia.

Contact : Titus.Zaharia (at) telecom-sudparis.eu

Pour aller plus loin :

DEEP-HEAR: A Multimodal Subtitle Positioning System Dedicated to Deaf and Hearing-Impaired People

DEEP-AD: A Multimodal Temporal Video Segmentation Framework for Online Video Advertising

La sémantique automatique de l’image

La sémantique automatique de l’image

L’IA appliquée aux contenus de fiction

Des solutions IA multimodales

Forum de recrutement de Printemps

Proximate remporte le Prix Orange de l’innovation !

Uni’Vert

Site d’Evry-Courcouronnes

Site de Palaiseau

Partenaires