La revue trimestrielle du Gsara


Analyse

Des usages de l’Intelligence Artificielle Générative dans le secteur audiovisuel (et leur application en éducation permanente)

Olivier GrinnaertOptiques n°2 – hiver 2023

La révolution IA n’aura pas lieu. Elle est déjà là.

Technologies numériques de pointe et production audiovisuelle ont toujours évolué de concert. Les premiers plans animés virtuellement en 2D datent de 1973 (Mondwest de Michael Crichton), le tournant des effets « pratiques » vers les effets numériques de 1993 (Jurassic Park de Steven Spielberg) et l’utilisation des caméras numériques dans l’industrie audiovisuelle s’est répandue massivement dès la seconde moitié des années 90. Le recours généralisé aux formes d’IA génératives dans la production peut donc être vu comme une nouvelle étape de cette numérisation forcenée, qui concerne simultanément la quasi-totalité des corps de métier. Dans cet article, nous mentionnons quelques utilisations des outils d’Intelligence Artificielle générative dans le secteur de la production audiovisuelle, tout en émettant quelques pistes de réflexion et parallèles avec nos pratiques d’éducation aux médias.

Décor

Au GSARA, les médias audiovisuels sont à la fois notre objet social et notre moyen d’action. En l’espace d’une semaine, trois collaborateur.rice.s m’ont fait part de leur recours à des outils d’intelligences artificielles génératives pour les aider dans le cadre de leur travail. L’un travaille sur un roman photo futuriste imaginé lors d’un atelier: une IA générative lui truquera ses photos du Charleroi contemporain. Un autre doit prolonger un visuel figurant une chaîne de montagnes couverte de nuages. Le dernier truque des plans en mouvement pour représenter des hauts lieux de Bruxelles inondés.

Dans chacun de ces trois exemples, le nouvel outil fabuleux va chercher des parties souvent infimes d’images parmi les innombrables clichés qu’elle aura intégré, avec pour but d’en recréer une nouvelle, plus ou moins cohérente, en accord avec la demande des utilisateurs (le fameux « prompt »1). Évidemment, ce système soulève des problématiques multiples et complexes liées à la juste rémunération des auteurs et des atteintes à leurs droits.2 De l’autre côté du spectre, se pose ici la question cruciale de la part de création de l’utilisateur.rice du logiciel. En effet, nous parlons bien ici d’Intelligence Artificielle générative et non créative. Si elle ne rend pas compte des proportions, une analogie avec le domaine de la musique et la pratique du sampling est ici assez éloquente: un bidouilleur de génie qui crée un morceau de toutes pièces avec des extraits musicaux et sonores puisés à droite et à gauche, n’a-t-il pas sa part de création dans le morceau final ? Doit-on nous attendre à voir émerger des orfèvres du prompt ? Concentrons-nous ici sur les principales phases de création d’une œuvre audiovisuelle, en essayant de la raccrocher à nos pratiques d’éducation permanente.

Écriture

Il s’agit de l’un des champs où les algorithmes d’Intelligence Artificielle génératrices sont les plus usités et les plus faciles d’utilisation à ce jour. Ces machines à apprendre ont scanné d’immenses quantités de données provenant de films et d’émissions de télévision à succès, puis génèrent des structures d’intrigue, des idées de développement de personnages ou même des dialogues. Bien sûr à l’heure actuelle, il ne s’agit que de suggestions, les IA servant de boîtes à outils pour débloquer une situation, ou générer un premier brouillon sur base des données entrées par l’utilisateur.

En pratique, et sous le regard bienveillant d’un.e animateur.rice, ces outils permettraient aux groupes de participant.e.s à nos ateliers vidéo embarqués dans un processus fictionnel de simplifier et fluidifier une étape délicate du travail. En effet, nombre d’ateliers patinent souvent en phase de création, ces IAs génératives pourraient donc servir de réservoir à suggestions, pour peu que celles-ci soient remises dans une perspective critique par le biais de l’animateur.rice.

Évidemment, il s’agit là d’une superbe machine à uniformiser les propositions. D’abord, les IA vont privilégier les recettes éprouvées dans des œuvres dites « à succès »3. Alors qu’une partie de la création cinématographique mondiale s’interroge sur des procédés de travail visant à s’émanciper des règles scénaristiques éprouvées, voilà un outil qui risque considérablement de précipiter les récits sur des voies de garage de plus en plus balisées. Autre fait notable, en raison notamment de biais historiques dans la collecte de données, une large majorité des structures dramatiques analysées par les Intelligences Artificielles sont rédigés en langue anglaise4. Par conséquent, de tels procédés pourraient perpétuer la domination des récits, des esthétiques et des idéologies occidentales.

Tournage

Pour le moment, c’est sans doute dans ce champ d’activité que les utilisations des Intelligences Artificielles génératives sont les moins évidentes. Une utilisation de ces outils peut amener à suggérer un découpage des scènes fonctionnel, compétent, calqué sur les productions qui auront été analysées. Par conséquent, nous pouvons porter les mêmes griefs qu’en phase d’écriture, soit l’absence de surprise et surtout l’inadéquation entre un découpage et une intention artistique sensible. Dans le domaine de la télévision, les modèles et enchaînements sont bien souvent basés sur des structures répétitives simples (notamment dans les jeux ou le sport), nous pouvons très facilement penser que les réalisateur.rice.s seront bientôt assistés ou provisoirement remplacés par des Intelligences Artificielles qui effectueront un montage « fonctionnel » en direct sur la base de reconnaissance des phases de jeu à leur place.

Post-Production

Dans cette partie du travail, les assistances proposées par les IA sont considérables, particulièrement dans le domaine de la création audiovisuelle destinée aux réseaux sociaux – nous emploierons donc le vocabulaire associé. L’utilisation la plus commune est le surtitrage systématique des contenus, ceux ci étant bien souvent consommés alors que l’appareil connecté reste muet. Depuis quelques années, nous avons été les témoins de l’amélioration sidérante des logiciels de traduction sur internet, les IA traductrices et génératrices de surtitres profitent également de ce bond en avant.

Au-delà de l’automatisation des surtitres, d’autres sociétés proposent des outils chargés de décliner le format de votre vidéo. D’une vidéo promotionnelle de 2 minutes 30, vous pourrez générer d’autres déclinaisons plus courtes, dans d’autres formats (16.9 / 4.3 / format vertical adapté aux smartphones) respectant les formules éprouvées « avec succès » sur les réseaux sociaux. D’autres outils encore permettent de découper, de séquencer les vidéos, d’en extraire les « meilleurs moments », d’en ôter les « temps morts ». Olivier Reynaud, co-fondateur de AIVE5, estime rendre les contenus vidéos plus « comestibles » plus « élastiques » plus adaptés à tous les publics (élargissant au passage le champ lexical de la consommation pour parler d’images en mouvement plus loin que jamais), l’idée étant de regarder des contenus et de « se divertir » toujours plus rapidement.

Aveuglément, les outils ici mentionnés affichent le gain de temps en principale vertu, s’associant à cette culture de la rapidité post-warholienne, où la réaction prime sur la réflexion, où un épiphénomène monté en épingle en quelques centaines de milliers de clics devient le centre d’attention du fameux quart d’heure de célébrité. Des outils facilitant la captation de l’attention, la fabrication ad nauseam de contenus interchangeables en flux continu nous empêchant de regarder en face leur propre vacuité.

Rappelons ici que les IAs sont dépourvues de tout point de vue critique. Chat GPT pourra créer un plan de travail, avec des bullets points, mais (jusqu’ici) pas de sens, pas de point de vue. En d’autres termes, il produira un texte « grammaticalement correct » mais pas de la littérature. Idem pour un montage vidéo. L’image, l’audiovisuel, le cinéma est un langage. On peut en organiser les signes pour créer un contenu fonctionnel et on peut les organiser pour produire une œuvre sensible.

Un exemple : un champ contrechamp sur une scène de rupture. Dans le dialogue, lorsque le personnage qui annonce sa volonté de rupture annonce la nouvelle, l’IA privilégiera son image plutôt que celle de la personne quittée, même si cette dernière est le personnage principal. Si vous étiez derrière la table de montage, ne privilégieriez-vous pas plutôt le.la comédien.ne en réaction ?

Enfin, on peut suspecter que l’usage massif des deep-fakes et autres vidéos truquées, notamment dans un contexte électoral, nous mènera encore davantage vers une société d’individus où la méfiance envers les grands médias s’amplifiera, les croyances se dirigeant vers des personnalités estimées comme «sûres» par leurs followers.

En conclusion

Encore une fois, ces outils permettent de trouver des pistes de solutions, rapidement. Les questions à aborder, et notamment en contexte d’atelier pratique, seront par exemple de savoir si nous voulons réellement de cette vitesse, ou si le temps de la réflexion ne nous serait-il pas profitable ? Prôner le recul et la mise en perspective critique semble ainsi toujours revenir au centre de nos préoccupations d’éducateurs.rices aux médias.

Alors que le travail juridique et éducatif autour de la protection des données personnelles vient de commencer, l’IA bouleverse le secteur de l’audiovisuel à une vitesse exponentielle, s’offrant à tout un chacun comme un rutilant jouet vertueux, alors même qu’il soulève des défis et des responsabilités cruciales. Sans même mentionner les dangers liés à l’anthropomorphisme6, l’équilibre entre l’innovation technologique et la protection des valeurs éthiques et culturelles devient toujours plus crucial.

  1. Un prompt désigne une instruction, que l’on envoie à un algorithme d’intelligence artificielle (IA) spécialisée dans la génération de contenu — comme du texte ou de l’image. ↩︎
  2. Nous nous attellerons à traiter ces problématiques dans des articles ultérieurs. ↩︎
  3. Sans que nous sachions exactement quels paramètres sont pris en compte. Au niveau transparence, les sociétés détenant ces IA génératrices ont encore quelques progrès à faire. ↩︎
  4. Plus de 90 % dans le cas de Chat GPT. ↩︎
  5. Outil d’automatisation du montage vidéo https://aive.com/ ↩︎
  6. À ce propos revoir le film Her de Spike Jonze (2013), où une personne en proie à la dépression tombe amoureux de son assistante vocale générée par l’IA. ↩︎

Olivier Grinnaert

Coordinateur pédagogique