Quand les algorithmes peuvent nous faire dire tout et n'importe quoi sur une vidéo

Comparaison entre deux techniques, faisant dire un discours d'Obama à Donald Trump
Comparaison entre deux techniques, faisant dire un discours d'Obama à Donald Trump - © http://www.cs.cmu.edu/~aayushb/Recycle-GAN/

En 2016, l’algorithme Face2Face a fait sensation, en dévoilant une maîtrise impressionnante du "transfert d’expressions faciales" en temps réel. En d’autres mots, les mimiques d’une personne (mouvements de la bouche, du nez, des yeux) apparaissaient sur le visage d’une autre personne, soit filmée en temps réel, soit depuis un enregistrement vidéo. Les chercheurs ont ainsi montré qu’ils pouvaient faire dire n’importe quoi à Barack Obama, Donald Trump ou George W. Bush junior… De quoi faire trembler la sphère des guerriers combattant les fake news, l’illusion étant bluffante.

Un nouveau terme était alors arrivé, celui de deepfake : un terme venant de la contraction de deeplearning, une méthode d’apprentissage pour les intelligences artificielles, et fake news, qui nomme une vidéo truquée afin de superposer l’image d’une personne ou d’un objet, sur d’autres images.

Du mimétisme de haut vol

En septembre 2018, des chercheurs du Facebook Reality Lab et de la Carnegie Mellon University (à Pittsburgh aux USA) ont été un pas plus loin, en arrivant à copier l’attitude générale d’une personne sur une autre, et surtout, transférer les paroles d’une personne vers une autre, tout en gardant les mimiques de cette dernière.

Comme exemple, l’équipe a pris deux animateurs américains très connus, John Oliver et Stephen Colbert. Sur leur site, les quatre scientifiques expliquent qu’ils ont réussi à transférer le discours de John Oliver sur Stephen Colbert, mais de telle sorte que Stephen Colbert garde ses propres mimiques. L’algorithme arrive à transférer les mouvements du visage, mais garde les mimiques propres à la personne cible.

Les chercheurs ont utilisé une version améliorée du cycle-GAN, la méthode employée depuis 2014. Les GAN sont des réseaux génératifs antagonistes. Le principe consiste à faire "dialoguer" deux algorithmes, pour parfaire leur apprentissage : l’un va essayer de créer le contenu le plus ressemblant -- le générateur -- , et va le proposer au deuxième -- le discriminateur --, qui le refusera jusqu’à ce que ça corresponde au résultat voulu. C’est donc une partie de ping pong entre les deux algorithmes, jusqu’à un résultat final convaincant. Nos scientifiques américains ont ici développé Recycle-Gan, où l’intelligence artificielle intègre les changements spatiaux et temporels, pour un bien meilleur mimétisme.

L'exemple le plus flagrant est certainement le passage de Barack Obama vers Donald Trump. Sur la vidéo ci-dessous, on peut clairement voir que cette manière si caractéristique qu'a Donald Trump est conservée dans le Recycle-GAN.

Au-delà du fait de pouvoir mettre les paroles de quelqu'un dans la bouche d'un autre, et donc de pouvoir manipuler bon nombre de vidéos, cette technique présente un potentiel artistique fort. Elle pourrait apporter de grandes avancées dans l'animation, que ce soit dans les jeux vidéo, le cinéma ou la réalité virtuelle ou augmentée. Les gestes, comportements des personnages et objets animés pourraient devenir de plus en plus réalistes, comme le montre cette vidéo d'un oiseau origami qui s'envole à la manière d'un oiseau réel.

Le secteur de la pornographie s'intéresse aussi tout particulièrement à cette technologie, afin de pouvoir fournir une expérience encore plus "personnalisée", soulevant toute la question éthique de mettre le visage d'une personne sur une autre sans son consentement.