Clonage de voix : Ces logiciels qui peuvent faire dire n’importe quoi à n’importe qui…

À l’ère du numérique, les nouvelles avancées technologiques dépassent de plus en plus l’entendement. Parmi ces prouesses informatiques plus ingénieuses les unes que les autres, le terme « Deepfake » revient assez souvent. Encore méconnu par une grande partie des populations sénégalaises, ce procédé parfois « diabolique » est défini comme une technique d’hyper trucage. Il permet de superposer des fichiers vidéos et ou audios déjà existants, sur d’autres supports du genre. Ce, afin de créer un fichier de synthèse à partir de l’intelligence artificielle.

Autrement dit, dans un jargon plus accessible aux profanes, il est aujourd’hui possible avec l’aide de logiciels et applications, de reproduire le visage et ou la voix de n’importe qui et lui faire dire n’importe quoi. Une « arme » d’autant plus redoutable et destructrice qu’elle peut servir à nuire, diffamer, ou décrédibiliser une personnalité publique ou une figure politique par exemple.

Au Sénégal, la question a été récemment soulevée suite à la divulgation sur les réseaux sociaux de messages audios soi-disant « clonés » qui avaient placé certaines personnalités dans une situation pour le moins compromettante concernant l’affaire dite « Sweet beauté. » À cela s’ajouteront quelques grotesques tentatives de montages photos maladroitement disséminés sur la toile. Avec comme cible, une personnalité politique du côté de l’opposition Sénégalaise, Ousmane Sonko pour ne pas le nommer.

Dans tout ce battage médiatique, il est important de prendre un peu de recul afin de tirer le vrai du faux. Cette entreprise nécessite donc de définir les limites technologiques en l’espèce. Et de relever ce qui est du domaine de la manipulation et de la pure spéculation, en jetant la lumière sur ces types de procédés, leur accessibilité ainsi que leur usage dans un pays comme le Sénégal, pas encore à la pointe des NTIC…

Mountaga Cissé, consultant et formateur en médias : « Il y a ce qu’on appelle l’empreinte de la voix, la tonalité, le débit … »

Pour en revenir aux fondamentaux du « Deepfake », le consultant et spécialiste en médias, Mountaga Cissé, d’expliquer dans le détail que : « Le clonage de voix fait partie de ce qu’on appelle le « Deepfake », c’est-à-dire les manipulations de contenu multimédia, la vidéo, l’image et le son. Dans les Deepfake on peut par exemple prendre une vidéo d’une autorité et lui faire dire quelque chose qu’il n’a pas dit. Dans ce cas on parle de clonage de voix… » Une technique bien plus complexe qu’il n’y paraît.

Poursuivant, il fera comprendre que chaque individu a ce qu’on appelle « l’empreinte de la voix, la tonalité, le débit, les remontées et descentes etc. C’est cette empreinte qui est mise dans un logiciel et à côté on crée un texte qui n’a rien à voir avec le discours de l’autorité en question. Et c’est la voix créée par le logiciel qui va lire le même texte. » Un modus operandi loin d’être l’affaire de quelques clics de souris et manipulations au niveau du clavier.

Demba Diagne, informaticien et réalisateur audiovisuel : « Le terme Deepfake a été utilisé pour la toute première fois par un utilisateur de reddit… À la base, cette technique était utilisée dans les productions cinématographiques »

Dans ce florilège d’expressions et d’explications assez techniques, revenir sur la naissance même du « Deepfake » semble pertinent. À cette interrogation 2.0, Demba Diagne, informaticien et réalisateur audiovisuel de son état, décline un rappel historique pour le moins intéressant. « Le terme Deepfake a été utilisé pour la toute première fois par un utilisateur de reddit qui est une plateforme américaine spécialisé dans tout ce qui est high-tech. C’est par la suite que le terme s’est propagé… En 1997, il y avait un film qui retraçait le parcours du président américain, John Fitzgerald Kennedy. À l’époque, le « Deepfake » avait été utilisé pour reproduire la voix de Kennedy et ses expressions faciales. À la base, cette technique était utilisée dans les productions cinématographiques. »

Une sorte de détournement d’objectif interviendra par la suite : « à un moment donné les gens ont commencé à utiliser le « Deepfake » à d’autres fins. Un réalisateur américain, Jordan Peele, avait d’ailleurs fait un Deepfake de Barack Obama pour lui faire dire des propos qu’il n’avait jamais tenus. Ceci, à titre illustratif car il voulait éveiller l’opinion sur les dangers de cette technologie. » Peele avait déjà mesuré les dégâts considérables que cette merveilleuse technologie pouvait engendrer une fois entre de mauvaises mains.

« Il y’a des procédés très terre à terre qui font que dès que vous regardez la vidéo vous savez que c’est un montage. »

Car, avertit le spécialiste en médias, Mountaga Cissé, au-delà du clonage de voix, il est bel et bien possible de reproduire à l’identique une image et en faire une vidéo dont le contenu pourrait être manipulé à volonté.« Maintenant on peut aller plus loin en mettant une vidéo qui va avec les lèvres, qui synchronise le visage avec le son etc. Vous pouvez voir une autorité qui parle de quelque chose alors qu’en réalité il s’agit juste d’une image de synthèse fabriquée avec un logiciel. »

Tout de même, il fera remarquer : « Autant il peut y avoir des procédés très ingénieux, autant il y’a des procédés très terre à terre qui font que dès que vous regardez la vidéo vous savez que c’est un montage. » Une manière de recadrer les débats quant à l’accessibilité de cette technologie super sophistiquée. Après tout, on ne devient pas un génie de l’outil informatique en un clic !

Basile Niane (Journaliste / Blogueur multimédia) : « Il y a une technique assez élevée qui n’est pas accessible à tout le monde… »

Si l’on regarde un peu dans le rétroviseur, il est tout de même assez difficile de retrouver dans le paysage médiatique Sénégalais des faits pouvant laisser croire que pareilles techniques aient été utilisées par le passé. Que ce soit dans le but de nuire à une personnalité publique, ou dans le dessein de véhiculer une quelconque propagande. À ce propos, Basile Niane est formel : « C’est une technique qui utilise l’intelligence artificielle pour changer des voix, des visages etc. D’où le terme de « Deep » parce qu’il y a une technique assez élevée qui n’est pas accessible à tout le monde… Il faut vraiment avoir une certaine technique pour pouvoir faire ce travail-là…Ça permet de se cacher et de ne pas se faire remarquer. »

Dès lors, il faut remonter très haut, c’est-à-dire au niveau étatique voire de certains groupuscules pour trouver trace du véritable « Deepfake » ou du moins avoir les moyens d’y recourir. « Il est important de préciser que ce logiciel (Baidu deep voice) était non seulement à l’état de prototype mais également inaccessible au public. Avec seulement un échantillon de 3.7 secondes de votre voix, ce logiciel peut la reproduire identiquement », rajoutera Demba Diagne persuadé que ceci est comparable à une arme nucléaire dont les codes de lancement seraient jalousement protégés.

« Ce n’est pas un utilisateur lambda sur internet qui peut parvenir à le faire… »

Un avis également partagé par le consultant en médias, Mountaga Cissé qui demeure persuadé que « Ce n’est pas accessible à tout le monde. Déjà cela demande beaucoup de ressources techniques et beaucoup de matériel. Ça coûte cher de le faire. Donc ce n’est pas un utilisateur lambda sur internet qui peut parvenir à le faire. Mais quand-même toujours est-il que cela existe. Il y a des gens qui le font… Généralement les applications qui permettent de le faire sont difficiles d’accès ou coûtent très cher. Ce sont des choses très difficiles d’accès du fait de leur illégalité.» La thèse qui voudrait que chacun grâce à son smartphone dernier cri pourrait s’essayer et réussir à faire dans l’hyper trucage, est donc peu plausible au regard de toutes ces considérations soulevées ci-dessus.

« Ce que je vois sur internet et sur certains réseaux sociaux c’est de la satyre et de la caricature »

Ce qui nous amène à nous demander ce qui c’était réellement passé depuis le mois mars dernier, entre le 5 et le 6 lorsqu’un message audio avait commencé à faire le tour de la toile avec la voix supposée d’un des avocats d’Ousmane Sonko, Me Ciré Clédor Ly. Sur le fichier audio on pouvait entendre une voix identique s’y méprendre à celle de la robe noire, faire des déballages présumés sur l’affaire « sweet beauté. » Une allégation qui sera bien entendu vigoureusement démentie. Le clonage de voix et un montage seront invoqués à la place.

« Le « deep voice » est beaucoup plus dangereux puisqu’il permet de cloner un individu c’est-à-dire reproduire exactement sa voix »

Mais quelles seraient ces personnes capables de telles prouesses au Sénégal ? Quelle est cette élite qui pourrait réussir ce « miracle » technologique ? C’est qui apparaît clairement aux yeux du réalisateur audiovisuel et informaticien, Demba Diagne c’est que : « Ce procédé n’est pas à la portée de n’importe qui parce que cela requiert des compétences spécifiques dans plusieurs domaines (designing 3D etc) ainsi que l’utilisation d’algorithmes transposés à travers l’intelligence artificielle… Le « deep voice » est beaucoup plus dangereux puisqu’il permet de cloner un individu c’est-à-dire reproduire exactement sa voix. C’est le cas du logiciel « Baidu Deep voice » créé et développé par l’entreprise chinoise « Baidu » qui, à travers cet outil informatique peut cloner n’importe qui… »

De la manipulation de masse plutôt que du clonage ?

Dans toutes ces versions servies par les différentes parties, l’on est tenté de se poser la question de savoir si nous ne sommes pas en réalité dans le champ de la manipulation de masse ? Tout faire gober aux populations en ayant recours à la victimisation et au sentimentalisme. Plus c’est gros, plus ça passe du moment qu’on trouve les bons arguments ?

Quelque temps après le premier épisode, un message audio sera à nouveau dévoilé sur la place publique sénégalaise vers la fin du mois de mars 2021. Cette fois-ci c’est Barthélémy Dias, le maire de Mermoz Sacré-Cœur qui sera impliqué. Quelques secondes durant lesquelles, Barth aurait cassé du sucre sur le dos de son compère de l’opposition politique, Sonko, concernant toujours l’affaire Adji Sarr. » Barthélémy Dias fera lui-même une sortie médiatique à travers une vidéo pour démentir publiquement ce qu’il qualifiait de mascarade.

« C’est la dernière fois que j’apporterai un démenti… Le 5 mars 2019 on avait tenté de cloner ma voix au sortir de l’élection présidentielle pour me faire emprisonner. Le 8 octobre 2019 ce fut la même chose », s’est défendu Barthélémy Dias montrant patte blanche.

S’agissait-il réellement de clonage de voix ou bien d’un contenu authentique qui aurait fuité ?

D’ailleurs Mountaga Cissé reste assez perplexe sur ces deux cas évoqués et préfère, sans trop s’avancer, se tourner vers une autre piste. « Ce que je vois sur internet et sur certains réseaux sociaux c’est de la satyre et de la caricature. Généralement dès que vous voyez ça vous savez que c’est fait à dessein caricatural… Par contre, le plus souvent ce qu’on voit c’est des fuites de contenus. Par exemple un audio whatsapp qui a été envoyé à la mauvaise personne ou encore un téléphone qu’on pirate etc… À l’heure actuelle ce que je vois tourner sur internet ce sont des choses très basiques, très terre à terre qui sautent aux yeux dès qu’on les voit. »

« Les récents cas de soi-disant clonage supposés me laissent dubitatif. Je pense plutôt que ce sont des fuites »

Le « Deepfake » aurait donc bon dos puisque tout et n’importe quoi est assimilé à ce système de trucage. C’est en tous cas l’avis de cet informaticien qui, sous couvert de l’anonymat, démonte la version du piratage et ou du clonage. « Je ne pense pas qu’il s’agisse de clonage. Il faut que les gens sachent qu’un clonage n’est jamais parfait. De ce fait, les récents cas de soi-disant clonage supposés me laissent dubitatif. Je pense plutôt que ce sont des fuites. Donc des contenus authentiques. Chaque personne a ses tics et son empreinte vocale, le clonage ne peut faire une parfaite reproduction d’une voix. »

Les limites du clonage : La barrière de la langue…

En matière de clonage de voix, il est aussi important de savoir que les quelques rares logiciels capables de reproduire fidèlement les traits vocaux d’un individu, connaissent des limites. Parmi celles-ci, il y a la barrière de la langue. En effet, pour réussir un très bon clonage en wolof (langue la plus parlée au Sénégal), il faudrait que le logiciel utilisé, à travers la programmation et les algorithmes utilisés, puisse reproduire les mêmes mots, accents, intonations, etc… Une prouesse que même Baidu Deep Voice, l’une des références en l’espèce, n’a pour le moment réussi à faire. Le logiciel étant fait en chinois pour l’essentiel. En somme, il serait très difficile de tomber sur un clone « parfait » de voix en version wolof.

Moustapha Diagne, technicien audiovisuel : « Il est possible d’utiliser adobe pour changer complètement la voix d’un individu… dans ce cas, on saura qu’il y a eu de la manipulation au niveau de la voix »

Le clonage serait-il encore à l’état de mythe au Sénégal ? Ce qui est avéré c’est que la technologie reste assez inaccessible pour le grand public. Sur les plateformes de téléchargements officiels tels que App store, Play store on trouve pour la plupart des applis de clonage pas assez élaborées ou payantes. Néanmoins, un logiciel tel que Adobe Voco qui est sur le marché depuis 2016, permet de réaliser des hyper trucages audio. Rien à voir le « Deepfake » proprement dit.

C’est ce qu’explique Moustapha Diagne, technicien audiovisuel à Dakaractu, il revient sur les diverses fonctionnalités proposées par Adobe. « Pour ce qui est d’Adobe denoiser il s’agit d’un plugin son qui est utilisé pour supprimer des bruits de fond et autres parasites qui baisse la qualité du contenu audio. Initialement, ça sert à améliorer la qualité du son. On peut le trouver dans tous les logiciels de montage audio et vidéo tels que les logiciels Adobe par exemple. Toutefois, il est possible d’utiliser cet outil pour changer complètement la voix d’un individu. Mais dans ce cas on saura qu’il y a eu de la manipulation au niveau de la voix. » Une technique souvent utilisée par la célèbre chaîne YouTube sénégalaise « xalat Tv » pour masquer l’identité vocale du blogueur.

« Cela pourrait dégénérer avec ce qu’on a vu au Sénégal »

Toutefois, Basile Niane préfère mettre des garde-fous ou du moins le préconise-t-il, tout en tirant la sonnette d’alarme. « J’ai l’impression que cela pourrait dégénérer avec ce qu’on a vu au Sénégal. Aujourd’hui c’est très facile de faire un audio et de le partager. Les gens doivent faire de plus en plus attention à l’utilisation de leur voix. Pour le clonage, ce qui est dommage c’est que c’est difficile de le prouver… » Pour se prémunir de pareils agissements, une meilleure sécurisation des données personnelles s’impose à chacun, individuellement.

Par Dakaractu

dans la meme catégorie