Kyutai, Inria et Meta ont trouvé le moyen de déceler les échantillons vocaux produits par IA

Table des matières

Avec l’intelligence artificielle, la production d’enregistrements vocaux falsifiés dans le but de nuire devient de plus en plus courante. Face à la progression alarmante de cette pratique, des chercheurs de Meta, Kyutai et Inria ont mis au point des marqueurs. Avec cet outil, il devient désormais possible d’identifier les parties produites par l’IA. 

En dépit des multiples avantages des fonctionnalités de l’IA, l’usage de cet outil n’est pas pour autant exempt de risques. Le clonage de voix à but malveillant et à fin d’escroquerie en fait partie. Usurpation d’identité du Président des États-Unis Joe Biden au téléphone, tentative d’extorsion de fonds en simulant l’enlèvement d’une adolescente… Son emploi par des individus malintentionnés peut représenter une véritable menace. Pour éviter toute dérive, des chercheurs de Meta, de Kyutai et Inria ont travaillé de concert sur la conception d’un outil. Leur collaboration a abouti à la production d’un filigrane audible. Ce dernier permet de reconnaître les segments d’enregistrements vocaux créés par IA.

AudioSeal, l’outil de détection d’échantillons vocaux par IA

Le cas du clonage vocal du Président Biden pour décourager les adeptes du parti démocrate souligne l’état d’urgence. Les chercheurs de FAIR, le laboratoire IA de Meta ainsi que ceux de l’Inria et Kyutai le confirment :

« Dans le domaine en pleine évolution des modèles de génération de la parole, il existe un besoin pressant de garantir l’authenticité audio contre les risques de clonage de la voix ». 

C’est pour cette raison qu’ils ont conçu AudioSeal, qui pourrait être utile au consultant informatique. Selon leurs termes, il s’agit d’un outil de marquage audio permettant de localiser les discours produits par IA. Pour cela, cet outil fait simultanément appel à un détecteur et un générateur. Dans un premier temps, le générateur capte le signal audio. Ensuite, il produit un filigrane qui marque les sections produites par IA. L’utilisateur peut éventuellement ajouter un code secret à l’échantillon, sous forme de marqueur.

Le détecteur sert, quant à lui, à détecter la présence de cette marque.  Il identifie le signal audio, comme une onde. Puis, il met en évidence la possibilité de présence d’un marqueur dans chaque portion de l’échantillon, tous les 1/16 000s. Si un message codé est associé au fragment de son, le détecteur permet de le décrypter.

Un outil avec ses limites

Selon ses concepteurs, AudioSeal permettrait au consultant informatique ou tout autre utilisateur de réaliser des exploits en matière de détection vocale. D’une part, il serait à l’épreuve de l’édition de son. D’autre part, l’API d’AudioSeal a été pensée pour faciliter le marquage et la détection. Par ailleurs, la qualité au niveau du signal ne serait compromise que dans une mesure négligeable. Dans leur déclaration, les chercheurs des trois entités rajoutent :

« cette technologie pourrait être utilisée pour faire respecter le droit d’auteur sur les contenus générés par les utilisateurs, et sa capacité à détecter les enregistrements audio générés par intelligence artificielle pourrait accroître le scepticisme à l’égard de l’authenticité des communications numériques ».

Néanmoins, ces mêmes concepteurs soulignent que le recours aux filigranes imaginés pour être garant de traçabilité et de transparence présente certaines limites. Dans le pire des scénarios, cette technique peut être dangereuse si des personnes malveillantes venaient à y faire appel. Par exemple, cette technologie peut servir d’outil d’espionnage à l’administration publique en vue d’anticiper et de paralyser les mouvements de l’opposition.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Nombre de votes 0

Actualité du portage salarial