À la recherche d’un moyen d’éviter que les modèles audio pour l’apprentissage automatique de l’IA ne soient trompés –

Des avertissements sont apparus concernant le manque de fiabilité des métriques utilisées pour détecter si une perturbation audio conçue pour tromper les modèles d’IA peut être perçue par les humains. Des chercheurs de l’UPV/EHU-Université du Pays Basque montrent que les métriques de distorsion utilisées pour détecter les perturbations intentionnelles dans les signaux audio ne sont pas une mesure fiable de la perception humaine, et ont proposé une série d’améliorations. Ces perturbations, conçues pour être imperceptibles, peuvent être utilisées pour provoquer des prédictions erronées en intelligence artificielle. Des mesures de distorsion sont appliquées pour évaluer l’efficacité des méthodes à générer de telles attaques.
L’intelligence artificielle (IA) est de plus en plus basée sur des modèles d’apprentissage automatique, entraînés à l’aide de grands ensembles de données. De même, l’interaction homme-machine dépend de plus en plus de la communication vocale, principalement en raison des performances remarquables des modèles d’apprentissage automatique dans les tâches de reconnaissance vocale.
Cependant, ces modèles peuvent être trompés par des exemples « contradictoires », c’est-à-dire des entrées intentionnellement perturbées pour produire une mauvaise prédiction sans que les changements soient remarqués par les humains. “Supposons que nous ayons un modèle qui classe l’audio (par exemple la reconnaissance de commande vocale) et que nous voulions le tromper, en d’autres termes, générer une perturbation qui empêche malicieusement le modèle de fonctionner correctement. Si un signal est correctement entendu, une personne est capable de remarquer si un signal dit « oui », par exemple. Lorsque nous ajoutons une perturbation contradictoire, nous entendrons toujours « oui », mais le modèle commencera à entendre « non », ou « tourner à droite » au lieu de gauche ou toute autre commande que nous ne veulent pas exécuter », a expliqué Jon Vadillo, chercheur au département d’informatique et d’intelligence artificielle de l’UPV/EHU.
Cela pourrait avoir “des implications très sérieuses au niveau de l’application de ces technologies à des problèmes réels ou très sensibles”, a ajouté Vadillo. On ne sait pas pourquoi cela se produit. Pourquoi un modèle qui se comporte si intelligemment cesserait-il soudainement de fonctionner correctement alors qu’il reçoit des signaux même légèrement modifiés ?
Tromper le modèle en utilisant une perturbation indétectable
“Il est important de savoir si un modèle ou un programme présente des vulnérabilités”, a ajouté le chercheur de la Faculté d’informatique. “Tout d’abord, nous enquêtons sur ces vulnérabilités, pour vérifier qu’elles existent, et parce que c’est la première étape pour éventuellement les corriger.” Alors que de nombreuses recherches se sont concentrées sur le développement de nouvelles techniques pour générer des perturbations antagonistes, moins d’attention a été accordée aux aspects qui déterminent si ces perturbations peuvent être perçues par les humains et à quoi ressemblent ces aspects. Cette question est importante, car les stratégies de perturbation antagonistes proposées ne constituent une menace que si les perturbations ne peuvent pas être détectées par les humains.
Cette étude a examiné dans quelle mesure les métriques de distorsion proposées dans la littérature pour des exemples audio contradictoires peuvent mesurer de manière fiable la perception humaine des perturbations. Dans une expérience dans laquelle 36 personnes ont évalué des exemples contradictoires ou des perturbations audio en fonction de divers facteurs, les chercheurs ont montré que « les métriques utilisées par convention dans la littérature ne sont pas complètement robustes ou fiables. En d’autres termes, elles ne représentent pas de manière adéquate la perception auditive des humains ; ils peuvent vous dire qu’une perturbation ne peut pas être détectée, mais lorsque nous l’évaluons avec des humains, elle s’avère détectable. Nous voulons donc émettre un avertissement qu’en raison du manque de fiabilité de ces métriques , l’étude de ces attaques audio n’est pas très bien menée”, a déclaré le chercheur.
En outre, les chercheurs ont proposé une méthode d’évaluation plus robuste qui est le résultat de “l’analyse de certaines propriétés ou facteurs de l’audio qui sont pertinents pour évaluer la détectabilité, par exemple, les parties de l’audio dans lesquelles une perturbation est la plus détectable .” Même ainsi, « ce problème reste ouvert car il est très difficile de proposer une métrique mathématique capable de modéliser la perception auditive. Selon le type de signal audio, différentes métriques seront probablement nécessaires ou différents facteurs devront être pris en compte. Atteindre des mesures audio générales représentatives est une tâche complexe », a conclu Vadillo.
Source de l’histoire :
Matériaux fourni par Université du Pays Basque. Remarque : Le contenu peut être modifié pour le style et la longueur.