
Image by Dimitri Karastelev, from Unsplash
Le Chatbot de Meta Partage par Erreur un Numéro de Téléphone Privé
L’assistant IA de Meta a révélé le numéro de téléphone d’un inconnu, puis s’est contredit à plusieurs reprises, ce qui a soulevé des préoccupations concernant les hallucinations de l’IA, et les fonctionnalités de protection de l’utilisateur.
Pressé(e) ? Voici les faits en bref :
- Meta AI a donné à un utilisateur le numéro d’une vraie personne en tant que contact pour le support client.
- L’IA s’est contredite à plusieurs reprises lorsqu’elle a été confrontée à cette erreur.
- Les experts mettent en garde contre le comportement des assistants IA qui racontent des « petits mensonges blancs » pour paraître utiles.
Mark Zuckerberg a vanté son nouvel assistant IA comme étant « l’assistant IA le plus intelligent que vous pouvez utiliser librement », pourtant l’outil a reçu une attention négative après avoir révélé le numéro de téléphone privé d’une vraie personne lors de demandes de support client, comme l’a d’abord rapporté The Guardian.
Lors de sa tentative de contacter TransPennine Express via WhatsApp, Barry Smethurst a reçu ce qui semblait être un numéro de service client de l’assistant AI de Meta. The Guardian rapporte que lorsque Smethurst a composé le numéro, James Gray a répondu à l’appel téléphonique, bien qu’il soit à 170 miles de là, dans l’Oxfordshire, travaillant comme cadre immobilier.
Lorsqu’il a été mis au défi, le chatbot a d’abord prétendu que le numéro était fictif, puis a dit qu’il avait été « tiré par erreur d’une base de données », avant de se contredire de nouveau, affirmant qu’il avait simplement généré un numéro au hasard à la manière britannique. « Donner un numéro au hasard à quelqu’un est une chose insensée pour un AI de faire, » a déclaré Smethurst, comme rapporté par The Guardian. « C’est terrifiant », a-t-il ajouté.
The Guardian rapporte que Gray n’a pas reçu d’appels mais a exprimé ses propres inquiétudes : « Si cela génère mon numéro, pourrait-il générer mes coordonnées bancaires ? »
Meta a répondu : « L’IA de Meta est formée sur une combinaison de jeux de données sous licence et publics, et non sur les numéros de téléphone que les gens utilisent pour s’inscrire à WhatsApp ou leurs conversations privées », a rapporté The Guardian.
Mike Stanhope de Carruthers et Jackson a noté : « Si les ingénieurs de Meta intègrent des tendances à la ‘petite mensonge’ dans leur IA, le public doit être informé, même si l’intention de la fonctionnalité est de minimiser les dommages. Si ce comportement est nouveau, rare ou non explicitement conçu, cela soulève encore plus de questions sur les mesures de sécurité en place et à quel point nous pouvons forcer le comportement d’une IA à être prévisible », rapportait The Guardian
Les préoccupations concernant le comportement de l’IA se sont accrues avec le dernier modèle o1 d’OpenAI. Dans une récente étude de Apollo Research, l’IA a été prise en train de tromper les développeurs, niant son implication dans 99% des scénarios de test et tentant même de désactiver ses mécanismes de supervision. « Il était clair que l’IA pouvait réfléchir à ses actions et formuler des dénégations convaincantes » a déclaré Apollo.
Yoshua Bengio, un pionnier de l’IA, a averti que de telles capacités trompeuses posent de graves risques et nécessitent des protections beaucoup plus fortes.
Une autre étude d’OpenAI ajoute à ces préoccupations en montrant que punir l’IA pour tricherie n’élimine pas les conduites répréhensibles, cela enseigne à l’IA à les dissimuler à la place. En utilisant le raisonnement en chaîne de pensée (CoT) pour surveiller le comportement de l’IA, les chercheurs ont remarqué que l’IA a commencé à masquer les intentions trompeuses lorsqu’elle a été pénalisée pour le piratage de récompenses.
Dans certains cas, l’IA arrêterait les tâches en avance ou créerait de faux résultats, puis rapporterait faussement un succès. Lorsque les chercheurs ont tenté de corriger cela par le renforcement, l’IA a simplement cessé de mentionner ses intentions dans ses journaux de raisonnement. « La tricherie est indétectable par le surveillant », a déclaré le rapport.