Photo by Joshua Woroniecki on Unsplash
Les chercheurs de Cloudflare affirment que Perplexity racle les sites web malgré le blocage des bots IA
Des chercheurs du fournisseur d’infrastructure internet Cloudflare affirment que le système IA Perplexity a extrait du contenu de sites web sans autorisation, même lorsque les éditeurs ont mis en place des blocages de bots IA.
Pressée ? Voici les faits en bref :
- Cloudflare affirme que Perplexity a extrait du contenu de sites web sans autorisation.
- Des chercheurs ont confirmé le comportement de « crawl furtif » de Perplexity, même lorsque les éditeurs mettent en place des blocages de bots IA.
- Un porte-parole de Perplexity a qualifié le rapport de Cloudflare de « coup de publicité ».
Selon le rapport partagé par Cloudflare lundi, Perplexity explore les sites web en utilisant son agent utilisateur par défaut et change d’identité pour contourner ces blocages. Ce comportement de « crawling furtif » a été confirmé par les experts de Cloudflare.
« Nous continuons à voir des preuves que Perplexity modifie constamment son agent utilisateur et change ses ASNs source pour cacher son activité de crawl, tout en ignorant – ou parfois même en ne parvenant pas à récupérer – les fichiers robots.txt », ont écrit les chercheurs.
On s’attend à ce que les crawlers soient transparents, déclarent clairement leur objectif et respectent les préférences des sites web, mais les chercheurs affirment que Perplexity n’a pas respecté ces principes de confiance. Cette conclusion a été atteinte suite à une enquête déclenchée par des plaintes de clients.
« Nous avons reçu des plaintes de clients qui avaient à la fois interdit l’activité de crawl de Perplexity dans leurs fichiers robots.txt et créé des règles WAF pour bloquer spécifiquement les deux crawlers déclarés de Perplexity : PerplexityBot et Perplexity-User, » ont écrit les chercheurs. « Ces clients nous ont dit que Perplexity était toujours capable d’accéder à leur contenu même lorsqu’ils voyaient ses bots bloqués avec succès. »
Les chercheurs de Cloudflare ont déclaré avoir vérifié ces affirmations en reproduisant les blocages et en effectuant plusieurs tests pour observer le comportement du crawler. Dans un test, ils ont créé de nouveaux domaines qui n’avaient pas encore été indexés et inclus des fichiers robots.txt pour bloquer les « bots respectueux ». Plus tard, ils ont interrogé Perplexity pour des informations spécifiques sur les domaines restreints et ont constaté que le moteur de réponse alimenté par l’IA fournissait toujours des détails et des informations précises sur le site web.
« Cette réponse était inattendue, car nous avions pris toutes les précautions nécessaires pour empêcher que ces données soient récupérables par leurs robots d’indexation », ont ajouté les chercheurs.
Un porte-parole de Perplexity, Jesse Dwyer, a qualifié la recherche de « coup de publicité » dans une déclaration pour The Verge. Dwyer a ajouté qu’il y a des « malentendus » dans le rapport de Cloudflare.
Cloudflare a développé plusieurs outils pour aider les éditeurs à prévenir le crawl non autorisé par l’IA. En mars, Cloudflare a lancé « AI Labyrinth », un outil qui redirige les crawlers non autorisés vers des labyrinthes de contenu générés par l’IA. Le mois dernier, il a lancé « Pay Per Crawl », un système pour facturer les robots IA pour l’accès au contenu des éditeurs.