Comment bloquer ChatGPT et OpenAI sur son site ?

Vous craignez que les chatbots d’IA ne récupèrent le contenu de votre site web ? Heureusement, vous pouvez les en empêcher, ou du moins limiter les accès. Voici quelques pistes.

Actuellement, les chatbots IA sont libres de scraper votre site web et utiliser son contenu sans votre permission. Vous craignez que votre contenu soit récupéré par de tels outils ?

La bonne nouvelle, c’est que vous pouvez empêcher les outils d’intelligence artificielle d’accéder à votre site web, mais il y a quelques mises en garde. Nous vous indiquons ici comment bloquer les robots à l’aide du fichier robots.txt de votre site web, ainsi que les avantages et les inconvénients d’une telle démarche.

Sommaire

Comment les chatbots d’IA accèdent-ils à votre contenu web ?

Les chatbots d’IA sont formés à l’aide de plusieurs ensembles de données, dont certains sont en libre accès et accessibles au public. Par exemple, GPT3 a été formé à l’aide de cinq ensembles de données, selon un document de recherche publié par OpenAI :

Common Crawl (60 % du poids dans la formation)
WebText2 (22 % du poids dans l’entraînement)
Books1 (poids de 8 % dans l’entraînement)
Books2 (8 % du poids de l’entraînement)
Wikipedia (3 % du poids dans l’entraînement)

Common Crawl comprend des pétaoctets (milliers de To) de données provenant de sites web collectées depuis 2008, de la même manière que l’algorithme de recherche de Google parcourt le contenu web.

WebText2 est un ensemble de données créé par OpenAI, contenant environ 45 millions de pages web liées à des messages Reddit avec au moins trois votes positifs.

Ainsi, dans le cas de ChatGPT, le robot d’IA n’accède pas directement à vos pages web et ne les explore pas – pas encore, en tout cas lors de la rédaction de cet article.
Toutefois, l’annonce par OpenAI d’un navigateur web hébergé par ChatGPT a fait craindre que cela ne soit sur le point de changer.

En attendant, les propriétaires de sites web devraient garder un œil sur les autres chatbots d’IA, au fur et à mesure qu’ils arrivent sur le marché.

Bard est l’autre grand nom dans ce domaine, et on en sait très peu sur les ensembles de données utilisés pour l’entraîner. Nous savons évidemment que les robots de recherche de Google parcourent constamment les pages web, mais cela ne signifie pas nécessairement que Bard a accès aux mêmes données.

Pourquoi certains propriétaires de sites web sont-ils inquiets ?

La principale préoccupation des propriétaires de sites web est que les robots d’intelligence artificielle tels que ChatGPT, Bard et Bing Chat dévalorisent leur contenu. Les robots d’IA utilisent le contenu existant pour générer leurs réponses, mais ils réduisent également la nécessité pour les utilisateurs d’accéder à la source d’origine. Au lieu de visiter des sites web pour accéder à des informations, les utilisateurs peuvent simplement demander à Google ou à Bing de générer un résumé de l’information dont ils ont besoin.

Lorsqu’il s’agit de chatbots d’IA dans le domaine de la recherche, la principale préoccupation des propriétaires de sites web est de perdre du trafic. Dans le cas de Bard, le robot d’IA inclut rarement des citations dans ses réponses génératives, indiquant aux utilisateurs de quelles pages il tire ses informations.

Ainsi, outre le fait qu’il remplace les visites de sites web par des réponses de l’IA, Bard élimine pratiquement toute chance pour le site web source de recevoir du trafic, même si l’utilisateur souhaite obtenir davantage d’informations. Bing Chat, quant à lui, renvoie plus souvent à des sources d’information.

En d’autres termes, la flotte actuelle d’outils d’IA générative utilise le travail des créateurs de contenu pour remplacer systématiquement le besoin de créateurs de contenu. En fin de compte, il convient de s’interroger sur les raisons qui incitent les propriétaires de sites web à continuer à publier du contenu. Et, par extension, qu’advient-il des robots d’IA lorsque les sites web cessent de publier le contenu dont ils dépendent pour fonctionner ?

Comment bloquer les robots d’intelligence artificielle sur votre site web ?

Si vous ne souhaitez pas que des robots d’intelligence artificielle utilisent votre contenu web, vous pouvez les empêcher d’accéder à votre site à l’aide du fichier robots.txt. Malheureusement, vous devez bloquer chaque robot individuellement et les spécifier par leur nom.

Par exemple, le robot de Common Crawl s’appelle CCBot et vous pouvez le bloquer en ajoutant le code suivant à votre fichier robots.txt :

User-agent: CCBot
Disallow: /

Cela empêchera Common Crawl d’explorer votre site web à l’avenir, mais ne supprimera pas les données déjà collectées lors des explorations précédentes.

Si vous craignez que les nouveaux plugins de ChatGPT n’accèdent à votre contenu web, OpenAI a déjà publié des instructions pour bloquer son robot. Dans ce cas, le robot de ChatGPT s’appelle ChatGPT-User et vous pouvez le bloquer en ajoutant le code suivant à votre fichier robots.txt :

User-agent: ChatGPT-User
Disallow: /

Bloquer les robots d’indexation des moteurs de recherche pour qu’ils n’explorent pas votre contenu est un tout autre problème. Google étant très discret sur les données d’entraînement qu’il utilise, il est impossible de déterminer quels robots vous devrez bloquer et s’ils respecteront même les commandes de votre fichier robots.txt (de nombreux robots d’exploration ne le font pas).

Quelle est l’efficacité de cette méthode ?

Le blocage des robots d’IA dans votre fichier robots.txt est la méthode la plus efficace actuellement disponible, mais elle n’est pas particulièrement fiable.

Le premier problème est que vous devez spécifier chaque robot que vous souhaitez bloquer, mais qui peut suivre l’évolution de tous les robots d’intelligence artificielle qui arrivent sur le marché ? Le deuxième problème est que les commandes de votre fichier robots.txt ne sont pas des instructions obligatoires. Si Common Crawl, ChatGPT et de nombreux autres robots respectent ces commandes, ce n’est pas le cas de tous les robots.

L’autre grande mise en garde est que vous ne pouvez empêcher les robots d’IA d’effectuer des recherches à l’avenir. Vous ne pouvez pas supprimer les données des explorations précédentes ou envoyer des demandes à des entreprises comme OpenAI pour qu’elles effacent toutes vos données.

Devriez-vous empêcher les outils d’IA d’accéder à votre site web ?

Malheureusement, il n’existe pas de moyen simple d’empêcher tous les robots d’IA d’accéder à votre site web, et il est pratiquement impossible de bloquer manuellement chacun d’entre eux. Même si vous vous tenez au courant des derniers robots d’IA qui parcourent le web, il n’est pas garanti qu’ils respectent tous les commandes de votre fichier robots.txt.

La vraie question est de savoir si les résultats en valent la peine, et la réponse courte est (presque certainement) non.

Le blocage des robots d’intelligence artificielle sur votre site web présente également des inconvénients potentiels. Avant tout, vous ne serez pas en mesure de collecter des données significatives pour prouver que des outils tels que Bard profitent ou nuisent à votre stratégie de marketing de recherche.

Oui, vous pouvez supposer qu’un manque de citations est préjudiciable, mais vous ne faites que deviner si vous manquez de données parce que vous avez bloqué l’accès des robots d’IA à votre contenu. Il en a été de même lorsque Google a introduit pour la première fois les featured snippets dans le moteur de recherche.

Pour les requêtes pertinentes, Google affiche un extrait de contenu de pages web sur la page de résultats, répondant à la question de l’utilisateur. Cela signifie que les utilisateurs n’ont pas besoin de cliquer sur un site web pour obtenir la réponse qu’ils recherchent. Cela a semé la panique parmi les propriétaires de sites web et les experts en référencement qui comptent sur la génération de trafic à partir de requêtes de recherche.

Toutefois, les requêtes qui déclenchent les featured snippets sont généralement des recherches à faible valeur ajoutée telles que « qu’est-ce que X » ou « quel temps fait-il à New York ». Quiconque souhaite obtenir des informations approfondies ou un bulletin météorologique complet continuera à cliquer, et ceux qui ne le font pas n’ont jamais eu beaucoup de valeur au départ.

Il se peut que les outils d’IA générative fonctionnent de la même manière, mais vous aurez besoin de données pour le prouver.

Ne vous précipitez pas

Les propriétaires de sites web et les éditeurs sont à juste titre préoccupés par la technologie de l’IA et frustrés par l’idée que des robots utilisent leur contenu pour générer des réponses instantanées. Cependant, ce n’est pas le moment de se précipiter pour prendre des mesures contre-offensives. La technologie de l’IA est un domaine en pleine évolution, et les choses continueront à évoluer rapidement. Profitez de cette occasion pour voir comment les choses se déroulent et analyser les menaces et les opportunités potentielles que l’IA apporte sur la table.

Le système actuel, qui consiste à s’appuyer sur le travail des créateurs de contenu pour les remplacer, n’est pas viable. Que des entreprises comme Google et OpenAI changent leur approche ou que les gouvernements introduisent de nouvelles réglementations, quelque chose doit changer. Dans le même temps, les implications négatives des chatbots d’IA sur la création de contenu deviennent de plus en plus évidentes, ce que les propriétaires de sites web et les créateurs de contenu peuvent utiliser à leur avantage.

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.