AI

llms.txt vs robots.txt vs ai.txt : le guide honnête du contrôle des robots d'IA

Trois fichiers reviennent sans cesse dans les blogs SEO et les fils Twitter. Deux d'entre eux font quelque chose. Le troisième fait tout autre chose. Voici la version directe.

14 min de lecture
Points clés
    • robots.txt fait toujours le gros du travail : c'est le seul fichier bénéficiant d'une prise en charge large et applicable par les principaux robots d'IA comme GPTBot, ClaudeBot, Google-Extended et Meta-ExternalAgent. Tout le reste n'est, au mieux, qu'un signal.
  • llms.txt n'est pas une directive de crawl : c'est un index destiné aux développeurs pour des outils agentiques, pas un moyen d'influencer les citations de ChatGPT ni les classements dans la recherche par IA. Google a publiquement confirmé qu'il ne le lit pas.
  • ai.txt est une déclaration de licence, pas un contrôle d'accès : la proposition de Spawning AI exprime des préférences en matière d'entraînement. La conformité est volontaire et l'adoption reste faible.
  • Le blocage par défaut de Cloudflare en juillet 2025 a changé la donne : avec 20 % du web bloquant soudainement les robots d'IA par défaut et 416 milliards de requêtes d'IA enregistrées au S2 2025, le modèle d'opt-in devient la nouvelle norme.
  • Les statistiques d'adoption font réfléchir : llms.txt se situe autour de 10 % des domaines crawlés selon SE Ranking. Le battage médiatique dépasse largement la réalité.
  • Une configuration pragmatique vaut mieux qu'une configuration à la mode : configurez robots.txt de manière réfléchie, ajoutez ai.txt si la licence compte pour vous, et n'ajoutez llms.txt que si votre documentation est consommée par des agents de code.

Trois fichiers, trois rôles et le coût de la confusion

Si vous avez passé un peu de temps récemment sur des Slacks d'opérateurs ou dans des newsletters marketing, on vous a probablement dit d'« ajouter un llms.txt » de la même manière qu'on vous disait autrefois d'ajouter un sitemap. Le conseil manque généralement de détails et d'exactitude. Certains laissent entendre que llms.txt vous fera citer dans ChatGPT. D'autres sous-entendent qu'il contrôle le crawl. Ni l'un ni l'autre n'est vrai.

Trois fichiers aux noms similaires sont apparus ces dernières années, chacun résolvant un problème différent :

  1. robots.txt détermine si un robot peut accéder à vos pages. Il existe depuis 1994 et a un véritable pouvoir, dans le sens où les opérateurs sérieux le respectent.
  2. ai.txt est une déclaration d'autorisation et de licence destinée à l'entraînement d'IA. Il indique aux opérateurs ce à quoi vous consentez ou non. Il ne bloque rien.
  3. llms.txt est un index organisé pour les agents de code d'IA et outils similaires. Il indique à un agent développeur quelles documentations comptent et où les trouver. Ce n'est ni une directive de crawl ni une demande de citation.

Confondre ces trois fichiers coûte cher. Bloquez le mauvais robot et vous perdez de la visibilité dans les AI Overviews. Faites confiance au mauvais fichier pour empêcher l'entraînement et vous finirez quand même dans le jeu de données de quelqu'un. Ajoutez llms.txt parce qu'un blog vous a dit qu'il améliore le classement, et vous aurez ajouté une charge de maintenance pour aucun signal de classement.


robots.txt pour les robots d'IA : ce qui fonctionne réellement en 2026

robots.txt est le seul des trois fichiers à bénéficier d'une prise en charge large et délibérée de la part des principaux opérateurs de robots d'IA. OpenAI, Anthropic, Google, Meta, Common Crawl, Perplexity et Apple publient tous des chaînes user-agent et des instructions pour les bloquer via robots.txt. La conformité n'est pas juridiquement contraignante, mais les grands opérateurs suivent la directive en pratique, et se faire prendre à la violer tend à être un désastre en termes d'image.

Voici le menu user-agent qu'il faut vraiment connaître en 2026 :

Nom du robotOpérateurFinalitéDirective Disallow
GPTBotOpenAIDonnées d'entraînement pour ChatGPTUser-agent: GPTBot
OAI-SearchBotOpenAIIndexation pour les résultats de recherche ChatGPTUser-agent: OAI-SearchBot
ChatGPT-UserOpenAIRécupérations à l'initiative de l'utilisateur (navigation)User-agent: ChatGPT-User
ClaudeBotAnthropicDonnées d'entraînement pour ClaudeUser-agent: ClaudeBot
Claude-SearchBotAnthropicIndexation pour la recherche ClaudeUser-agent: Claude-SearchBot
Google-ExtendedGoogleEntraînement pour Gemini et Vertex AIUser-agent: Google-Extended
CCBotCommon CrawlArchive ouverte du web, alimente de nombreux modèlesUser-agent: CCBot
Meta-ExternalAgentMetaDonnées d'entraînement pour Llama et Meta AIUser-agent: Meta-ExternalAgent
BytespiderByteDanceDonnées d'entraînement pour TikTok et DoubaoUser-agent: Bytespider
PerplexityBotPerplexityIndexation pour Perplexity AnswersUser-agent: PerplexityBot
Applebot-ExtendedAppleEntraînement pour Apple IntelligenceUser-agent: Applebot-Extended

Quelques points à comprendre avant de commencer à bloquer :

Entraînement et récupération sont des tâches distinctes. GPTBot entraîne le modèle. ChatGPT-User récupère une page quand un utilisateur demande explicitement à ChatGPT de la lire. Bloquez GPTBot mais pas ChatGPT-User, et vous refusez l'entraînement tout en restant lisible quand les utilisateurs envoient votre lien à ChatGPT.

Les bots de recherche sont à part. OAI-SearchBot et PerplexityBot crawlent pour la récupération, pas pour l'entraînement. Les bloquer vous retire des résultats de recherche de ces produits. Si vous tenez à être cité dans ChatGPT ou Perplexity, laissez ces bots tranquilles.

Google-Extended est un opt-out uniquement pour l'entraînement de Gemini. Le désautoriser n'affecte ni Googlebot classique ni votre classement dans la recherche Google. Il s'agit d'un user-agent distinct précisément pour que les éditeurs puissent refuser l'entraînement sans perdre le trafic de recherche.

Une configuration de départ raisonnable pour un site de contenu qui veut être visible des IA sans constituer un corpus d'entraînement ressemble à ceci :

# Block training bots
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# Allow search and user-fetch bots
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

Ce schéma, bloquer les entraîneurs tout en autorisant les récupérateurs et les bots de recherche, est devenu courant chez les éditeurs. D'après le suivi d'Originality.ai, 88 % des principaux médias mondiaux bloquent désormais au moins un grand robot d'entraînement d'IA. Pour les sites de commerce ou SaaS, le calcul est différent : la plupart laissent les bots d'entraînement passer parce que figurer dans le jeu d'entraînement améliore la notoriété de la marque dans les sorties des modèles.


ai.txt : la couche autorisation et licence

ai.txt, c'est une autre bête. Il a été proposé par Spawning AI, l'équipe derrière Have I Been Trained, comme un fichier standardisé qui exprime vos préférences d'entraînement de manière structurée et lisible par machine. L'intention n'est pas de bloquer les robots. Elle est de déclarer un consentement.

Un ai.txt minimal ressemble approximativement à ceci :

User-Agent: *
Disallow: images/
Disallow: video/
Disallow: text/

La spécification de Spawning utilise des types de contenu plutôt que des chemins, en signalant « je ne consens pas à ce que mes images soient utilisées pour l'entraînement ». Le fichier est destiné à être lu par les opérateurs d'entraînement de bonne foi, les conservateurs de jeux de données et (en théorie) les auditeurs qui veulent savoir qui s'est retiré.

Quelques observations honnêtes sur ai.txt en 2026 :

  • L'adoption est faible. La plupart des sites n'en ont pas. Le public visé regroupe des conservateurs de jeux de données plutôt que des ingénieurs grand public, et la boucle de conformité est plus lente.
  • C'est un signal, pas une barrière. ai.txt n'empêche pas les récupérations. Il exprime des préférences. Un robot qui ignore ai.txt ne fait rien de techniquement mal, juste d'éthiquement discutable.
  • Il complète robots.txt. robots.txt dit « ne crawlez pas ». ai.txt dit « si vous crawlez, voici ce que vous pouvez en faire ».
  • Il compte davantage pour les sites riches en créateurs. Les hébergeurs d'images, les portfolios artistiques, les sites musicaux et les plateformes de stock sont les plus susceptibles d'utiliser ai.txt parce que la question des licences y est plus aiguë.

Si vous tenez à pouvoir dire « nous avons exprimé un non-consentement à l'entraînement », ai.txt vaut la peine d'être ajouté. C'est un changement de cinq minutes. Si seul le contrôle d'accès vous intéresse, robots.txt fait davantage.


llms.txt : le fichier de découverte pour développeurs

Voici maintenant le fichier qui suscite le plus de battage médiatique et de malentendus.

llms.txt a été proposé par Jeremy Howard en septembre 2024, et la spécification se trouve sur llmstxt.org. Son objectif est étroit et précis. C'est un fichier markdown à la racine d'un domaine qui fournit aux agents de code d'IA (Cursor, Claude Code, Devin et similaires) une carte organisée de votre documentation. Le format ressemble à ceci :

# My Project

> A short description of the project so an LLM has context.

## Docs

- [Getting Started](https://example.com/docs/getting-started.md): Quick setup
- [API Reference](https://example.com/docs/api.md): Full API surface
- [Configuration](https://example.com/docs/config.md): Config options

## Optional

- [Changelog](https://example.com/changelog.md): Release notes

Le format est volontairement simple. C'est un H1 (nom du projet), un blockquote (description), puis des sections de liens. Chaque lien pointe vers une version markdown de la page. Un agent qui lit llms.txt peut rapidement comprendre ce que fait votre projet et où se trouve la documentation canonique, sans parser tout votre HTML, votre barre latérale et votre navigation.

Mintlify et Anthropic ont étendu cela avec llms-full.txt, une version où tout est inliné. Au lieu de lier des fichiers séparés, llms-full.txt contient le markdown complet de toute votre documentation dans un seul document. Le décryptage du fichier par Mintlify explique le cas d'usage : quand un agent de code raisonne sur votre bibliothèque, il peut tirer un seul fichier et avoir toute votre documentation dans sa fenêtre de contexte. Aucune récupération supplémentaire nécessaire.

Maintenant, la partie qui est mal rapportée dans le contenu SEO :

  • llms.txt n'est pas un signal de citation. Il n'indique pas à ChatGPT, Claude ou Perplexity de vous citer plus souvent.
  • llms.txt n'est pas une directive de crawl. Il ne bloque ni n'invite aucun robot.
  • llms.txt n'est pas utilisé par Google. Gary Illyes, de chez Google, a déclaré publiquement que Google n'a aucun projet de l'utiliser.
  • llms.txt n'améliore pas votre classement dans la recherche par IA. Il n'y a aucun effet mesurable sur la visibilité dans ChatGPT, Perplexity ou Claude Web, parce qu'aucun de ces produits ne le lit comme une entrée de classement.

Ce qu'il fait bien : si votre audience utilise des agents de code pour consommer votre documentation, llms.txt rend cette expérience plus propre. Le site de documentation d'Anthropic, la documentation de Cloudflare, les projets hébergés par Mintlify et de nombreux SDK open source publient llms.txt parce que leur documentation est régulièrement chargée dans Cursor ou Claude Code par les développeurs qui construisent des intégrations.

C'est le vrai cas d'usage. C'est une fonctionnalité d'outil pour développeurs, pas une fonctionnalité marketing.


Ce que contrôle chaque fichier, côte à côte

Propriétérobots.txtai.txtllms.txt
Finalité principaleContrôle d'accès au crawlPréférence d'entraînement/licenceIndex de documentation pour agents d'IA
Qui le litTous les robots de recherche et d'IAConservateurs de jeux de données, outils Spawning AIAgents de code d'IA (Cursor, Claude Code, etc.)
Qui l'a proposéMartijn Koster, 1994 (RFC 9309 en 2022)Spawning AIJeremy Howard, sept. 2024
ApplicationRespecté par tous les grands opérateursVolontaire, audité de l'extérieurVolontaire, décision côté agent
Adoption actuelleQuasi universelleQuelques %~10 % des domaines crawlés (SE Ranking)
Effet sur la visibilité dans la recherche par IADirect (autorise/bloque les bots d'indexation)AucunAucun
Effet sur l'inclusion dans l'entraînementDirect (bloque les bots d'entraînement)Signal uniquementAucun
Délai d'impactHeures à joursMois (selon le rythme du jeu de données)Immédiat pour les agents qui le prennent en charge
Charge de maintenanceFaibleTrès faibleMoyenne (doit rester synchronisé avec la doc)

La ligne la plus importante de ce tableau est « effet sur la visibilité dans la recherche par IA ». Un seul de ces fichiers fait vraiment bouger les choses, et c'est celui qui existe depuis 30 ans.


Le tournant Cloudflare : juillet 2025

Une courte leçon d'histoire, parce qu'elle compte pour la suite.

En juillet 2024, Cloudflare a lancé un interrupteur en un clic pour bloquer les bots d'IA, les scrapers et les robots sur n'importe quel site de leur réseau. La démarche a été présentée comme « Declaring Your AIndependence ». C'était opt-in. De nombreux sites l'ont adopté rapidement, surtout les éditeurs.

Un an plus tard, le 1er juillet 2025, Cloudflare a inversé la valeur par défaut. Les nouveaux domaines ajoutés à Cloudflare bloquent désormais les robots d'IA par défaut. Les clients existants ont eu droit à une mise à niveau en un clic. Cloudflare a qualifié cela de modèle « basé sur l'autorisation » : les opérateurs d'IA doivent négocier l'accès plutôt que scraper par défaut.

Cloudflare se trouve devant environ 20 % du web public. Leur initiative a effectivement converti une part substantielle d'internet d'un mode ouvert par défaut à un mode fermé par défaut pour l'entraînement d'IA.

Quelques chiffres tirés des données mêmes de Cloudflare pour le S2 2025 :

  • 416 milliards de requêtes de bots d'IA enregistrées sur le réseau.
  • Trafic GPTBot en hausse de 147 % sur un an, ce qui indique qu'OpenAI récupère plus agressivement même si davantage de sites bloquent.
  • Trafic Meta-ExternalAgent en hausse de 843 % sur un an, la plus forte croissance parmi les robots d'IA dans leur jeu de données.
  • 2,5 millions de sites ont opté pour le robots.txt géré de Cloudflare pour l'IA, où Cloudflare maintient la liste des bots à votre place.

Le détail du « robots.txt géré » laisse entrevoir où va l'écosystème : les listes de bots changent trop vite pour que les sites individuels les maintiennent. Une nouvelle start-up d'IA voit le jour chaque mois, chacune avec son propre user-agent. De plus en plus, les sites délèguent à une couche d'infrastructure qui maintient la liste de manière centralisée.

Si vous êtes sur Cloudflare et que vous n'avez pas vérifié vos paramètres de gestion des bots depuis 2024, vérifiez-les. La valeur par défaut a changé sans que vous le sachiez.


Le bilan de l'adoption

C'est tentant, à lire le SEO Twitter, de croire que llms.txt est partout. Ce n'est pas le cas.

SE Ranking a analysé plus de 300 000 domaines début 2026 et a constaté que l'adoption de llms.txt se situe autour de 10 % (et penche fortement vers les sites techniques et orientés développeurs). Le rapport State of llms.txt 2026 de Presenc.ai a trouvé des chiffres similaires, avec une adoption concentrée dans les documentations SaaS, les entreprises d'outillage IA et les projets open source.

Quelques tendances tirées des données :

  • Les SaaS riches en documentation mènent l'adoption. Anthropic, Cursor, Mintlify, Vercel, Cloudflare et Supabase publient presque tous llms.txt et llms-full.txt.
  • Les sites marketing et de contenu sont à la traîne. Médias, blogs et sites marketing B2B n'ont la plupart du temps pas de llms.txt. Le cas d'usage y est plus faible parce que l'audience n'est pas constituée d'agents de code.
  • L'adoption progresse, lentement. Elle double à peu près chaque année, mais à partir d'une base faible.
  • La conformité côté agents est partielle. Cursor et Claude Code prennent en charge la lecture de llms.txt quand un utilisateur référence un domaine. La plupart des autres agents soit ne le lisent pas, soit ne l'utilisent qu'en repli.

Le constat honnête : llms.txt est une vraie spécification avec un vrai cas d'usage, mais étroit. Ce n'est pas un facteur de classement caché. Ce n'est pas un substitut à une bonne documentation. C'est un fichier de commodité pour une audience spécifique. La même chose s'applique à ai.txt, plus brutalement encore. Hors verticaux riches en créateurs, l'adoption est faible. robots.txt reste le seul fichier de cet ensemble qui contrôle véritablement quelque chose à grande échelle.


Que faire concrètement : une configuration pragmatique

Un cadre qui couvre la plupart des opérateurs :

Étape 1 : décidez de votre posture face à l'entraînement d'IA. Contenu d'abord (éditeur, blog, média, éducation) ? Vous voulez probablement bloquer les bots d'entraînement et autoriser les bots de recherche. SaaS ou product-led ? Vous voulez probablement être dans les données d'entraînement parce que cela aide la visibilité de la marque dans les sorties des modèles.

Étape 2 : écrivez un robots.txt délibéré. Ne copiez-collez pas depuis des gists aléatoires. Choisissez dans le tableau des user-agents ci-dessus et écrivez les directives explicitement. Testez avec curl -A "GPTBot" pour confirmer que les bonnes pages sont bloquées.

Étape 3 : ajoutez ai.txt si la licence compte. Cinq minutes, coût nul. Si vous avez un jour besoin de démontrer que vous avez exprimé un non-consentement à l'entraînement, avoir un ai.txt en place est utile. Si vous vous en moquez, passez votre chemin.

Étape 4 : ajoutez llms.txt uniquement si vous avez une documentation et une audience d'agents. Bibliothèque open source, SaaS de plateforme pour développeurs, ou tout produit intégré au code d'autres personnes via des assistants IA ? Publiez llms.txt et idéalement llms-full.txt. Site marketing, blog de contenu, SaaS non technique ? Le fichier ne vous apporte rien.

Étape 5 : si vous êtes sur Cloudflare, configurez une seule fois en périphérie. Leur gestion de bots vous fournit une liste de blocage maintenue centralement. Pour la plupart des opérateurs, c'est mieux que de maintenir un robots.txt à la main.

Étape 6 : surveillez vos logs. Les robots d'IA respectent en grande partie robots.txt, mais pas parfaitement. Faites régulièrement un tail de vos logs d'accès pour les user-agents ci-dessus et confirmez que le comportement correspond à votre configuration. Si un bot que vous avez bloqué continue de vous frapper, déposez une plainte auprès de l'opérateur.

Ce que vous n'avez pas à faire : vous tourmenter à propos de llms.txt pour le SEO. Il n'affectera pas votre visibilité dans la recherche par IA. Il ne fera pas en sorte que ChatGPT vous cite.


Cas particuliers : Cloudflare AI Audit, Pay-Per-Crawl, robots vérifiés

Quelques fonctionnalités qu'il vaut la peine de connaître, surtout parce qu'elles laissent entrevoir où va l'écosystème.

Cloudflare AI Audit. Une vue dashboard de quels bots d'IA frappent votre site, à quelle fréquence et où ils vont. Gratuit pour les clients Cloudflare. Utile pour repérer un nouveau bot que vous n'aviez pas encore vu et pour vérifier que les bots que vous avez bloqués restent bien dehors.

Cloudflare Pay-Per-Crawl. Annoncé mi-2025, il permet aux propriétaires de sites de facturer les robots d'IA à la requête plutôt que de les bloquer purement et simplement. Le modèle est jeune et l'adoption limitée, mais il pointe vers un avenir où la négociation d'accès est automatisée plutôt que binaire (bloquer / autoriser).

Programme Verified Bot. Cloudflare et Google maintiennent tous deux des registres qui confirment qu'une chaîne user-agent appartient bien à l'opérateur revendiqué. Cela compte parce que l'usurpation est fréquente : un scraper peut définir User-Agent: GPTBot et prétendre être OpenAI. Les programmes de bots vérifiés contrôlent les IP sources par rapport aux plages publiées par l'opérateur. Si vous voyez du trafic GPTBot provenant d'IP non OpenAI, c'est un usurpateur, et bloquer par IP est la bonne réponse.

La question de la « navigation agentique ». Quand ChatGPT ou Claude récupère une page pour le compte d'un utilisateur, cette récupération utilise un user-agent différent (ChatGPT-User, Claude-User). Les bloquer signifie que le modèle ne peut pas lire les pages que les utilisateurs lui collent, ce qui n'est généralement pas ce que les éditeurs veulent réellement. Gardez les bots de navigation agentique autorisés, sauf raison spécifique de les bloquer.


Vers où tout cela se dirige

Quelques prévisions honnêtes pour les 18 prochains mois :

Un standard se forme, et ce n'est pas llms.txt. Le groupe de travail IETF AI Preferences (AIPREF) rédige un standard plus complet pour les préférences d'entraînement et d'utilisation d'IA. Il est probable qu'il formalisera le modèle « exprimez vos préférences » à la ai.txt avec une sémantique correcte lisible par machine. Une fois publié comme RFC, il absorbera probablement les cas d'usage actuellement remplis par ai.txt.

Le pay-per-crawl se diffuse. Cloudflare ne sera pas la seule plateforme à le proposer. Attendez-vous à ce qu'Akamai, Fastly et les CDN cloud lancent des mécanismes similaires. Le monde où chaque robot d'IA a une relation tarifée avec chaque site est plausible d'ici 2027.

Les listes de bots se centralisent. Maintenir sa propre liste de user-agents d'IA était raisonnable en 2023, avec peut-être une douzaine de noms à suivre. On en est désormais à près de 40, et ça augmente. La plupart des opérateurs finiront par faire confiance à une couche d'infrastructure pour tenir la liste à jour.

llms.txt persiste dans sa niche. Il ne disparaîtra pas. Il ne deviendra pas non plus un facteur de classement. Il continuera à servir l'audience des outils agentiques et se formalisera probablement en une spécification plus standardisée une fois qu'assez d'agents la prendront en charge.

Le méta-schéma : le web ouvert par défaut est lentement remplacé par un web basé sur l'autorisation pour le trafic d'IA, médiatisé par des plateformes d'infrastructure plutôt que par des configurations par site. robots.txt est l'interface héritée de ce monde. ai.txt et llms.txt sont des premières tentatives de signalisation plus riche. L'IETF et l'industrie des CDN travaillent en sourdine sur la version qui passera vraiment à l'échelle.


Questions fréquemment posées

Google lit-il mon fichier llms.txt ?

Non. Gary Illyes, de chez Google, a publiquement déclaré en 2025 que Google n'a aucun projet d'utiliser llms.txt comme entrée pour un quelconque produit. Ajouter llms.txt n'affecte ni Google Search, ni Gemini, ni les AI Overviews. Si vous voulez influencer les produits d'IA de Google, le signal pertinent est le user-agent Google-Extended dans robots.txt et l'index de recherche standard, pas llms.txt.

Dois-je bloquer tous les robots d'IA via robots.txt ?

Cela dépend du type de site que vous exploitez. Les éditeurs et les sites axés contenu bloquent souvent les bots d'entraînement (GPTBot, ClaudeBot, Google-Extended, CCBot, Meta-ExternalAgent, Bytespider) tout en autorisant les bots de recherche et de récupération utilisateur (OAI-SearchBot, PerplexityBot, ChatGPT-User). Les SaaS et les sites produits laissent généralement tout ouvert parce que figurer dans les données d'entraînement aide la visibilité de la marque. Un blocage généralisé de tous les bots d'IA est rarement le bon choix pour les non-éditeurs, parce qu'il vous coûte la découverte pilotée par l'IA.

ai.txt est-il réellement pris en charge par quelqu'un ?

Spawning AI le respecte, tout comme une poignée de conservateurs de jeux de données et de projets d'IA éthique. Les principaux entraîneurs de modèles (OpenAI, Anthropic, Google, Meta) respectent essentiellement robots.txt, pas ai.txt. Donc ai.txt est une couche de signalisation utile pour la posture « nous avons exprimé un non-consentement », mais il ne faut pas s'y fier comme contrôle d'accès. Associez-le à robots.txt pour un blocage effectif.

Quelle est la différence entre llms.txt et llms-full.txt ?

llms.txt est un fichier d'index : une courte liste de liens pointant vers les versions markdown de votre documentation. llms-full.txt en est la version inlinée : toute votre documentation concaténée en un seul gros fichier markdown. Le compromis est entre bande passante et commodité. llms.txt est léger à récupérer mais oblige l'agent à suivre les liens. llms-full.txt est lourd mais permet à un agent de charger toute votre documentation en contexte avec une seule requête. La plupart des projets qui publient l'un publient les deux.

Si je bloque GPTBot dans robots.txt, cela bloque-t-il aussi la navigation de ChatGPT ?

Non. GPTBot est le robot d'entraînement d'OpenAI. ChatGPT-User est le user-agent que ChatGPT utilise quand un utilisateur lui demande explicitement de lire une page web. Ce sont des user-agents distincts dans robots.txt. Bloquer GPTBot vous fait sortir de l'entraînement. ChatGPT-User reste autorisé à moins que vous ne le bloquiez séparément. La plupart des éditeurs veulent exactement ce découpage : bloquer l'entraînement, autoriser les récupérations à l'initiative de l'utilisateur.

llms.txt m'aidera-t-il à me classer dans ChatGPT ou Perplexity ?

Non, pas comme signal de citation ni de classement. ChatGPT et Perplexity remontent du contenu en fonction de ce qu'ils ont indexé via leurs robots de recherche (OAI-SearchBot, PerplexityBot) et des données d'entraînement. llms.txt est lu par les agents de code comme Cursor et Claude Code, pas par les produits de chat. Si vous voulez être cité dans ChatGPT, les priorités sont : (1) garder OAI-SearchBot non bloqué dans robots.txt, (2) publier du contenu qui répond clairement à des questions précises, et (3) gagner des citations depuis des sources auxquelles ces modèles font confiance. llms.txt n'est pas sur cette liste.


En conclusion

Ce qui me frustre dans le discours actuel autour du contrôle des robots d'IA, c'est à quel point les mauvais conseils sont confiants. « Ajoutez llms.txt et vous serez classé dans ChatGPT. » « Bloquez tout via ai.txt. » « robots.txt est mort, llms.txt est l'avenir. » Chacune de ces affirmations est fausse dans une direction différente.

La vérité est plus terne et plus utile : robots.txt fait toujours le vrai travail. ai.txt exprime une préférence que certains opérateurs respectent. llms.txt est une commodité d'outil pour développeurs destinée à une audience spécifique. Aucun d'entre eux n'est un levier de classement magique, et les traiter comme tel gaspille du temps que vous pourriez consacrer à des choses qui comptent vraiment.

Si vous ne devez retenir qu'une chose, retenez les trois rôles. robots.txt est la porte d'accès. ai.txt est le signal de licence. llms.txt est l'index pour développeurs. Configurez chacun pour ce qu'il fait réellement, ignorez le reste du bruit, et vous serez en avance sur la plupart des opérateurs qui courent actuellement après les tendances sans les comprendre.

Et gardez un œil sur AIPREF. Les un à deux prochaines années de contrôle des robots d'IA seront moins façonnées par ces trois fichiers que par ce que l'IETF et l'industrie des CDN standardiseront ensuite. L'état actuel est une rustine.

Start building your knowledge library

Highlight what matters as you read across the web. Save insights from articles, books, and YouTube videos in one place.

Get Started Free