AI

llms.txt vs robots.txt vs ai.txt: la guía honesta para controlar a los crawlers de IA

Tres archivos aparecen una y otra vez en blogs de SEO y hilos de Twitter. Dos de ellos hacen algo. Uno hace algo completamente distinto. Esta es la versión directa.

14 min de lectura
Puntos clave
    • robots.txt sigue haciendo el trabajo pesado: es el único archivo con soporte amplio y exigible entre los principales crawlers de IA como GPTBot, ClaudeBot, Google-Extended y Meta-ExternalAgent. Todo lo demás es, en el mejor de los casos, una señal.
  • llms.txt no es una directiva de crawl: es un índice dirigido a desarrolladores para herramientas agénticas, no una forma de influir en las citas de ChatGPT ni en los rankings de búsqueda con IA. Google ha confirmado públicamente que no lo lee.
  • ai.txt es una declaración de licencia, no un control de acceso: la propuesta de Spawning AI expresa preferencias de entrenamiento. El cumplimiento es voluntario y la adopción es escasa.
  • El bloqueo por defecto de Cloudflare en julio de 2025 cambió las cuentas: con un 20 % de la web bloqueando de pronto a los bots de IA por defecto y 416 mil millones de solicitudes de IA registradas en el segundo semestre de 2025, el modelo opt-in se está convirtiendo en la nueva norma.
  • Las estadísticas de adopción dan que pensar: llms.txt ronda el 10 % de los dominios rastreados según SE Ranking. El hype va muy por delante de la realidad.
  • Una configuración pragmática supera a una de moda: configura robots.txt con criterio, añade ai.txt si la licencia te importa, y añade llms.txt solo si tu documentación la consumen agentes de programación.

Tres archivos, tres tareas y el impuesto de la confusión

Si has pasado algún tiempo en los Slacks de operadores o en boletines de marketing últimamente, probablemente te hayan dicho que "añadas un llms.txt" del mismo modo en que antes te decían que añadieras un sitemap. El consejo suele ser escaso en detalles y escaso en precisión. Hay quien sugiere que llms.txt te hará ser citado en ChatGPT. Otros insinúan que controla el crawling. Ninguna de las dos cosas es cierta.

En los últimos años han aparecido tres archivos con nombres similares, cada uno resolviendo un problema distinto:

  1. robots.txt controla si un crawler puede siquiera acceder a tus páginas. Existe desde 1994 y tiene dientes de verdad, en el sentido de que los operadores legítimos lo respetan.
  2. ai.txt es una declaración de permiso y licencia orientada al entrenamiento de IA. Le dice a los operadores qué consientes y qué no. No bloquea nada.
  3. llms.txt es un índice curado para agentes de IA de programación y herramientas similares. Le dice a un agente de desarrollo qué documentos importan y dónde encontrarlos. No es una directiva de crawl ni una solicitud de cita.

Confundirlos sale caro. Bloquea al bot equivocado y pierdes visibilidad en los AI Overviews. Confía en el archivo equivocado para detener el entrenamiento y acabarás igualmente en el dataset de alguien. Añade llms.txt porque un blog dijo que mejora el ranking y habrás añadido carga de mantenimiento por cero señal de ranking.


robots.txt para crawlers de IA: lo que realmente funciona en 2026

robots.txt es el único de los tres archivos que cuenta con un soporte amplio y deliberado por parte de los principales operadores de crawlers de IA. OpenAI, Anthropic, Google, Meta, Common Crawl, Perplexity y Apple publican todos cadenas de user-agent e instrucciones para bloquearlos vía robots.txt. El cumplimiento no es legalmente vinculante, pero los grandes operadores siguen la directiva en la práctica, y ser sorprendido violándola tiende a ser un desastre de relaciones públicas.

Este es el menú de user-agents que realmente necesitas conocer en 2026:

Nombre del botOperadorPropósitoDirectiva Disallow
GPTBotOpenAIDatos de entrenamiento para ChatGPTUser-agent: GPTBot
OAI-SearchBotOpenAIIndexación para resultados de búsqueda de ChatGPTUser-agent: OAI-SearchBot
ChatGPT-UserOpenAIFetches iniciados por el usuario (browsing)User-agent: ChatGPT-User
ClaudeBotAnthropicDatos de entrenamiento para ClaudeUser-agent: ClaudeBot
Claude-SearchBotAnthropicIndexación para búsqueda en ClaudeUser-agent: Claude-SearchBot
Google-ExtendedGoogleEntrenamiento para Gemini y Vertex AIUser-agent: Google-Extended
CCBotCommon CrawlArchivo abierto de la web, alimenta a muchos modelosUser-agent: CCBot
Meta-ExternalAgentMetaDatos de entrenamiento para Llama y Meta AIUser-agent: Meta-ExternalAgent
BytespiderByteDanceDatos de entrenamiento para TikTok y DoubaoUser-agent: Bytespider
PerplexityBotPerplexityIndexación para Perplexity AnswersUser-agent: PerplexityBot
Applebot-ExtendedAppleEntrenamiento para Apple IntelligenceUser-agent: Applebot-Extended

Algunas cosas que vale la pena entender antes de empezar a bloquear:

Entrenar y hacer fetch son tareas distintas. GPTBot entrena al modelo. ChatGPT-User obtiene una página cuando un usuario le pide explícitamente a ChatGPT que la lea. Bloquea GPTBot pero no ChatGPT-User y te excluyes del entrenamiento mientras sigues siendo legible cuando los usuarios envíen tu enlace a ChatGPT.

Los bots de búsqueda son otra cosa. OAI-SearchBot y PerplexityBot rastrean para recuperación, no para entrenamiento. Bloquearlos te saca de los resultados de búsqueda de esos productos. Si te importa ser citado en ChatGPT o Perplexity, déjalos en paz.

Google-Extended es un opt-out solo para el entrenamiento de Gemini. Bloquearlo no afecta a Googlebot habitual ni a tu ranking de Google Search. Es un user-agent separado precisamente para que los editores puedan excluirse del entrenamiento sin perder tráfico de búsqueda.

Una configuración inicial razonable para un sitio de contenido que quiere visibilidad en IA sin convertirse en un corpus de entrenamiento sería así:

# Block training bots
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# Allow search and user-fetch bots
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

Este patrón, bloquear a los entrenadores mientras se permite a los fetchers y bots de búsqueda, se ha vuelto común entre los editores. Según el seguimiento de Originality.ai, el 88 % de los principales medios de noticias del mundo ahora bloquea al menos un crawler importante de entrenamiento de IA. Para sitios de comercio o SaaS el cálculo es distinto: la mayoría deja abiertos los bots de entrenamiento porque estar en el set de entrenamiento ayuda al reconocimiento de marca en las salidas del modelo.


ai.txt: la capa de permiso y licencia

ai.txt es otro animal. Fue propuesto por Spawning AI, el equipo detrás de Have I Been Trained, como un archivo estandarizado que expresa tus preferencias de entrenamiento de forma estructurada y legible por máquina. La intención no es bloquear crawlers. Es declarar consentimiento.

Un ai.txt mínimo se ve más o menos así:

User-Agent: *
Disallow: images/
Disallow: video/
Disallow: text/

La especificación de Spawning usa tipos de contenido en lugar de rutas, indicando "no consiento que mis imágenes sean usadas para entrenamiento". El archivo está pensado para ser leído por operadores de entrenamiento de buena fe, curadores de datasets y (en teoría) auditores que quieran saber quién se ha excluido.

Algunas observaciones honestas sobre ai.txt en 2026:

  • La adopción es escasa. La mayoría de los sitios no tienen uno. La audiencia son curadores de datasets más que ingenieros de crawlers convencionales, y el ciclo de cumplimiento es más lento.
  • Es una señal, no una barrera. ai.txt no impide fetches. Expresa preferencias. Un crawler que ignore ai.txt no está haciendo nada técnicamente incorrecto, solo éticamente cuestionable.
  • Complementa a robots.txt. robots.txt dice "no rastrees". ai.txt dice "si rastreas, esto es para lo que puedes usarlo".
  • Importa más para sitios con mucho contenido de creadores. Hosts de imágenes, portafolios de arte, sitios de música y plataformas de stock son los más propensos a usar ai.txt porque la cuestión de la licencia es más urgente para ellos.

Si te importa poder decir "expresamos no-consentimiento para el entrenamiento", vale la pena añadir ai.txt. Es un cambio de cinco minutos. Si solo te importa el control de acceso, robots.txt hace más.


llms.txt: el archivo de descubrimiento para desarrolladores

Ahora, el archivo con más hype y más malentendidos.

llms.txt fue propuesto por Jeremy Howard en septiembre de 2024, y la especificación vive en llmstxt.org. Su propósito es estrecho y específico. Es un archivo markdown en la raíz de un dominio que ofrece a los agentes de IA de programación (Cursor, Claude Code, Devin y similares) un mapa curado de tu documentación. El formato se ve así:

# My Project

> A short description of the project so an LLM has context.

## Docs

- [Getting Started](https://example.com/docs/getting-started.md): Quick setup
- [API Reference](https://example.com/docs/api.md): Full API surface
- [Configuration](https://example.com/docs/config.md): Config options

## Optional

- [Changelog](https://example.com/changelog.md): Release notes

El formato es intencionalmente simple. Es un H1 (nombre del proyecto), un blockquote (descripción), y luego secciones de enlaces. Cada enlace apunta a una versión markdown de la página. Un agente que lea llms.txt puede entender rápidamente qué hace tu proyecto y dónde viven los documentos canónicos, sin parsear todo tu HTML, sidebar y navegación.

Mintlify y Anthropic extendieron esto con llms-full.txt, una versión con todo en línea. En lugar de enlazar a archivos separados, llms-full.txt contiene el markdown completo de toda tu documentación en un solo documento. El desglose del archivo de Mintlify explica el caso de uso: cuando un agente de programación está razonando sobre tu librería, puede tomar un archivo y tener toda tu documentación en su ventana de contexto. Sin fetches de seguimiento.

Ahora, la parte que se reporta mal en el contenido de SEO:

  • llms.txt no es una señal de cita. No le dice a ChatGPT, Claude o Perplexity que te cite más a menudo.
  • llms.txt no es una directiva de crawl. No bloquea ni invita a ningún crawler.
  • llms.txt no lo usa Google. Gary Illyes de Google declaró públicamente que Google no tiene planes de usarlo.
  • llms.txt no mejora tu ranking en búsqueda con IA. No hay efecto medible en la visibilidad en ChatGPT, Perplexity o Claude Web porque ninguno de esos productos lo lee como input de ranking.

Lo que sí hace, y bien: si tu audiencia usa agentes de programación para consumir tu documentación, llms.txt vuelve esa experiencia más limpia. El sitio de documentación de Anthropic, los docs de Cloudflare, los proyectos hospedados en Mintlify y muchos SDKs open-source publican llms.txt porque sus documentos son cargados de forma rutinaria en Cursor o Claude Code por desarrolladores que construyen integraciones.

Ese es el caso de uso real. Es una característica de herramientas para desarrolladores, no una característica de marketing.


Qué controla cada archivo, lado a lado

Propiedadrobots.txtai.txtllms.txt
Propósito principalControl de acceso para crawlPreferencia de entrenamiento/licenciaÍndice curado de documentación para agentes de IA
Quién lo leeTodos los crawlers de búsqueda y de IACuradores de datasets, herramientas de Spawning AIAgentes de IA de programación (Cursor, Claude Code, etc.)
Quién lo propusoMartijn Koster, 1994 (RFC 9309 en 2022)Spawning AIJeremy Howard, sept. 2024
CumplimientoHonrado por todos los operadores principalesVoluntario, auditado externamenteVoluntario, decisión del lado del agente
Adopción actualCasi universalUn dígito porcentual~10 % de los dominios rastreados (SE Ranking)
Efecto en la visibilidad de búsqueda con IADirecto (permite/bloquea bots de indexación)NingunoNinguno
Efecto en la inclusión en entrenamientoDirecto (bloquea bots de entrenamiento)Solo señalNinguno
Tiempo hasta el impactoHoras a díasMeses (depende de la cadencia del dataset)Inmediato para los agentes que lo soportan
Carga de mantenimientoBajaMuy bajaMedia (debe mantenerse sincronizado con los docs)

La fila más importante de esa tabla es "efecto en la visibilidad de búsqueda con IA". Solo uno de estos archivos mueve realmente la aguja ahí, y es el que lleva 30 años entre nosotros.


El punto de inflexión de Cloudflare: julio de 2025

Una pequeña lección de historia, porque importa para lo que viene.

En julio de 2024, Cloudflare lanzó un toggle de un solo clic para bloquear bots, scrapers y crawlers de IA para cualquier sitio en su red. Se presentó como "Declarando tu AIndependencia". Era opt-in. Muchos sitios lo adoptaron rápido, especialmente los editores.

Un año después, el 1 de julio de 2025, Cloudflare cambió el valor por defecto. Los dominios nuevos añadidos a Cloudflare ahora bloquean a los crawlers de IA por defecto. A los clientes existentes se les ofreció una actualización de un clic. Cloudflare lo llamó un modelo "basado en permisos": los operadores de IA tienen que negociar el acceso en lugar de scrapear por defecto.

Cloudflare se sitúa frente a aproximadamente el 20 % de la web pública. Su movimiento convirtió efectivamente una parte sustancial de internet de abierto-por-defecto a cerrado-por-defecto para el entrenamiento de IA.

Algunos números de los propios datos de Cloudflare para el segundo semestre de 2025:

  • 416 mil millones de solicitudes de bots de IA registradas en la red.
  • Tráfico de GPTBot un 147 % arriba año a año, lo que indica que OpenAI está haciendo fetches más agresivamente incluso mientras más sitios bloquean.
  • Tráfico de Meta-ExternalAgent un 843 % arriba año a año, el mayor crecimiento de cualquier crawler de IA en su dataset.
  • 2.5 millones de sitios optaron por el robots.txt gestionado de Cloudflare para IA, donde Cloudflare mantiene la lista de bots por ti.

El detalle del "robots.txt gestionado" sugiere hacia dónde va el ecosistema: las listas de bots cambian demasiado rápido para que los sitios individuales las mantengan. Cada mes nace una nueva startup de IA, cada una con su propio user-agent. Cada vez más, los sitios delegan en una capa de infraestructura que mantiene la lista centralizadamente.

Si estás en Cloudflare y no has revisado tus ajustes de gestión de bots desde 2024, revísalos. El valor por defecto cambió debajo de ti.


Un chequeo de realidad sobre la adopción

Es tentador, leyendo el Twitter de SEO, pensar que llms.txt está en todas partes. No lo está.

SE Ranking analizó más de 300,000 dominios a principios de 2026 y encontró que la adopción de llms.txt ronda el 10 % (y se inclina fuertemente hacia sitios técnicos y orientados a desarrolladores). El informe State of llms.txt 2026 de Presenc.ai encontró cifras similares, con la adopción concentrada en docs de SaaS, empresas de tooling de IA y proyectos open-source.

Algunos patrones de los datos:

  • El SaaS con mucha documentación lidera la adopción. Anthropic, Cursor, Mintlify, Vercel, Cloudflare y Supabase publican casi todos llms.txt y llms-full.txt.
  • Los sitios de marketing y contenido se quedan atrás. Medios de noticias, blogs y sitios de marketing B2B en su mayoría no tienen llms.txt. El caso de uso es más débil ahí porque la audiencia no son agentes de programación.
  • La adopción crece, lentamente. Aproximadamente se duplica año tras año, pero desde una base pequeña.
  • El cumplimiento entre los agentes es parcial. Cursor y Claude Code soportan leer llms.txt cuando un usuario referencia un dominio. La mayoría de los demás agentes o no lo leen o solo lo usan como fallback.

La lectura honesta: llms.txt es una especificación real con un caso de uso real y estrecho. No es un factor de ranking oculto. No sustituye a una buena documentación. Es un archivo de conveniencia para una audiencia específica. Lo mismo aplica a ai.txt, más rotundamente. Fuera de verticales con mucho contenido de creadores, la adopción es pequeña. robots.txt sigue siendo el único archivo de este conjunto que realmente controla algo a escala.


Qué hacer realmente: una configuración pragmática

Un marco que cubre a la mayoría de los operadores:

Paso 1: Decide tu postura frente al entrenamiento de IA. ¿Eres contenido primero (editor, blog, noticias, educación)? Probablemente quieras bloquear bots de entrenamiento y permitir bots de búsqueda. ¿Eres SaaS o product-led? Probablemente quieras estar en los datos de entrenamiento porque ayuda a la visibilidad de la marca en las salidas del modelo.

Paso 2: Escribe un robots.txt deliberado. No copies y pegues de gists aleatorios. Elige de la tabla de user-agents anterior y escribe las directivas explícitamente. Prueba con curl -A "GPTBot" para confirmar que las páginas correctas están bloqueadas.

Paso 3: Añade ai.txt si la licencia importa. Cinco minutos, costo cero. Si alguna vez necesitas demostrar que expresaste no-consentimiento para el entrenamiento, tener un ai.txt registrado es útil. Si no te importa, sáltatelo.

Paso 4: Añade llms.txt solo si tienes documentación y una audiencia de agentes. ¿Librería open-source, SaaS de plataforma para desarrolladores o cualquier producto integrado en el código de otras personas vía asistentes de IA? Publica llms.txt e idealmente llms-full.txt. ¿Sitio de marketing, blog de contenido, SaaS no técnico? El archivo no te aporta nada.

Paso 5: Si estás en Cloudflare, configura una vez en el edge. Su gestión de bots te da una lista de bloqueo mantenida centralizadamente. Para la mayoría de los operadores eso es mejor que mantener robots.txt a mano.

Paso 6: Vigila tus logs. Los crawlers de IA respetan robots.txt mayormente, pero no perfectamente. Periódicamente revisa tus logs de acceso buscando los user-agents anteriores y confirma que el comportamiento coincide con tu config. Si un bot que bloqueaste sigue golpeando, presenta una queja al operador.

Lo que no necesitas hacer: agonizar sobre llms.txt para SEO. No afectará tu visibilidad en búsqueda con IA. No hará que ChatGPT te cite.


Casos límite: Cloudflare AI Audit, Pay-Per-Crawl, Verified Bots

Algunas funciones que vale la pena conocer, sobre todo porque insinúan hacia dónde va el ecosistema.

Cloudflare AI Audit. Una vista de dashboard de qué bots de IA están golpeando tu sitio, con qué frecuencia y a dónde van. Gratis para clientes de Cloudflare. Útil para detectar un bot nuevo que no habías visto antes y para verificar que los bots que bloqueaste realmente se quedan fuera.

Cloudflare Pay-Per-Crawl. Anunciado a mediados de 2025, permite a los dueños de sitios cobrar a los crawlers de IA por solicitud en lugar de bloquearlos del todo. El modelo es temprano y la adopción es limitada, pero apunta a un futuro donde la negociación de acceso es automatizada en lugar de binaria (bloquear / permitir).

Programa Verified Bot. Tanto Cloudflare como Google mantienen registros que confirman que una cadena de user-agent realmente pertenece al operador reclamado. Esto importa porque el spoofing es común: un scraper puede poner User-Agent: GPTBot y fingir ser OpenAI. Los programas de bots verificados contrastan las IPs de origen con los rangos publicados por el operador. Si estás viendo tráfico de GPTBot desde IPs que no son de OpenAI, es un spoofer, y bloquear por IP es la respuesta correcta.

La cuestión del "browse agéntico". Cuando ChatGPT o Claude obtiene una página en nombre de un usuario, ese fetch usa un user-agent distinto (ChatGPT-User, Claude-User). Bloquearlos significa que el modelo no puede leer las páginas que los usuarios le pegan, lo que normalmente no es lo que los editores quieren realmente. Mantén permitidos los bots de browse agéntico salvo que tengas una razón específica para bloquearlos.


Hacia dónde va esto

Algunos pronósticos honestos para los próximos 18 meses:

Se está formando un estándar, y no es llms.txt. El Grupo de Trabajo AI Preferences (AIPREF) del IETF está redactando un estándar más completo para preferencias de entrenamiento y uso de IA. Es probable que formalice el modelo estilo ai.txt de "expresa tus preferencias" con semántica adecuada y legible por máquina. Una vez que aterrice como RFC, probablemente absorberá los casos de uso que ai.txt está cubriendo actualmente.

El pay-per-crawl se extiende. Cloudflare no será la única plataforma que lo ofrezca. Espera que Akamai, Fastly y los CDNs en la nube lancen mecanismos similares. El mundo donde cada crawler de IA tiene una relación medida con cada sitio es plausible para 2027.

Las listas de bots se centralizan. Mantener tu propia lista de user-agents de IA era razonable en 2023, con quizá una docena de nombres que seguir. Ahora está más cerca de 40 y creciendo. La mayoría de los operadores acabarán confiando en una capa de infraestructura para mantener la lista al día.

llms.txt persiste en su nicho. No va a desaparecer. Tampoco se convertirá en un factor de ranking. Seguirá sirviendo a la audiencia de herramientas agénticas y probablemente se formalice en una especificación más estandarizada una vez que suficientes agentes la soporten.

El metapatrón: la web abierta por defecto está siendo reemplazada lentamente por una web basada en permisos para el tráfico de IA, mediada por plataformas de infraestructura más que por configs por sitio. robots.txt es la interfaz heredada a ese mundo. ai.txt y llms.txt son intentos tempranos de señalización más rica. El IETF y la industria de CDNs están trabajando silenciosamente en la versión que realmente escalará.


Preguntas frecuentes

¿Google lee mi archivo llms.txt?

No. Gary Illyes de Google declaró públicamente en 2025 que Google no tiene planes de usar llms.txt como input para ningún producto. Añadir llms.txt no afecta a Google Search, Gemini ni a los AI Overviews. Si quieres influir en los productos de IA de Google, la señal relevante es el user-agent Google-Extended en robots.txt y el índice estándar de búsqueda, no llms.txt.

¿Debería bloquear todos los crawlers de IA vía robots.txt?

Depende del tipo de sitio que tengas. Los editores y sitios de contenido primero suelen bloquear los bots de entrenamiento (GPTBot, ClaudeBot, Google-Extended, CCBot, Meta-ExternalAgent, Bytespider) mientras permiten los bots de búsqueda y fetch de usuario (OAI-SearchBot, PerplexityBot, ChatGPT-User). Los sitios de SaaS y producto suelen dejarlo todo abierto porque estar en los datos de entrenamiento ayuda a la visibilidad de la marca. Un bloqueo general de todos los bots de IA rara vez es la elección correcta para los no editores, porque te cuesta el descubrimiento impulsado por IA.

¿Alguien soporta realmente ai.txt?

Spawning AI lo honra, así como un puñado de curadores de datasets y proyectos de IA ética. Los principales entrenadores de modelos (OpenAI, Anthropic, Google, Meta) honran principalmente robots.txt, no ai.txt. Así que ai.txt es una capa útil de señalización para la postura de "expresamos no-consentimiento", pero no debe usarse como control de acceso. Combínalo con robots.txt para el bloqueo real.

¿Cuál es la diferencia entre llms.txt y llms-full.txt?

llms.txt es un archivo índice: una lista corta de enlaces que apuntan a versiones markdown de tu documentación. llms-full.txt es la versión en línea: toda tu documentación concatenada en un único archivo markdown grande. El compromiso es ancho de banda frente a conveniencia. llms.txt es ligero de obtener pero requiere que el agente siga los enlaces. llms-full.txt es pesado pero permite a un agente cargar toda tu documentación en contexto con una sola solicitud. La mayoría de los proyectos que publican uno publican ambos.

Si bloqueo GPTBot en robots.txt, ¿eso también bloquea el browsing de ChatGPT?

No. GPTBot es el crawler de entrenamiento de OpenAI. ChatGPT-User es el user-agent que usa ChatGPT cuando un usuario le pide explícitamente que lea una página web. Son user-agents separados en robots.txt. Bloquear GPTBot te excluye del entrenamiento. ChatGPT-User sigue permitido a menos que lo bloquees por separado. La mayoría de los editores quieren exactamente esta división: bloquear el entrenamiento, permitir los fetches iniciados por el usuario.

¿Me ayudará llms.txt a posicionarme en ChatGPT o Perplexity?

No, no como señal de cita o de ranking. ChatGPT y Perplexity muestran contenido basado en lo que han indexado vía sus crawlers de búsqueda (OAI-SearchBot, PerplexityBot) y en los datos de entrenamiento. llms.txt lo leen agentes de programación como Cursor y Claude Code, no los productos de chat. Si quieres ser citado en ChatGPT, las prioridades son: (1) mantener OAI-SearchBot desbloqueado en robots.txt, (2) publicar contenido que responda preguntas específicas con claridad y (3) ganarte citas de fuentes en las que esos modelos confíen. llms.txt no está en esa lista.


Reflexiones finales

Lo que me frustra del discurso actual en torno al control de crawlers de IA es la confianza con la que se da mal consejo. "Añade llms.txt y posicionarás en ChatGPT". "Bloquea todo vía ai.txt". "robots.txt está muerto, llms.txt es el futuro". Cada una de estas es errónea en una dirección distinta.

La verdad es más aburrida y más útil: robots.txt sigue haciendo el trabajo real. ai.txt expresa una preferencia que algunos operadores honran. llms.txt es una conveniencia de herramienta para desarrolladores para una audiencia específica. Ninguno es una palanca mágica de ranking, y tratarlos como tal desperdicia tiempo que podrías invertir en cosas que sí importan.

Si no recuerdas nada más, recuerda las tres tareas. robots.txt es la puerta de acceso. ai.txt es la señal de licencia. llms.txt es el índice de desarrollador. Configura cada uno para lo que realmente hace, ignora el resto del ruido, y estarás por delante de la mayoría de los operadores que persiguen tendencias sin entenderlas.

Y mantén un ojo en AIPREF. El próximo año o dos del control de crawlers de IA estará moldeado menos por estos tres archivos y más por lo que el IETF y la industria de CDNs estandaricen a continuación. El estado actual es un parche temporal.

Start building your knowledge library

Highlight what matters as you read across the web. Save insights from articles, books, and YouTube videos in one place.

Get Started Free