llms.txt vs robots.txt vs ai.txt: AI 크롤러 제어에 관한 솔직한 가이드

세 가지 파일, 세 가지 역할, 그리고 혼란의 비용

최근에 운영자 Slack이나 마케팅 뉴스레터를 조금이라도 살펴봤다면, 예전에 사이트맵을 추가하라고 했던 것처럼 "llms.txt를 추가하세요"라는 조언을 들었을 가능성이 큽니다. 그런 조언은 대개 세부 정보가 부족하고 정확하지도 않습니다. 어떤 곳은 llms.txt를 추가하면 ChatGPT에서 인용된다고 합니다. 어떤 곳은 크롤링을 제어한다고 암시합니다. 둘 다 사실이 아닙니다.

이름이 비슷한 세 가지 파일이 지난 몇 년 동안 등장했고, 각각 다른 문제를 해결합니다.

robots.txt는 크롤러가 페이지를 가져올 수 있는지 여부를 제어합니다. 1994년부터 존재해 왔으며 정상적인 운영자가 이를 존중한다는 의미에서 실제 효력이 있습니다.
ai.txt는 AI 학습을 겨냥한 허가 및 라이선스 선언입니다. 무엇에 동의하고 동의하지 않는지를 운영자에게 알립니다. 차단은 하지 않습니다.
llms.txt는 AI 코딩 에이전트와 유사 도구를 위해 큐레이션된 인덱스입니다. 어떤 문서가 중요하고 어디에 있는지를 개발자 에이전트에게 알려줍니다. 크롤 지시문도 아니고 인용 요청도 아닙니다.

이들을 혼동하면 대가가 따릅니다. 잘못된 봇을 차단하면 AI Overviews에서 가시성을 잃습니다. 잘못된 파일이 학습을 막아 줄 거라 믿으면 결국 누군가의 데이터셋에 포함될 수 있습니다. 어떤 블로그가 순위를 올려준다고 했다는 이유로 llms.txt를 추가하면, 순위에 아무런 신호도 주지 않는 데 유지보수 부담만 떠안게 됩니다.

AI 크롤러를 위한 robots.txt: 2026년에 실제로 작동하는 것

robots.txt는 세 파일 중에서 주요 AI 크롤러 운영자들이 폭넓고 의도적으로 지원하는 유일한 파일입니다. OpenAI, Anthropic, Google, Meta, Common Crawl, Perplexity, Apple 모두가 user-agent 문자열과 robots.txt를 통한 차단 방법을 공개합니다. 준수가 법적으로 구속력 있는 것은 아니지만, 주요 운영자들은 실제로 지시문을 따르고 있고, 이를 위반했다가 적발되면 PR 재앙이 되는 경향이 있습니다.

2026년에 실제로 알아두어야 할 user-agent 목록은 다음과 같습니다.

봇 이름	운영자	용도	Disallow 지시문
GPTBot	OpenAI	ChatGPT 학습 데이터	`User-agent: GPTBot`
OAI-SearchBot	OpenAI	ChatGPT 검색 결과 색인	`User-agent: OAI-SearchBot`
ChatGPT-User	OpenAI	사용자가 시작한 페치(브라우징)	`User-agent: ChatGPT-User`
ClaudeBot	Anthropic	Claude 학습 데이터	`User-agent: ClaudeBot`
Claude-SearchBot	Anthropic	Claude 검색 색인	`User-agent: Claude-SearchBot`
Google-Extended	Google	Gemini 및 Vertex AI 학습	`User-agent: Google-Extended`
CCBot	Common Crawl	공개 웹 아카이브, 많은 모델에 공급	`User-agent: CCBot`
Meta-ExternalAgent	Meta	Llama 및 Meta AI 학습 데이터	`User-agent: Meta-ExternalAgent`
Bytespider	ByteDance	TikTok 및 Doubao 학습 데이터	`User-agent: Bytespider`
PerplexityBot	Perplexity	Perplexity Answers 색인	`User-agent: PerplexityBot`
Applebot-Extended	Apple	Apple Intelligence 학습	`User-agent: Applebot-Extended`

차단을 시작하기 전에 알아두면 좋은 몇 가지가 있습니다.

학습과 페치는 다른 일입니다. GPTBot은 모델을 학습시킵니다. ChatGPT-User는 사용자가 ChatGPT에 페이지를 읽어달라고 명시적으로 요청할 때 그 페이지를 가져옵니다. GPTBot은 차단하되 ChatGPT-User는 차단하지 않으면, 학습에서는 빠지면서도 사용자가 ChatGPT에 링크를 보낼 때는 여전히 읽을 수 있는 상태가 됩니다.

검색 봇은 별개입니다. OAI-SearchBot과 PerplexityBot은 학습이 아니라 검색을 위해 크롤링합니다. 이들을 차단하면 해당 제품의 검색 결과에서 제외됩니다. ChatGPT나 Perplexity에서 인용되는 것에 신경 쓴다면 이 봇들은 건드리지 마세요.

Google-Extended는 Gemini 학습에 한정된 옵트아웃입니다. 이를 Disallow해도 일반 Googlebot이나 Google Search 순위에는 영향을 주지 않습니다. 퍼블리셔가 검색 트래픽을 잃지 않으면서 학습에서는 빠질 수 있도록 별도의 user-agent로 분리되어 있습니다.

학습 코퍼스가 되지는 않되 AI 가시성은 확보하고 싶은 콘텐츠 사이트의 합리적인 시작 설정은 다음과 같습니다.

# Block training bots
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# Allow search and user-fetch bots
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

학습 봇은 차단하면서 페치 봇과 검색 봇은 허용하는 이 패턴은 퍼블리셔 사이에서 흔해졌습니다. Originality.ai의 추적에 따르면 전 세계 주요 뉴스 매체의 88%가 이제 적어도 하나의 주요 AI 학습 크롤러를 차단합니다. 커머스나 SaaS 사이트는 계산이 다릅니다. 대부분은 학습 봇을 열어두는데, 학습 세트에 포함되는 것이 모델 출력에서의 브랜드 인지에 도움이 되기 때문입니다.

ai.txt: 허가 및 라이선스 계층

ai.txt는 성격이 다릅니다. Have I Been Trained을 만든 팀인 Spawning AI가, 학습 선호도를 구조화된 기계 판독 가능한 방식으로 표현하는 표준 파일로 제안했습니다. 의도는 크롤러를 차단하는 것이 아닙니다. 동의를 선언하는 것입니다.

최소한의 ai.txt는 대략 이런 모습입니다.

User-Agent: *
Disallow: images/
Disallow: video/
Disallow: text/

Spawning의 스펙은 경로 대신 콘텐츠 타입을 사용해 "내 이미지가 학습에 사용되는 것에 동의하지 않습니다"라고 신호를 보냅니다. 이 파일은 선의의 학습 운영자, 데이터셋 큐레이터, 그리고 (이론적으로) 누가 옵트아웃했는지 알고 싶어 하는 감사관이 읽도록 의도되었습니다.

2026년 현재 ai.txt에 대한 솔직한 관찰 몇 가지입니다.

채택률이 낮습니다. 대부분의 사이트에는 없습니다. 청중이 주류 크롤러 엔지니어가 아니라 데이터셋 큐레이터이고, 준수 루프도 더 느립니다.
장벽이 아니라 신호입니다. ai.txt는 페치를 막지 않습니다. 선호도를 표현할 뿐입니다. ai.txt를 무시하는 크롤러가 기술적으로 잘못한 것은 아니고, 단지 윤리적으로 의심스러울 뿐입니다.
robots.txt를 보완합니다. robots.txt는 "크롤링하지 마라"고 말합니다. ai.txt는 "만약 크롤링한다면 이렇게 사용할 수 있다"고 말합니다.
창작자 중심 사이트에 더 중요합니다. 이미지 호스트, 아트 포트폴리오, 음악 사이트, 스톡 플랫폼이 ai.txt를 사용할 가능성이 가장 큰데, 라이선스 문제가 이들에게 더 첨예하기 때문입니다.

"우리는 학습에 비동의를 표현했다"고 말할 수 있는 것에 관심이 있다면 ai.txt를 추가할 가치가 있습니다. 5분짜리 변경입니다. 접근 제어에만 관심이 있다면 robots.txt가 더 많은 일을 합니다.

llms.txt: 개발자 디스커버리 파일

이제 가장 과대광고가 많고 가장 오해받는 파일 차례입니다.

llms.txt는 Jeremy Howard가 2024년 9월에 제안했고, 스펙은 llmstxt.org에 있습니다. 목적은 좁고 구체적입니다. 도메인 루트에 있는 마크다운 파일로, AI 코딩 에이전트(Cursor, Claude Code, Devin 등)에게 문서의 큐레이션된 지도를 제공합니다. 형식은 다음과 같습니다.

# My Project

> A short description of the project so an LLM has context.

## Docs

- [Getting Started](https://example.com/docs/getting-started.md): Quick setup
- [API Reference](https://example.com/docs/api.md): Full API surface
- [Configuration](https://example.com/docs/config.md): Config options

## Optional

- [Changelog](https://example.com/changelog.md): Release notes

형식은 의도적으로 단순합니다. H1(프로젝트 이름), 블록인용(설명), 그다음에 링크 섹션들입니다. 각 링크는 페이지의 마크다운 버전을 가리킵니다. llms.txt를 읽는 에이전트는 전체 HTML, 사이드바, 내비게이션을 파싱하지 않고도 프로젝트가 무엇을 하고 표준 문서가 어디에 있는지 빠르게 이해할 수 있습니다.

Mintlify와 Anthropic은 이를 llms-full.txt, 즉 모든 내용을 인라인으로 담은 버전으로 확장했습니다. 별도의 파일에 링크를 거는 대신, llms-full.txt는 모든 문서의 전체 마크다운을 하나의 문서에 담습니다. Mintlify의 이 파일에 대한 설명은 사용 사례를 이렇게 풀어냅니다. 코딩 에이전트가 라이브러리에 대해 추론할 때, 파일 하나만 가져오면 모든 문서가 컨텍스트 윈도우에 들어옵니다. 후속 페치가 필요 없습니다.

이제 SEO 콘텐츠에서 자주 잘못 보도되는 부분입니다.

llms.txt는 인용 신호가 아닙니다. ChatGPT, Claude, Perplexity에게 더 자주 인용하라고 알리지 않습니다.
llms.txt는 크롤 지시문이 아닙니다. 어떤 크롤러도 차단하거나 초대하지 않습니다.
llms.txt는 Google이 사용하지 않습니다. Google의 Gary Illyes가 공개적으로 밝힌 바에 따르면 Google은 이를 사용할 계획이 없습니다.
llms.txt는 AI 검색 순위를 높이지 않습니다. ChatGPT, Perplexity, Claude Web에서의 가시성에 측정 가능한 영향이 없는데, 이 어떤 제품도 이를 순위 입력으로 읽지 않기 때문입니다.

잘 하는 일은 따로 있습니다. 청중이 코딩 에이전트로 문서를 소비한다면, llms.txt는 그 경험을 더 깔끔하게 만듭니다. Anthropic 문서 사이트, Cloudflare 문서, Mintlify가 호스팅하는 프로젝트, 많은 오픈소스 SDK가 llms.txt를 게시하는 이유는 통합을 구축하는 개발자들이 Cursor나 Claude Code에 그들의 문서를 일상적으로 로드하기 때문입니다.

그게 진짜 사용 사례입니다. 마케팅 기능이 아니라 개발자 도구 기능입니다.

각 파일이 제어하는 것, 나란히 비교

속성	robots.txt	ai.txt	llms.txt
주요 목적	크롤 접근 제어	학습/라이선스 선호	AI 에이전트용 큐레이션 문서 인덱스
읽는 주체	모든 검색 및 AI 크롤러	데이터셋 큐레이터, Spawning AI 도구	AI 코딩 에이전트 (Cursor, Claude Code 등)
제안자	Martijn Koster, 1994 (2022년 RFC 9309)	Spawning AI	Jeremy Howard, 2024년 9월
강제력	모든 주요 운영자가 준수	자발적, 외부 감사	자발적, 에이전트 측 결정
현재 채택률	거의 보편적	한 자릿수 %	크롤링된 도메인의 약 10% (SE Ranking)
AI 검색 가시성에 미치는 효과	직접적 (색인 봇 허용/차단)	없음	없음
학습 포함 여부에 미치는 효과	직접적 (학습 봇 차단)	신호만	없음
영향 발생 시간	수 시간에서 수일	수 개월 (데이터셋 주기에 따라)	지원 에이전트에 대해 즉시
유지보수 부담	낮음	매우 낮음	중간 (문서와 동기화 유지 필요)

이 표에서 가장 중요한 행은 "AI 검색 가시성에 미치는 효과"입니다. 이 세 파일 중 실제로 결과를 움직이는 것은 단 하나뿐이고, 그것은 30년 동안 존재해 온 파일입니다.

Cloudflare의 분수령: 2025년 7월

다가올 일에 중요한 영향을 주므로 짧은 역사 강의를 해 봅니다.

2024년 7월, Cloudflare는 자사 네트워크의 모든 사이트에서 AI 봇, 스크래퍼, 크롤러를 차단할 수 있는 원클릭 토글을 출시했습니다. "Declaring Your AIndependence"라는 이름이었습니다. 옵트인이었습니다. 많은 사이트, 특히 퍼블리셔가 빠르게 도입했습니다.

1년 후인 2025년 7월 1일, Cloudflare는 기본값을 뒤집었습니다. 이제 Cloudflare에 추가되는 새 도메인은 기본적으로 AI 크롤러를 차단합니다. 기존 고객에게는 원클릭 업그레이드가 제공되었습니다. Cloudflare는 이를 "허가 기반" 모델이라고 부릅니다. AI 운영자는 기본적으로 스크래핑하는 것이 아니라 접근을 협상해야 합니다.

Cloudflare는 공개 웹의 약 20% 앞단에 자리하고 있습니다. 이들의 조치는 인터넷의 상당 부분을 AI 학습에 대해 기본 개방에서 기본 폐쇄 상태로 사실상 전환했습니다.

2025년 하반기에 대한 Cloudflare 자체 데이터에서 가져온 몇 가지 수치입니다.

네트워크 전반에서 4,160억 건의 AI 봇 요청이 기록되었습니다.
GPTBot 트래픽이 전년 대비 147% 증가했고, 이는 더 많은 사이트가 차단하는 와중에도 OpenAI가 더 공격적으로 페치하고 있음을 시사합니다.
Meta-ExternalAgent 트래픽이 전년 대비 843% 증가해, 이 데이터셋에서 어떤 AI 크롤러보다 가장 큰 성장을 보였습니다.
250만 개 사이트가 Cloudflare가 봇 목록을 대신 유지·관리하는 AI용 managed robots.txt에 옵트인했습니다.

"managed robots.txt"라는 디테일은 생태계가 어디로 향하는지 암시합니다. 봇 목록은 개별 사이트가 유지하기에는 너무 빨리 바뀝니다. 매달 새로운 AI 스타트업이 출시되고 각각 자체 user-agent를 가집니다. 점점 더 사이트들은 목록을 중앙에서 유지·관리하는 인프라 계층에 위임하게 됩니다.

Cloudflare를 사용 중이고 2024년 이후 봇 관리 설정을 확인하지 않았다면 확인해 보세요. 기본값이 알아채지 못한 사이에 바뀌었습니다.

채택률 현실 점검

SEO 트위터를 읽다 보면 llms.txt가 어디에나 있는 것 같지만, 그렇지 않습니다.

SE Ranking은 2026년 초에 30만 개 이상의 도메인을 분석했고 llms.txt 채택률이 약 10%에 머무는 것으로 나타났습니다 (그리고 기술 및 개발자 대상 사이트로 크게 치우쳐 있습니다). Presenc.ai의 State of llms.txt 2026 보고서도 비슷한 수치를 발견했고, 채택은 SaaS 문서, AI 툴링 기업, 오픈소스 프로젝트에 집중되어 있었습니다.

데이터에서 드러나는 몇 가지 패턴입니다.

문서 중심의 SaaS가 채택을 주도합니다. Anthropic, Cursor, Mintlify, Vercel, Cloudflare, Supabase 대부분이 llms.txt와 llms-full.txt를 게시합니다.
마케팅 및 콘텐츠 사이트는 뒤처져 있습니다. 뉴스 매체, 블로그, B2B 마케팅 사이트는 대부분 llms.txt가 없습니다. 청중이 코딩 에이전트가 아니라 사용 사례가 약합니다.
채택이 천천히 늘어나고 있습니다. 매년 대략 두 배씩 증가하지만 출발 베이스가 작습니다.
에이전트 사이의 준수는 부분적입니다. Cursor와 Claude Code는 사용자가 도메인을 참조할 때 llms.txt 읽기를 지원합니다. 대부분의 다른 에이전트는 읽지 않거나 폴백으로만 사용합니다.

솔직한 결론은 이렇습니다. llms.txt는 실제 스펙이고 실제로 좁은 사용 사례를 가집니다. 숨겨진 순위 요소가 아닙니다. 좋은 문서를 대체하지도 않습니다. 특정 청중을 위한 편의 파일입니다. ai.txt에도 더 단도직입적으로 같은 말이 적용됩니다. 창작자 중심 버티컬을 벗어나면 채택이 작습니다. robots.txt는 이 세트에서 실제로 대규모로 무언가를 제어하는 유일한 파일입니다.

실제로 해야 할 일: 실용적인 설정

대부분의 운영자를 커버하는 프레임워크입니다.

1단계: AI 학습에 대한 입장을 결정하세요. 콘텐츠 우선(퍼블리셔, 블로그, 뉴스, 교육)인가요? 그렇다면 학습 봇은 차단하고 검색 봇은 허용하고 싶을 것입니다. SaaS나 제품 주도형인가요? 그렇다면 모델 출력에서 브랜드 가시성을 높이기 위해 학습 데이터에 포함되고 싶을 것입니다.

2단계: 의도적인 robots.txt를 작성하세요. 아무 gist에서나 복사 붙여넣기 하지 마세요. 위 user-agent 표에서 골라 지시문을 명시적으로 작성하세요. curl -A "GPTBot"으로 올바른 페이지가 차단되는지 테스트하세요.

3단계: 라이선스가 중요하다면 ai.txt를 추가하세요. 5분, 비용 제로입니다. 학습에 비동의를 표현했다는 사실을 입증해야 할 일이 생긴다면, ai.txt가 파일로 있는 것이 유용합니다. 신경 쓰지 않는다면 건너뛰세요.

4단계: 문서가 있고 에이전트 청중이 있을 때만 llms.txt를 추가하세요. 오픈소스 라이브러리, 개발자 플랫폼 SaaS, 또는 AI 어시스턴트를 통해 다른 사람들의 코드에 통합되는 모든 제품인가요? llms.txt를, 이상적으로는 llms-full.txt도 게시하세요. 마케팅 사이트, 콘텐츠 블로그, 비기술 SaaS인가요? 이 파일은 아무것도 주지 않습니다.

5단계: Cloudflare를 사용한다면 엣지에서 한 번 구성하세요. Cloudflare의 봇 관리는 중앙에서 유지되는 차단 목록을 제공합니다. 대부분의 운영자에게는 robots.txt를 손으로 유지하는 것보다 낫습니다.

6단계: 로그를 지켜보세요. AI 크롤러는 robots.txt를 대체로 존중하지만, 완벽하지는 않습니다. 주기적으로 위의 user-agent에 대해 액세스 로그를 살펴보고 동작이 설정과 일치하는지 확인하세요. 차단한 봇이 계속 들어온다면 운영자에게 항의를 제기하세요.

할 필요 없는 것은 이렇습니다. SEO를 위해 llms.txt에 노심초사하지 마세요. AI 검색 가시성에 영향을 주지 않습니다. ChatGPT가 인용하게 만들지도 않습니다.

엣지 케이스: Cloudflare AI Audit, Pay-Per-Crawl, Verified Bots

알아두면 좋은 기능 몇 가지인데, 주로 생태계가 어디로 향하는지 암시하기 때문입니다.

Cloudflare AI Audit. 어떤 AI 봇이 사이트를 얼마나 자주 어디로 방문하는지 보여주는 대시보드입니다. Cloudflare 고객에게 무료입니다. 처음 보는 새로운 봇을 발견하고, 차단한 봇이 실제로 들어오지 못하는지 확인하는 데 유용합니다.

Cloudflare Pay-Per-Crawl. 2025년 중반에 발표된 이 기능은 사이트 소유자가 AI 크롤러를 완전히 차단하는 대신 요청당 요금을 부과할 수 있게 합니다. 모델은 초기 단계이고 채택은 제한적이지만, 접근 협상이 이진(차단/허용)이 아니라 자동화되는 미래를 시사합니다.

Verified Bot 프로그램. Cloudflare와 Google 모두 user-agent 문자열이 실제로 주장된 운영자에게 속하는지 확인하는 레지스트리를 유지합니다. 스푸핑이 흔하기 때문에 중요합니다. 스크래퍼가 User-Agent: GPTBot을 설정하고 OpenAI인 척할 수 있습니다. Verified bot 프로그램은 소스 IP를 운영자가 게시한 범위와 대조합니다. OpenAI가 아닌 IP에서 GPTBot 트래픽이 보인다면 스푸퍼이고, IP로 차단하는 것이 적절한 대응입니다.

"에이전트형 브라우징" 문제. ChatGPT나 Claude가 사용자를 대신해 페이지를 페치할 때는 다른 user agent(ChatGPT-User, Claude-User)를 사용합니다. 이를 차단하면 모델은 사용자가 붙여 넣은 페이지를 읽을 수 없게 되는데, 보통 퍼블리셔가 원하는 결과가 아닙니다. 차단해야 할 구체적인 이유가 없다면 에이전트형 브라우징 봇은 허용 상태로 두세요.

앞으로 어디로 향하는가

향후 18개월에 대한 솔직한 예측 몇 가지입니다.

표준이 형성되고 있고, 그것은 llms.txt가 아닙니다. IETF AI Preferences Working Group(AIPREF)이 AI 학습 및 사용 선호도에 대한 더 포괄적인 표준을 초안 작업 중입니다. 적절한 기계 판독 가능한 시맨틱을 갖춘 ai.txt 스타일의 "선호도 표현" 모델을 공식화할 가능성이 큽니다. RFC로 자리잡고 나면, 현재 ai.txt가 채우고 있는 사용 사례를 흡수하게 될 것입니다.

Pay-per-crawl이 확산됩니다. Cloudflare만 제공하지는 않을 것입니다. Akamai, Fastly, 클라우드 CDN이 비슷한 메커니즘을 출시할 것으로 예상됩니다. 모든 AI 크롤러가 모든 사이트와 미터링된 관계를 맺는 세상은 2027년쯤이면 가능해 보입니다.

봇 목록이 중앙화됩니다. 2023년에는 추적할 이름이 십여 개 정도였으니 자체 AI user-agent 목록을 유지하는 것이 합리적이었습니다. 이제는 40개에 가깝고 더 늘고 있습니다. 대부분의 운영자는 목록을 최신으로 유지하기 위해 인프라 계층에 의존하게 될 것입니다.

llms.txt는 자신의 틈새에서 유지됩니다. 사라지지 않을 것입니다. 또한 순위 요소가 되지도 않을 것입니다. 에이전트 도구 청중에게 계속 서비스를 제공할 것이고, 충분한 에이전트가 지원하게 되면 더 표준화된 스펙으로 정착할 가능성이 큽니다.

메타 패턴은 이렇습니다. 기본 개방형이던 웹이 AI 트래픽에 대해서는 사이트별 설정이 아니라 인프라 플랫폼이 중재하는 허가 기반 웹으로 천천히 대체되고 있습니다. robots.txt는 그 세상으로 가는 레거시 인터페이스입니다. ai.txt와 llms.txt는 더 풍부한 신호를 보내려는 초기 시도입니다. IETF와 CDN 업계는 실제로 확장 가능한 버전을 조용히 작업 중입니다.

자주 묻는 질문

Google이 내 llms.txt 파일을 읽나요?

아닙니다. Google의 Gary Illyes는 2025년에 Google이 llms.txt를 어떤 제품의 입력으로도 사용할 계획이 없다고 공개적으로 밝혔습니다. llms.txt를 추가해도 Google Search, Gemini, AI Overviews에 영향을 주지 않습니다. Google의 AI 제품에 영향을 주고 싶다면 관련 신호는 robots.txt의 Google-Extended user agent와 표준 검색 색인이지, llms.txt가 아닙니다.

robots.txt로 모든 AI 크롤러를 차단해야 하나요?

운영하는 사이트의 종류에 따라 다릅니다. 퍼블리셔와 콘텐츠 우선 사이트는 학습 봇(GPTBot, ClaudeBot, Google-Extended, CCBot, Meta-ExternalAgent, Bytespider)을 차단하면서 검색 및 사용자 페치 봇(OAI-SearchBot, PerplexityBot, ChatGPT-User)은 허용하는 경우가 많습니다. SaaS와 제품 사이트는 학습 데이터에 포함되는 것이 브랜드 가시성에 도움이 되기 때문에 보통 모두 열어둡니다. 퍼블리셔가 아닌 곳에서 모든 AI 봇을 일괄 차단하는 것은 AI 기반 발견 가능성을 잃게 만들기 때문에 맞는 선택인 경우가 드뭅니다.

ai.txt는 실제로 누군가 지원하나요?

Spawning AI가 이를 존중하고, 일부 데이터셋 큐레이터와 윤리적 AI 프로젝트도 마찬가지입니다. 주요 모델 학습 주체(OpenAI, Anthropic, Google, Meta)는 주로 ai.txt가 아니라 robots.txt를 존중합니다. 따라서 ai.txt는 "우리는 비동의를 표현했다"는 자세를 위한 유용한 신호 계층이지만, 접근 제어 수단으로 의존해서는 안 됩니다. 실제 차단을 위해서는 robots.txt와 함께 사용하세요.

llms.txt와 llms-full.txt의 차이는 무엇인가요?

llms.txt는 인덱스 파일입니다. 문서의 마크다운 버전을 가리키는 짧은 링크 목록입니다. llms-full.txt는 인라인 버전입니다. 모든 문서가 하나의 큰 마크다운 파일에 연결되어 있습니다. 트레이드오프는 대역폭과 편의성 사이입니다. llms.txt는 가져오기에 가볍지만 에이전트가 링크를 따라가야 합니다. llms-full.txt는 무겁지만 에이전트가 단일 요청으로 전체 문서를 컨텍스트에 로드할 수 있게 합니다. 둘 중 하나를 게시하는 프로젝트는 대부분 둘 다 게시합니다.

robots.txt에서 GPTBot을 차단하면 ChatGPT 브라우징도 차단되나요?

아닙니다. GPTBot은 OpenAI의 학습 크롤러입니다. ChatGPT-User는 사용자가 ChatGPT에 웹페이지를 읽어달라고 명시적으로 요청할 때 사용하는 user agent입니다. robots.txt에서는 별도의 user agent입니다. GPTBot을 차단하면 학습에서 옵트아웃됩니다. ChatGPT-User는 별도로 차단하지 않는 한 허용된 상태로 남습니다. 대부분의 퍼블리셔는 정확히 이 분리, 즉 학습은 차단하되 사용자가 시작한 페치는 허용하는 것을 원합니다.

llms.txt가 ChatGPT나 Perplexity에서의 순위에 도움이 되나요?

아닙니다. 인용이나 순위 신호로는 작동하지 않습니다. ChatGPT와 Perplexity는 자체 검색 크롤러(OAI-SearchBot, PerplexityBot)로 색인한 내용과 학습 데이터를 바탕으로 콘텐츠를 노출합니다. llms.txt는 채팅 제품이 아니라 Cursor나 Claude Code 같은 코딩 에이전트가 읽습니다. ChatGPT에서 인용되고 싶다면 우선순위는 다음과 같습니다. (1) robots.txt에서 OAI-SearchBot을 차단하지 않을 것, (2) 구체적인 질문에 명확하게 답하는 콘텐츠를 게시할 것, (3) 그 모델들이 신뢰하는 출처로부터 인용을 얻을 것. llms.txt는 그 목록에 없습니다.

맺는말

현재 AI 크롤러 제어를 둘러싼 담론에서 답답한 점은 잘못된 조언이 얼마나 자신감 넘치게 퍼지고 있는가입니다. "llms.txt를 추가하면 ChatGPT에서 순위가 오른다." "ai.txt로 전부 차단해라." "robots.txt는 죽었고 llms.txt가 미래다." 이들은 각각 다른 방향으로 틀렸습니다.

진실은 더 지루하고 더 유용합니다. robots.txt가 여전히 진짜 일을 합니다. ai.txt는 일부 운영자가 존중하는 선호도를 표현합니다. llms.txt는 특정 청중을 위한 개발자 도구 편의입니다. 어느 것도 마법의 순위 레버가 아니며, 그런 것처럼 다루면 실제로 중요한 일에 쓸 시간을 낭비하게 됩니다.

다른 것은 다 잊더라도 세 가지 역할은 기억하세요. robots.txt는 접근 게이트. ai.txt는 라이선스 신호. llms.txt는 개발자 인덱스. 각각이 실제로 하는 일에 맞게 설정하고 나머지 소음은 무시하면, 이해 없이 트렌드를 좇는 대부분의 운영자보다 앞서게 됩니다.

그리고 AIPREF를 주시하세요. 앞으로 1~2년의 AI 크롤러 제어는 이 세 파일보다 IETF와 CDN 업계가 다음에 표준화하는 내용이 더 크게 좌우할 것입니다. 현재 상태는 임시방편입니다.