Drei Dateien, drei Aufgaben und die Verwirrungssteuer
Wenn Sie in letzter Zeit in Operator-Slacks oder Marketing-Newslettern unterwegs waren, hat man Ihnen vermutlich geraten, eine „llms.txt hinzuzufügen", so wie man Ihnen früher empfohlen hat, eine Sitemap hinzuzufügen. Der Rat ist meist knapp und ungenau. Manchmal heißt es, llms.txt sorge dafür, dass Sie in ChatGPT zitiert werden. Manchmal wird suggeriert, sie steuere das Crawling. Beides stimmt nicht.
In den letzten Jahren sind drei Dateien mit ähnlich klingenden Namen aufgetaucht, jede löst ein anderes Problem:
- robots.txt steuert, ob ein Crawler Ihre Seiten überhaupt abrufen darf. Sie existiert seit 1994 und hat insofern echte Wirkung, als seriöse Betreiber sie respektieren.
- ai.txt ist eine Berechtigungs- und Lizenzerklärung, die auf KI-Training abzielt. Sie teilt Betreibern mit, womit Sie einverstanden sind und womit nicht. Sie blockiert nichts.
- llms.txt ist ein kuratierter Index für KI-Coding-Agenten und ähnliche Tools. Sie sagt einem Entwickler-Agenten, welche Dokumente wichtig sind und wo sie zu finden sind. Es handelt sich nicht um eine Crawl-Direktive und auch nicht um eine Zitierbitte.
Diese Dateien zu verwechseln ist teuer. Blockieren Sie den falschen Bot, verlieren Sie Sichtbarkeit in AI Overviews. Vertrauen Sie der falschen Datei, um Training zu unterbinden, landen Sie trotzdem in irgendeinem Datensatz. Fügen Sie llms.txt hinzu, weil ein Blog behauptet hat, sie verbessere Rankings, dann haben Sie Wartungsaufwand für null Ranking-Signal.
robots.txt für KI-Crawler: Was 2026 wirklich funktioniert
robots.txt ist die einzige der drei Dateien, die breite, bewusste Unterstützung der großen KI-Crawler-Betreiber hat. OpenAI, Anthropic, Google, Meta, Common Crawl, Perplexity und Apple veröffentlichen alle User-Agent-Strings und Anleitungen, wie man sie per robots.txt blockiert. Die Einhaltung ist rechtlich nicht bindend, aber die großen Betreiber halten sich in der Praxis an die Direktive, und dabei erwischt zu werden, wenn man sie verletzt, ist meist ein PR-Desaster.
Hier ist die User-Agent-Auswahl, die Sie 2026 tatsächlich kennen sollten:
| Bot-Name | Betreiber | Zweck | Disallow-Direktive |
|---|---|---|---|
| GPTBot | OpenAI | Trainingsdaten für ChatGPT | User-agent: GPTBot |
| OAI-SearchBot | OpenAI | Indexierung für ChatGPT-Suchergebnisse | User-agent: OAI-SearchBot |
| ChatGPT-User | OpenAI | Nutzerinitiierte Abrufe (Browsing) | User-agent: ChatGPT-User |
| ClaudeBot | Anthropic | Trainingsdaten für Claude | User-agent: ClaudeBot |
| Claude-SearchBot | Anthropic | Indexierung für die Claude-Suche | User-agent: Claude-SearchBot |
| Google-Extended | Training für Gemini und Vertex AI | User-agent: Google-Extended | |
| CCBot | Common Crawl | Offenes Web-Archiv, fließt in viele Modelle ein | User-agent: CCBot |
| Meta-ExternalAgent | Meta | Trainingsdaten für Llama und Meta AI | User-agent: Meta-ExternalAgent |
| Bytespider | ByteDance | Trainingsdaten für TikTok und Doubao | User-agent: Bytespider |
| PerplexityBot | Perplexity | Indexierung für Perplexity Answers | User-agent: PerplexityBot |
| Applebot-Extended | Apple | Training für Apple Intelligence | User-agent: Applebot-Extended |
Ein paar Dinge sind wichtig zu verstehen, bevor Sie mit dem Blockieren beginnen:
Training und Abruf sind unterschiedliche Aufgaben. GPTBot trainiert das Modell. ChatGPT-User ruft eine Seite ab, wenn ein Nutzer ChatGPT explizit darum bittet, sie zu lesen. Wenn Sie GPTBot blockieren, aber ChatGPT-User nicht, steigen Sie aus dem Training aus und bleiben lesbar, wenn Nutzer Ihren Link an ChatGPT senden.
Such-Bots sind separat. OAI-SearchBot und PerplexityBot crawlen für den Abruf, nicht für das Training. Sie zu blockieren entfernt Sie aus den Suchergebnissen dieser Produkte. Wenn Ihnen wichtig ist, in ChatGPT oder Perplexity zitiert zu werden, lassen Sie diese Bots in Ruhe.
Google-Extended ist ausschließlich ein Opt-out für das Gemini-Training. Sie zu blockieren wirkt sich nicht auf den normalen Googlebot oder Ihre Platzierung in der Google-Suche aus. Es ist ein separater User-Agent, damit Publisher genau das Training ablehnen können, ohne Suchverkehr zu verlieren.
Eine vernünftige Startkonfiguration für eine Content-Seite, die KI-Sichtbarkeit ohne Aufnahme in den Trainingskorpus möchte, sieht so aus:
# Block training bots
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Applebot-Extended
Disallow: /
# Allow search and user-fetch bots
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
Dieses Muster, also Trainer zu blockieren und gleichzeitig Fetcher und Such-Bots zuzulassen, hat sich unter Publishern verbreitet. Laut dem Tracking von Originality.ai blockieren 88 % der weltweit führenden Nachrichtenportale inzwischen mindestens einen großen KI-Trainings-Crawler. Bei Commerce- oder SaaS-Seiten sieht die Rechnung anders aus: Die meisten lassen Trainings-Bots offen, weil die Aufnahme in den Trainingsdatensatz die Markenerinnerung in Modellausgaben unterstützt.
ai.txt: Die Ebene für Berechtigung und Lizenzierung
ai.txt ist ein ganz anderes Tier. Vorgeschlagen wurde sie von Spawning AI, dem Team hinter Have I Been Trained, als standardisierte Datei, die Ihre Trainingspräferenzen in strukturierter, maschinenlesbarer Form ausdrückt. Die Absicht ist nicht, Crawler zu blockieren, sondern Einwilligung zu erklären.
Eine minimale ai.txt sieht ungefähr so aus:
User-Agent: *
Disallow: images/
Disallow: video/
Disallow: text/
Spawnings Spezifikation verwendet Inhaltstypen statt Pfade und signalisiert damit: „Ich erteile keine Einwilligung, dass meine Bilder zum Training verwendet werden." Die Datei soll von gutgläubigen Trainingsbetreibern, Datensatz-Kuratoren und (theoretisch) Auditoren gelesen werden, die wissen möchten, wer sich gegen die Nutzung entschieden hat.
Ein paar ehrliche Beobachtungen zu ai.txt im Jahr 2026:
- Die Verbreitung ist dünn. Die meisten Seiten haben keine. Die Zielgruppe sind Datensatz-Kuratoren statt der gängigen Crawler-Engineers, und der Compliance-Kreislauf ist langsamer.
- Es ist ein Signal, keine Barriere. ai.txt verhindert keine Abrufe. Sie drückt Präferenzen aus. Ein Crawler, der ai.txt ignoriert, tut technisch nichts Falsches, ist aber ethisch fragwürdig.
- Sie ergänzt robots.txt. robots.txt sagt „Nicht crawlen". ai.txt sagt „Falls Sie doch crawlen, wofür Sie es verwenden dürfen".
- Für stark von Kreativen geprägte Seiten ist sie wichtiger. Bildhoster, Kunstportfolios, Musikseiten und Stock-Plattformen nutzen ai.txt am ehesten, weil die Lizenzfrage für sie akuter ist.
Wenn Ihnen wichtig ist, sagen zu können „Wir haben unsere Nicht-Einwilligung zum Training ausgedrückt", lohnt sich das Hinzufügen von ai.txt. Es ist eine Änderung von fünf Minuten. Wenn es Ihnen nur um Zugriffskontrolle geht, leistet robots.txt mehr.
llms.txt: Die Discovery-Datei für Entwickler
Nun zur Datei mit dem größten Hype und den meisten Missverständnissen.
llms.txt wurde im September 2024 von Jeremy Howard vorgeschlagen, und die Spezifikation liegt unter llmstxt.org. Ihr Zweck ist eng und konkret. Es ist eine Markdown-Datei im Root einer Domain, die KI-Coding-Agenten (Cursor, Claude Code, Devin und ähnliche) eine kuratierte Karte Ihrer Dokumentation bereitstellt. Das Format sieht so aus:
# My Project
> A short description of the project so an LLM has context.
## Docs
- [Getting Started](https://example.com/docs/getting-started.md): Quick setup
- [API Reference](https://example.com/docs/api.md): Full API surface
- [Configuration](https://example.com/docs/config.md): Config options
## Optional
- [Changelog](https://example.com/changelog.md): Release notes
Das Format ist bewusst einfach: H1 (Projektname), Blockquote (Beschreibung), dann Abschnitte mit Links. Jeder Link verweist auf eine Markdown-Version der Seite. Ein Agent, der llms.txt liest, kann schnell verstehen, was Ihr Projekt tut und wo die kanonischen Dokumente liegen, ohne Ihr vollständiges HTML, die Sidebar und die Navigation parsen zu müssen.
Mintlify und Anthropic haben dies um llms-full.txt erweitert, eine Variante, in der alles inline enthalten ist. Statt auf separate Dateien zu verlinken, enthält llms-full.txt das vollständige Markdown Ihrer gesamten Dokumentation in einem Dokument. Mintlifys Erklärung der Datei beschreibt den Anwendungsfall: Wenn ein Coding-Agent über Ihre Bibliothek nachdenkt, kann er eine einzige Datei ziehen und Ihre gesamte Dokumentation in seinem Kontextfenster haben. Keine Folgeabrufe nötig.
Nun der Teil, der in SEO-Inhalten regelmäßig falsch dargestellt wird:
- llms.txt ist kein Zitiersignal. Sie veranlasst ChatGPT, Claude oder Perplexity nicht, Sie häufiger zu zitieren.
- llms.txt ist keine Crawl-Direktive. Sie blockiert keinen Crawler und lädt auch keinen ein.
- llms.txt wird von Google nicht verwendet. Gary Illyes von Google erklärte öffentlich, dass Google nicht plant, sie zu nutzen.
- llms.txt verbessert Ihre Platzierung in der KI-Suche nicht. Es gibt keinen messbaren Effekt auf die Sichtbarkeit in ChatGPT, Perplexity oder Claude Web, weil keines dieser Produkte sie als Ranking-Input liest.
Was sie aber gut tut: Wenn Ihre Zielgruppe Coding-Agenten nutzt, um Ihre Dokumentation zu konsumieren, macht llms.txt diese Erfahrung sauberer. Die Anthropic-Doku-Site, die Dokumentation von Cloudflare, Mintlify-gehostete Projekte und viele Open-Source-SDKs veröffentlichen llms.txt, weil ihre Dokumentation routinemäßig von Entwicklern, die Integrationen bauen, in Cursor oder Claude Code geladen wird.
Das ist der echte Anwendungsfall. Es ist ein Feature für Entwickler-Tools, kein Marketing-Feature.
Was jede Datei steuert, im direkten Vergleich
| Eigenschaft | robots.txt | ai.txt | llms.txt |
|---|---|---|---|
| Hauptzweck | Zugriffssteuerung beim Crawling | Training-/Lizenzpräferenz | Kuratierter Doku-Index für KI-Agenten |
| Wer liest sie | Alle Such- und KI-Crawler | Datensatz-Kuratoren, Tools von Spawning AI | KI-Coding-Agenten (Cursor, Claude Code etc.) |
| Wer hat sie vorgeschlagen | Martijn Koster, 1994 (RFC 9309 im Jahr 2022) | Spawning AI | Jeremy Howard, Sept. 2024 |
| Durchsetzung | Von allen großen Betreibern respektiert | Freiwillig, extern auditiert | Freiwillig, Entscheidung auf Agent-Seite |
| Aktuelle Verbreitung | Nahezu universell | Einstellige Prozentwerte | ~10 % der gecrawlten Domains (SE Ranking) |
| Effekt auf KI-Suchsichtbarkeit | Direkt (erlaubt/blockiert Indexierungs-Bots) | Keiner | Keiner |
| Effekt auf Aufnahme ins Training | Direkt (blockiert Trainings-Bots) | Nur Signal | Keiner |
| Zeit bis zur Wirkung | Stunden bis Tage | Monate (abhängig vom Datensatz-Rhythmus) | Sofort für unterstützende Agenten |
| Wartungsaufwand | Niedrig | Sehr niedrig | Mittel (muss mit Doku synchron bleiben) |
Die wichtigste Zeile in dieser Tabelle ist „Effekt auf KI-Suchsichtbarkeit". Nur eine dieser Dateien bewegt dort tatsächlich etwas, und das ist die, die es seit 30 Jahren gibt.
Die Cloudflare-Wasserscheide: Juli 2025
Eine kurze Geschichtsstunde, weil sie für das Kommende relevant ist.
Im Juli 2024 startete Cloudflare einen Ein-Klick-Schalter, um KI-Bots, Scraper und Crawler zu blockieren, und das für jede Site in ihrem Netzwerk. Es wurde als „Declaring Your AIndependence" inszeniert. Es war ein Opt-in. Viele Seiten, vor allem Publisher, übernahmen es schnell.
Ein Jahr später, am 1. Juli 2025, drehte Cloudflare die Standardeinstellung um. Neu zu Cloudflare hinzugefügte Domains blockieren KI-Crawler nun standardmäßig. Bestandskunden bekamen ein Ein-Klick-Upgrade. Cloudflare nannte es ein „berechtigungsbasiertes" Modell: KI-Betreiber müssen Zugriff verhandeln, statt standardmäßig zu scrapen.
Cloudflare sitzt vor rund 20 % des öffentlichen Webs. Mit diesem Schritt wurde ein beträchtlicher Teil des Internets faktisch von „standardmäßig offen" auf „standardmäßig geschlossen" für KI-Training umgestellt.
Einige Zahlen aus Cloudflares eigenen Daten für das 2. Halbjahr 2025:
- 416 Milliarden KI-Bot-Anfragen im gesamten Netzwerk protokolliert.
- GPTBot-Traffic um 147 % im Jahresvergleich gestiegen, was darauf hindeutet, dass OpenAI aggressiver crawlt, obwohl mehr Seiten blockieren.
- Meta-ExternalAgent-Traffic um 843 % im Jahresvergleich gestiegen, das stärkste Wachstum aller KI-Crawler im Datensatz.
- 2,5 Millionen Sites haben sich für Cloudflares verwaltete robots.txt für KI entschieden, bei der Cloudflare die Bot-Liste für Sie pflegt.
Das Detail „verwaltete robots.txt" deutet darauf hin, wohin sich das Ökosystem entwickelt: Bot-Listen ändern sich zu schnell, als dass einzelne Seiten sie pflegen könnten. Jeden Monat startet ein neues KI-Start-up, jedes mit eigenem User-Agent. Immer mehr Sites delegieren das an eine Infrastrukturebene, die die Liste zentral pflegt.
Wenn Sie Cloudflare nutzen und Ihre Bot-Management-Einstellungen seit 2024 nicht überprüft haben, prüfen Sie sie. Die Standardeinstellung hat sich unter Ihnen geändert.
Der Realitätscheck zur Verbreitung
Wenn man SEO-Twitter liest, könnte man meinen, llms.txt sei überall. Ist sie nicht.
SE Ranking analysierte Anfang 2026 über 300.000 Domains und fand heraus, dass die llms.txt-Verbreitung bei etwa 10 % liegt (und stark zu technischen und entwicklerorientierten Seiten tendiert). Der State-of-llms.txt-2026-Report von Presenc.ai kam zu ähnlichen Zahlen, wobei sich die Verbreitung auf SaaS-Dokumentationen, KI-Tooling-Unternehmen und Open-Source-Projekte konzentriert.
Ein paar Muster aus den Daten:
- Dokumentationsstarke SaaS-Anbieter führen die Adoption an. Anthropic, Cursor, Mintlify, Vercel, Cloudflare und Supabase veröffentlichen fast alle llms.txt und llms-full.txt.
- Marketing- und Content-Seiten hinken hinterher. Nachrichtenportale, Blogs und B2B-Marketing-Seiten haben meist keine llms.txt. Der Anwendungsfall ist dort schwächer, weil die Zielgruppe keine Coding-Agenten sind.
- Die Verbreitung wächst, aber langsam. Etwa eine Verdoppelung von Jahr zu Jahr, aber von einer kleinen Basis aus.
- Die Unterstützung in Agenten ist nur teilweise gegeben. Cursor und Claude Code unterstützen das Lesen von llms.txt, wenn ein Nutzer eine Domain referenziert. Die meisten anderen Agenten lesen sie entweder nicht oder verwenden sie nur als Fallback.
Die ehrliche Einschätzung: llms.txt ist eine echte Spezifikation mit einem echten, schmalen Anwendungsfall. Sie ist kein verborgener Ranking-Faktor. Sie ersetzt keine gute Dokumentation. Sie ist eine Komfort-Datei für eine sehr bestimmte Zielgruppe. Für ai.txt gilt dasselbe, sogar etwas deutlicher. Außerhalb von kreativenlastigen Vertikalen ist die Verbreitung gering. robots.txt bleibt die einzige Datei in dieser Gruppe, die in nennenswertem Umfang etwas tatsächlich steuert.
Was wirklich zu tun ist: Ein pragmatisches Setup
Ein Framework, das für die meisten Betreiber passt:
Schritt 1: Klären Sie Ihre Haltung zum KI-Training. Content-first (Publisher, Blog, Nachrichten, Bildung)? Dann wollen Sie Trainings-Bots vermutlich blockieren und Such-Bots zulassen. SaaS oder Product-led? Dann wollen Sie wahrscheinlich in den Trainingsdaten landen, weil es die Markensichtbarkeit in Modellausgaben fördert.
Schritt 2: Schreiben Sie eine bewusste robots.txt. Kopieren Sie nicht einfach von zufälligen Gists. Wählen Sie aus der oben stehenden User-Agent-Tabelle und formulieren Sie die Direktiven explizit. Testen Sie mit curl -A "GPTBot", ob die richtigen Seiten blockiert sind.
Schritt 3: Ergänzen Sie ai.txt, falls Lizenzierung wichtig ist. Fünf Minuten, keine Kosten. Wenn Sie je belegen müssen, dass Sie nicht in Training eingewilligt haben, ist eine vorhandene ai.txt nützlich. Wenn Ihnen das egal ist, lassen Sie es weg.
Schritt 4: Fügen Sie llms.txt nur hinzu, wenn Sie Dokumentation und eine Agenten-Zielgruppe haben. Open-Source-Bibliothek, Developer-Platform-SaaS oder ein Produkt, das über KI-Assistenten in den Code anderer integriert wird? Veröffentlichen Sie llms.txt und idealerweise llms-full.txt. Marketing-Seite, Content-Blog, nicht-technische SaaS? Die Datei bringt Ihnen nichts.
Schritt 5: Wenn Sie Cloudflare nutzen, konfigurieren Sie einmalig am Edge. Deren Bot-Management bietet Ihnen eine zentral gepflegte Block-Liste. Für die meisten Betreiber ist das besser, als robots.txt von Hand zu pflegen.
Schritt 6: Beobachten Sie Ihre Logs. KI-Crawler respektieren robots.txt überwiegend, aber nicht perfekt. Werten Sie regelmäßig Ihre Access-Logs nach den oben genannten User-Agents aus und prüfen Sie, ob sich das Verhalten mit Ihrer Konfiguration deckt. Falls ein blockierter Bot Sie weiterhin trifft, reichen Sie eine Beschwerde beim Betreiber ein.
Was Sie nicht tun müssen: sich für SEO über llms.txt den Kopf zerbrechen. Sie wird Ihre KI-Suchsichtbarkeit nicht beeinflussen. Sie wird ChatGPT nicht dazu bringen, Sie zu zitieren.
Sonderfälle: Cloudflare AI Audit, Pay-Per-Crawl, Verified Bots
Ein paar Features sind erwähnenswert, vor allem weil sie andeuten, wohin sich das Ökosystem entwickelt.
Cloudflare AI Audit. Eine Dashboard-Ansicht darüber, welche KI-Bots Ihre Seite besuchen, wie oft und wohin sie gehen. Für Cloudflare-Kunden kostenlos. Nützlich, um einen bisher unbekannten Bot zu erkennen und um zu prüfen, ob blockierte Bots tatsächlich draußen bleiben.
Cloudflare Pay-Per-Crawl. Mitte 2025 angekündigt, ermöglicht es Site-Betreibern, KI-Crawler pro Anfrage zu berechnen, statt sie pauschal zu blockieren. Das Modell ist früh dran und die Verbreitung begrenzt, aber es weist auf eine Zukunft hin, in der die Zugriffsverhandlung automatisiert statt binär (blockieren/erlauben) abläuft.
Verified-Bot-Programm. Sowohl Cloudflare als auch Google führen Register, die bestätigen, dass ein User-Agent-String tatsächlich zum behaupteten Betreiber gehört. Das ist wichtig, weil Spoofing verbreitet ist: Ein Scraper kann User-Agent: GPTBot setzen und vorgeben, OpenAI zu sein. Verified-Bot-Programme prüfen Quell-IPs gegen die veröffentlichten Bereiche des Betreibers. Wenn Sie GPTBot-Traffic von Nicht-OpenAI-IPs sehen, ist es ein Spoofer, und die richtige Antwort ist Blockieren per IP.
Die Frage des „agentischen Browsings". Wenn ChatGPT oder Claude im Auftrag eines Nutzers eine Seite abruft, verwendet dieser Abruf einen anderen User-Agent (ChatGPT-User, Claude-User). Diese zu blockieren bedeutet, dass das Modell Seiten, die Nutzer ihm einfügen, nicht lesen kann, und das wollen Publisher meistens nicht. Lassen Sie agentische Browse-Bots zugelassen, sofern Sie keinen konkreten Grund haben, sie zu blockieren.
Wohin sich das alles entwickelt
Ein paar ehrliche Prognosen für die nächsten 18 Monate:
Ein Standard formiert sich, und es ist nicht llms.txt. Die IETF AI Preferences Working Group (AIPREF) arbeitet an einem umfassenderen Standard für KI-Trainings- und Nutzungspräferenzen. Wahrscheinlich wird er das ai.txt-Modell des „Drücke deine Präferenzen aus" mit sauberer maschinenlesbarer Semantik formalisieren. Sobald er als RFC erscheint, dürfte er die Anwendungsfälle absorbieren, die ai.txt heute füllt.
Pay-Per-Crawl verbreitet sich. Cloudflare wird nicht die einzige Plattform sein, die das anbietet. Erwarten Sie ähnliche Mechanismen von Akamai, Fastly und den Cloud-CDNs. Eine Welt, in der jeder KI-Crawler eine abrechenbare Beziehung zu jeder Site hat, ist bis 2027 plausibel.
Bot-Listen werden zentralisiert. Eine eigene Liste von KI-User-Agents zu pflegen, war 2023 mit vielleicht einem Dutzend Namen vertretbar. Heute liegt sie näher bei 40 und wächst weiter. Die meisten Betreiber werden am Ende einer Infrastrukturebene vertrauen, die die Liste aktuell hält.
llms.txt bleibt in ihrer Nische. Sie wird nicht verschwinden. Sie wird auch kein Ranking-Faktor werden. Sie bedient weiterhin die Zielgruppe agentischer Tools und wird sich vermutlich zu einer stärker standardisierten Spezifikation formalisieren, sobald genügend Agenten sie unterstützen.
Das Meta-Muster: Das standardmäßig offene Web wird für KI-Traffic langsam durch ein berechtigungsbasiertes Web ersetzt, vermittelt durch Infrastrukturplattformen statt durch Konfigurationen pro Site. robots.txt ist die Alt-Schnittstelle zu dieser Welt. ai.txt und llms.txt sind frühe Versuche reichhaltigerer Signalisierung. Die IETF und die CDN-Branche arbeiten im Hintergrund an der Version, die tatsächlich skalieren wird.
Häufig gestellte Fragen
Liest Google meine llms.txt-Datei?
Nein. Gary Illyes von Google erklärte 2025 öffentlich, dass Google nicht plant, llms.txt als Input für irgendein Produkt zu nutzen. Eine llms.txt hinzuzufügen wirkt sich nicht auf die Google-Suche, Gemini oder AI Overviews aus. Wenn Sie die KI-Produkte von Google beeinflussen wollen, ist das relevante Signal der User-Agent Google-Extended in der robots.txt und der reguläre Suchindex, nicht llms.txt.
Soll ich alle KI-Crawler per robots.txt blockieren?
Das hängt davon ab, welche Art von Site Sie betreiben. Publisher und Content-first-Sites blockieren häufig Trainings-Bots (GPTBot, ClaudeBot, Google-Extended, CCBot, Meta-ExternalAgent, Bytespider), erlauben aber Such- und User-Fetch-Bots (OAI-SearchBot, PerplexityBot, ChatGPT-User). SaaS- und Produktseiten lassen meist alles offen, weil die Aufnahme in Trainingsdaten der Markensichtbarkeit hilft. Ein pauschales Blockieren aller KI-Bots ist für Nicht-Publisher selten die richtige Wahl, weil es Sie KI-getriebene Discovery kostet.
Wird ai.txt überhaupt von jemandem unterstützt?
Spawning AI hält sich daran, ebenso eine Handvoll Datensatz-Kuratoren und Projekte für ethische KI. Die großen Modelltrainer (OpenAI, Anthropic, Google, Meta) respektieren in erster Linie robots.txt, nicht ai.txt. ai.txt ist daher eine nützliche Signalisierungsebene für die Haltung „Wir haben unsere Nicht-Einwilligung ausgedrückt", sollte aber nicht als Zugriffskontrolle eingesetzt werden. Kombinieren Sie sie mit robots.txt für die tatsächliche Blockade.
Was ist der Unterschied zwischen llms.txt und llms-full.txt?
llms.txt ist eine Indexdatei: eine kurze Liste von Links zu Markdown-Versionen Ihrer Dokumentation. llms-full.txt ist die inline-Variante: Ihre gesamte Dokumentation in eine große Markdown-Datei zusammengefasst. Der Trade-off ist Bandbreite versus Komfort. llms.txt ist leicht abzurufen, erfordert vom Agenten aber, Links zu folgen. llms-full.txt ist umfangreich, erlaubt es einem Agenten aber, Ihre komplette Dokumentation mit einer einzigen Anfrage in den Kontext zu laden. Die meisten Projekte, die eine veröffentlichen, veröffentlichen beide.
Wenn ich GPTBot in der robots.txt blockiere, blockiert das auch das ChatGPT-Browsing?
Nein. GPTBot ist der Trainings-Crawler von OpenAI. ChatGPT-User ist der User-Agent, den ChatGPT verwendet, wenn ein Nutzer es explizit bittet, eine Webseite zu lesen. Sie sind in der robots.txt separate User-Agents. GPTBot zu blockieren steigt Sie aus dem Training aus. ChatGPT-User bleibt zugelassen, sofern Sie ihn nicht separat blockieren. Die meisten Publisher wollen genau diese Aufteilung: Training blockieren, nutzerinitiierte Abrufe erlauben.
Hilft mir llms.txt, in ChatGPT oder Perplexity zu ranken?
Nein, nicht als Zitier- oder Ranking-Signal. ChatGPT und Perplexity zeigen Inhalte anhand dessen an, was sie über ihre Such-Crawler (OAI-SearchBot, PerplexityBot) indexiert haben, sowie anhand der Trainingsdaten. llms.txt wird von Coding-Agenten wie Cursor und Claude Code gelesen, nicht von den Chat-Produkten. Wenn Sie in ChatGPT zitiert werden möchten, sind die Prioritäten: (1) OAI-SearchBot in der robots.txt nicht blockieren, (2) Inhalte veröffentlichen, die konkrete Fragen klar beantworten, und (3) Zitate aus Quellen verdienen, denen diese Modelle vertrauen. llms.txt steht nicht auf dieser Liste.
Schlussgedanken
Was mich am aktuellen Diskurs zur Steuerung von KI-Crawlern frustriert, ist, wie selbstsicher schlecht die Ratschläge sind. „Fügt llms.txt hinzu und ihr werdet in ChatGPT ranken." „Blockiert alles per ai.txt." „robots.txt ist tot, llms.txt ist die Zukunft." Jeder dieser Sätze ist auf andere Weise falsch.
Die Wahrheit ist langweiliger und nützlicher: robots.txt leistet weiterhin die eigentliche Arbeit. ai.txt drückt eine Präferenz aus, die manche Betreiber respektieren. llms.txt ist ein Komfortfeature für Entwickler-Tools mit einer bestimmten Zielgruppe. Keine davon ist ein magischer Ranking-Hebel, und sie so zu behandeln, vergeudet Zeit, die Sie für Dinge nutzen könnten, die wirklich zählen.
Wenn Sie sich nur eines merken: die drei Aufgaben. robots.txt ist das Zugangstor. ai.txt ist das Lizenzsignal. llms.txt ist der Entwickler-Index. Konfigurieren Sie jede für das, was sie tatsächlich tut, ignorieren Sie den Rest des Lärms, und Sie sind den meisten Betreibern voraus, die derzeit Trends hinterherjagen, ohne sie zu verstehen.
Und behalten Sie AIPREF im Blick. Die kommenden ein bis zwei Jahre der KI-Crawler-Steuerung werden weniger von diesen drei Dateien geprägt sein und mehr davon, was die IETF und die CDN-Branche als Nächstes standardisieren. Der aktuelle Stand ist eine Übergangslösung.