Anleitung — robots.txt × KI
Von Sascha Deforth 6 min Lesezeit Anleitung · robots.txt

Blockiert deine robots.txt ChatGPT? Der 5-Minuten-Check

Eine einzige Zeile in deiner robots.txt entscheidet, ob ein KI-System deine Seite betreten darf. Der teure Fehler ist nicht, KI-Bots zu blockieren — es ist, die falschen zu blockieren. Dieser Check dauert fünf Minuten.

34 %
sperren GPTBot aus
28 %
blockieren Google-Extended
450+
geprüfte Seiten

Die Frage, die fast niemand sicher beantworten kann: gewollt oder versehentlich? Meistens ist es versehentlich — eine robots.txt aus 2022, die die neuen KI-Bots gar nicht kennt, oder eine pauschale Bot-Sperre, die ein Theme oder ein CDN mitgebracht hat.

Der entscheidende Unterschied: drei Sorten Bots

Bevor du irgendetwas blockierst, musst du wissen, dass jeder große Anbieter eine kleine Flotte betreibt — und die drei Sorten haben völlig verschiedene Konsequenzen.

Blockieren = legitime Entscheidung

Training-Crawler

GPTBot · ClaudeBot · Google-Extended · CCBot

Sammeln Inhalte für künftige Modellversionen. Diese zu blockieren hält dich aus dem Trainingskorpus heraus, kostet dich aber keine aktuelle Sichtbarkeit.

Blockieren = teurer Fehler

Retrieval- und Such-Crawler

OAI-SearchBot · Claude-SearchBot · PerplexityBot

Speisen die Live-Antworten. Diese zu blockieren bedeutet: Du verschwindest aus den KI-Antworten — sofort, und schwer rückgängig zu machen, weil Modelle cachen.

Blockieren = fast nie richtig

User-Fetcher

ChatGPT-User · Claude-User · Perplexity-User

Holen eine einzelne Seite, wenn ein Mensch sie anfragt. Diese zu blockieren bricht etwas, das ein Nutzer ausdrücklich wollte.

Dazu kommen weitere: Applebot-Extended (Apple), Amazonbot, Meta-ExternalAgent. Und Bytespider (ByteDance), der dafür bekannt ist, robots.txt schlicht zu ignorieren.

Warum pauschales Blockieren nach hinten losgeht

Eine Rutgers/Wharton-Untersuchung von Dezember 2025 fand, dass Publisher, die KI-Crawler blockierten, im Schnitt rund 23 % ihres Gesamt-Traffics verloren — ohne dass sich die Zitierraten dadurch verlässlich verringert hätten. Übersetzt: Das Blockieren kostete Sichtbarkeit, brachte aber nicht den erhofften Schutz. Wer die Retrieval-Bots aussperrt, zahlt doppelt.

Der 5-Minuten-Check

Schritt 1 — robots.txt öffnen

Ruf deinedomain.de/robots.txt auf. Sie muss mit Status 200 erreichbar sein. Keine Datei zu haben ist besser als eine kaputte.

Schritt 2 — Nach Disallow suchen

Prüf, ob unter einem dieser User-Agents ein Disallow: / steht: GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, Claude-User, PerplexityBot, Perplexity-User, Google-Extended.

Schritt 3 — Besonders die Retrieval-Bots prüfen

OAI-SearchBot, Claude-SearchBot, PerplexityBot dürfen nicht versehentlich blockiert sein — sie sind deine Eintrittskarte in die KI-Antwort.

Schritt 4 — Die WAF-Ebene checken

Das ist der Punkt, den fast alle übersehen: Selbst eine korrekte robots.txt wird überschrieben, wenn dein CDN auf Edge-Ebene blockt. Cloudflare hat eine Ein-Klick-Option „Block AI Bots", die sich leicht versehentlich aktivieren lässt und alles andere aushebelt. Wenn deine robots.txt sauber aussieht, die Bots aber trotzdem nicht durchkommen, liegt es fast immer hier.

Schritt 5 — Keinen Kollateralschaden anrichten

Ein Disallow: / unter User-agent: * oder ein simpler Tippfehler kann auch Googlebot aussperren und dich über Nacht aus der klassischen Suche werfen. User-Agent-Namen exakt schreiben, Änderungen vorher auf einer Staging-Domain testen.

Eine Referenz-robots.txt

Das ist ein sauberer Ausgangspunkt — Retrieval erlauben, beim Training bewusst entscheiden:

# KI-Such-/Retrieval-Bots erlauben — treiben Zitate, nicht blockieren
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /

# Training-Crawler — bewusste Entscheidung.
# Allow = Aufnahme in künftige Modelle (hilft meist der Zitierbarkeit).
# Auf Disallow umstellen, wenn du Training-Opt-out willst:
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /

# Klassische Suche niemals versehentlich blockieren
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /

User-agent: *
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml

Die Retrieval-Bots oben sind für KI-Sichtbarkeit nicht verhandelbar. Bei den Training-Crawlern ist es eine echte Entscheidung: Erlauben bringt dich tendenziell in das Basiswissen künftiger Modelle, Blockieren hält deine Inhalte aus dem Training — beides legitim, je nach Haltung zu deinem geistigen Eigentum. CCBot kannst du optional sperren.

Die ehrliche Grenze

robots.txt ist eine Bitte, keine Mauer. Bytespider und Perplexitys nicht deklarierte Crawler wurden dabei beobachtet, die Datei zu ignorieren — gegen einen Bot, der sich nicht daran hält, hilft nur eine Sperre auf Server- oder WAF-Ebene. Für die seriösen Anbieter, die robots.txt respektieren, ist die Datei aber genau der richtige Hebel.

Und sie ist der Schritt vor allem anderen: Bevor du an llms.txt, Schema oder Inhalten arbeitest, muss die KI überhaupt durch die Tür kommen. Ein offener, bewusst gesetzter Zugang ist die Voraussetzung, auf der jede weitere GEO-Maßnahme aufbaut.

Willst du wissen, ob deine Website KI-sichtbar ist?

Kostenloser Scan in 60 Sekunden.
Ohne Registrierung. Sofort-Ergebnis.

Jetzt Sichtbarkeit prüfen →

Häufige Fragen

Wie prüfe ich, ob meine robots.txt KI-Bots blockiert?
deinedomain.de/robots.txt aufrufen (muss Status 200 liefern) und prüfen, ob unter den KI-User-Agents — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot, Google-Extended — ein Disallow steht. Zusätzlich die CDN-/WAF-Ebene checken, da diese die robots.txt überschreiben kann.
Welche KI-Bots sollte ich nicht blockieren?
Die Retrieval- und Such-Crawler: OAI-SearchBot (ChatGPT Search), Claude-SearchBot und PerplexityBot. Sie speisen die Live-Antworten der KI-Systeme; wer sie blockiert, verschwindet aus den KI-generierten Antworten — anders als beim Blockieren reiner Training-Crawler.
Was ist der Unterschied zwischen GPTBot und OAI-SearchBot?
GPTBot sammelt Inhalte für das Training künftiger OpenAI-Modelle. OAI-SearchBot indexiert Inhalte für ChatGPT Search. Beide brauchen getrennte Regeln: GPTBot zu blockieren stoppt die Trainings-Datensammlung, OAI-SearchBot zu blockieren entfernt dich aus den ChatGPT-Such-Antworten.
Meine robots.txt sieht korrekt aus, aber KI-Crawler kommen nicht durch — warum?
Sehr wahrscheinlich blockiert eine WAF oder ein CDN auf Edge-Ebene. Cloudflare etwa hat eine Ein-Klick-Option „Block AI Bots", die jede robots.txt-Regel aushebelt. Diese Einstellung prüfen, bevor man weiter an der robots.txt sucht.

Sascha Deforth ist Gründer von TrueSource AI und GEO Practitioner. Er hat VibeTags™, das Agentic Reasoning Protocol (ARP) und den AI Visibility Index entwickelt. Mit 450 durchgeführten AI-Sichtbarkeits-Audits baut er die Methodik, nach der Unternehmen ihre KI-Sichtbarkeit systematisch aufbauen können. LinkedIn →