Question 1

Was ist eine robots.txt Datei?

Accepted Answer

Eine robots.txt ist eine Textdatei im Stammverzeichnis einer Website (z.B. example.com/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche der Website gecrawlt und indexiert werden dürfen und welche nicht. Die Datei verwendet das Robots Exclusion Protocol mit Direktiven wie User-agent, Disallow, Allow und Sitemap.

Question 2

Wie teste ich ob meine robots.txt korrekt ist?

Accepted Answer

Mit diesem kostenlosen robots.txt Validator kannst du deine Datei in drei Wegen prüfen: URL direkt eingeben (z.B. https://example.com/robots.txt), die Datei hochladen oder den Inhalt direkt einfügen. Das Tool prüft Syntax, Direktiven, Crawler-Regeln und zeigt Fehler sowie Warnungen mit konkreten Handlungsempfehlungen.

Question 3

Was bedeutet Disallow: / in der robots.txt?

Accepted Answer

Disallow: / blockiert einen Crawler vollständig von der gesamten Website. Wenn dies für User-agent: * (alle Crawler) oder speziell für Googlebot gesetzt ist, kann Google die Website nicht crawlen und indexieren — ein kritischer SEO-Fehler der sofortige Aufmerksamkeit erfordert.

Question 4

Können AI-Bots wie ChatGPT durch robots.txt blockiert werden?

Accepted Answer

Ja. OpenAI's GPTBot, Anthropic's ClaudeBot, Perplexity's PerplexityBot und Google's Google-Extended können alle über robots.txt blockiert werden. Dazu fügt man einen eigenen User-agent Block mit Disallow: / hinzu. Wichtig: Diese Bots respektieren die robots.txt freiwillig — eine rechtliche Absicherung ersetzt sie nicht.

Question 5

Was ist der Unterschied zwischen Disallow und noindex?

Accepted Answer

Disallow in der robots.txt verhindert das Crawlen einer Seite, blockiert aber nicht zwingend die Indexierung — Google kann die URL trotzdem indexieren wenn andere Seiten darauf verlinken. Das noindex Meta-Tag muss von Google erst gelesen werden (die Seite muss gecrawlt werden). Für zuverlässige Nicht-Indexierung sollte beides kombiniert werden: Allow crawlen, aber noindex setzen.

Question 6

Muss jede Website eine robots.txt haben?

Accepted Answer

Nein, eine robots.txt ist technisch nicht verpflichtend. Ohne die Datei haben alle Crawler vollen Zugriff auf die gesamte Website. Empfehlenswert ist sie trotzdem: Sie ermöglicht die Steuerung des Crawl-Budgets, schützt interne Bereiche vor versehentlicher Indexierung und erlaubt die Deklaration der XML-Sitemap.

Question 7

Was macht der robots.txt URL-Tester?

Accepted Answer

Der URL-Tester prüft nach der Validierung ob eine bestimmte URL von einem bestimmten Crawler gecrawlt werden darf oder nicht. Einfach die URL und den User-agent (z.B. Googlebot, GPTBot) eingeben — das Tool wertet alle relevanten Disallow und Allow Regeln aus und zeigt das Ergebnis sofort an.

robots.txt Validator & Tester

Mehr als ein Syntax-Check — vollständige Regelanalyse

Was geprüft wird:

Häufige Fragen zur robots.txt

Verwandte Tools

Weiterführende Guides