Comprobador de robots.txt

Valida clusters hreflang en tu navegador. Detecta etiquetas de retorno faltantes, códigos ISO inválidos, x-default ausente y locales duplicados. Sin subida.

Cómo usar

Pega el contenido de tu robots.txt en el panel izquierdo

o suelta un archivo robots.txt sobre la zona de carga. El parser maneja comentarios

líneas en blanco

grupos multi-agente y las directivas estándar (User-agent

Allow

Disallow

Sitemap

Crawl-delay).

Pega las URLs que quieras probar en el panel derecho

una por línea. Pueden ser URLs completas (https://ejemplo.com/admin/) o solo rutas (/admin/). La herramienta extrae la porción ruta-y-query para la coincidencia.

Elige un user-agent en el desplegable. Por defecto Googlebot

pero puedes probar Bingbot

GPTBot

ClaudeBot

PerplexityBot y otros crawlers principales — la selección de grupo sigue la coincidencia más específica según RFC 9309

con fallback al comodín User-agent: *.

Pulsa Probar URLs. Cada URL recibe un veredicto Permitida o Bloqueada

la regla coincidente con su número de línea y el motivo (coincidencia más larga

sin regla o sin grupo aplicable). El linter de sintaxis surge los problemas de parseo por separado en la pestaña Hallazgos.

Revisa las pestañas: Veredictos para resultados por URL

Hallazgos para problemas de sintaxis

Sitemaps para las URLs de sitemap declaradas

Grupos para los grupos de user-agent parseados y sus reglas. Exporta veredictos a CSV para auditoría o para compartir con el equipo.

Características

Semántica RFC 9309 Longest-Match-Wins

Coincide exactamente con la implementación de Google: cuando varias reglas coinciden con una URL, gana la de la ruta literal más larga, y Allow gana a Disallow en empates. Se respetan comodines (*) y anclas de fin de URL ($).

Selección de Grupo Por User-agent

Selecciona el grupo de User-agent más específico para el agente elegido, con fallback a User-agent: * si no hay coincidencia específica. Te permite ver cómo Googlebot, Bingbot, GPTBot y otros crawlers experimentan el mismo robots.txt de forma distinta.

Linter de Sintaxis Incorporado

Reporta directivas desconocidas, dos puntos faltantes, reglas antes de cualquier User-agent, uso obsoleto de Noindex, URLs Sitemap relativas, rutas sin barra inicial y otros errores de autoría — cada uno con la línea exacta.

Cross-Reference de Sitemaps

Todas las directivas Sitemap se extraen a su propia pestaña, se validan como URLs absolutas y se renderizan como enlaces clicables para detectar referencias obsoletas o inaccesibles de un vistazo.

Exportación CSV Por Ejecución

Vuelca la tabla de veredictos a una hoja de cálculo, un gestor de incidencias o un artefacto de CI. Columnas: URL, user-agent, veredicto, tipo y ruta de regla coincidente y línea donde vive la regla en tu robots.txt.

¿Por qué elegir esta herramienta?

Tu robots.txt Nunca Sale del Navegador

Los archivos robots.txt referencian habitualmente URLs de staging, rutas internas de admin, contenido restringido y listas de competidores que no quieres en los logs de un servicio SaaS externo. Cada byte de entrada se queda en la memoria del navegador — sin subida, sin llamada API, sin logs.

Google Retiró Su Propio Tester — Esta Herramienta Cubre el Hueco

El Probador de robots.txt de Search Console se eliminó en 2024 sin reemplazo. Esta herramienta implementa las mismas reglas RFC 9309 que sigue Googlebot, para que puedas verificar el comportamiento de las reglas sin recurrir a la API de inspección de URLs del buscador.

Te Dice Qué Línea, No Solo Que Algo Va Mal

Cada veredicto reporta la regla exacta que coincidió y su número de línea. Cada hallazgo de sintaxis apunta a la línea que falla. Convierte avisos vagos de 'rastreado pero no indexado' en Search Console en correcciones precisas de una línea en CMS o plantilla.

Lógica del Parser de Código Abierto

El parser viaja en la librería open-source @anthropic-tools/tools-core usada por la API REST. Puedes auditar la implementación de longest-match, la lógica de especificidad de user-agent y el linter de sintaxis — sin puntuación opaca, sin heurísticas propietarias.

robots.txt Bien Hecho: Guía Práctica de Reglas para Crawlers

Qué Controla Realmente robots.txt

robots.txt es un archivo de texto público por host en /robots.txt que indica a los crawlers bien educados qué URLs pueden buscar y cuáles no. Es una petición, no una imposición: los crawlers maliciosos lo ignoran por completo, e incluso los educados lo tratan como una pista, no como una frontera de seguridad. El malentendido más común sobre robots.txt es que controla la indexación. No lo hace. Controla el rastreo. Una URL bloqueada por robots.txt puede seguir apareciendo en el índice de Google si Google se entera de ella por otras señales (backlinks, entradas de sitemap, enlaces internos desde páginas que sí puede rastrear). El resultado es el estado "Indexada, aunque bloqueada por robots.txt" en Search Console — una URL sin snippet, sin título y con rendimiento de búsqueda prácticamente nulo, pero indexada. Si quieres sacar una URL del índice, usa una meta etiqueta noindex o la cabecera X-Robots-Tag. Si quieres sacarla del presupuesto de rastreo, usa robots.txt. Son problemas distintos.

El Algoritmo de Coincidencia de RFC 9309

La especificación de robots.txt se formalizó como RFC 9309 en 2022, codificando el comportamiento que Google había implementado durante años. El algoritmo es más sutil de lo que la mayoría de equipos asume:

Selección de grupo. El crawler analiza cada declaración de User-agent y selecciona el grupo cuyo nombre de User-agent sea la coincidencia de subcadena más específica (sin distinguir mayúsculas) con su propio nombre. Si ningún grupo coincide, aplica el comodín User-agent: *. Si tampoco hay comodín, todas las URLs están permitidas.
Coincidencia de reglas dentro del grupo elegido. Se recogen todas las reglas Allow y Disallow cuya ruta coincida con la URL solicitada. Gana la ruta con más caracteres literales — esa es la "coincidencia más larga" del RFC 9309 §2.2.2. El comodín * coincide con cualquier secuencia (incluida la vacía); el ancla $ fija la coincidencia al final de la URL.
Desempate. Cuando una regla Allow y una Disallow coinciden con la misma longitud literal, gana Allow. Eso es lo que hace que "Disallow: / + Allow: /public/" produzca el resultado intuitivo de que /public/anything se pueda rastrear.

El tester implementa este algoritmo exactamente. La pestaña Veredictos muestra el número de línea de la regla coincidente para que puedas verificar el comportamiento contra tu archivo autorizado en lugar de contra una salida opaca de "permitido/bloqueado".

Las Cinco Reglas Que Todo Autor de robots.txt Debería Interiorizar

Disallow vacío significa permitir todo. Disallow: sin valor es la forma canónica de decir "sin restricciones para este grupo". No es un error.
Las rutas deben empezar por /. Una regla como Disallow: admin/ es ignorada silenciosamente por Google. El tester lo marca como PATH_MISSING_LEADING_SLASH.
El $ final ancla al fin de URL. Disallow: /*.pdf$ bloquea /report.pdf pero no /report.pdf?download=1. El ejemplo de comodines del tester muestra exactamente esto.
El orden no importa dentro de un grupo. Las reglas no se evalúan de arriba a abajo. Se evalúan todas y gana la coincidencia más larga. Reordenar reglas para "arreglar" un resultado inesperado suele enmascarar un malentendido más profundo del algoritmo de coincidencia más larga.
Las declaraciones de User-agent adyacentes se fusionan. User-agent: Googlebot\nUser-agent: Bingbot\nDisallow: /no-bots/ crea un único grupo con dos agentes declarados. Una línea en blanco o cualquier directiva que no sea User-agent entre ellas crea dos grupos separados.

Directivas Que No Son Realmente Estándar

Varias directivas de robots.txt se usan ampliamente pero no forman parte de RFC 9309, y el soporte varía por crawler:

Crawl-delay: Bingbot y Yandex la respetan. Googlebot la ignora por completo. Usa el ajuste de tasa de rastreo de Search Console o Bing Webmaster Tools en su lugar.
Host: Específica de Yandex. Le dice a Yandex qué espejo es canónico. Google la ignora.
Noindex: Soportada experimentalmente por Google brevemente alrededor de 2019; oficialmente sin soporte desde entonces. El tester lo marca como NOINDEX_IN_ROBOTS con la recomendación de usar <meta robots> o la cabecera X-Robots-Tag en su lugar. Incluso si un crawler llegara a respetarla una vez, depender de esto es una regresión esperando a ocurrir.
Clean-param: Específica de Yandex. Le dice a Yandex qué parámetros de URL ignorar para canonicalización.
Request-rate y Visit-time: reliquias históricas que casi ningún crawler moderno implementa.

El tester reconoce todas estas sin generar ruido en el linter (para que el parseo no contamine la pestaña Hallazgos con falsos negativos), pero la obsoleta Noindex sí se marca explícitamente porque usarla es activamente peligroso — da a los autores una falsa sensación de que una URL está excluida del índice cuando en realidad sigue siendo indexable.

Crawlers de IA: La Nueva Frontera de Auditoría

El selector de user-agent incluye GPTBot, ChatGPT-User, ClaudeBot y PerplexityBot precisamente porque controlar las descargas de entrenamiento e inferencia de IA forma ya parte de cada revisión de robots.txt en equipos de SEO y contenido. La mecánica es idéntica a la de los crawlers tradicionales — robots.txt es un archivo público, la spec es la misma, la coincidencia de user-agent sigue las mismas reglas — pero las preguntas de política son nuevas: ¿quieres que tu contenido se use como datos de entrenamiento de IA? ¿Quieres que lo citen productos de búsqueda con IA? Cada una de esas decisiones se codifica como una regla por agente en robots.txt, y el tester te permite verificar que la regla hace exactamente lo que crees antes de comprometerla."

Directivas Sitemap: El Conector Silencioso

La directiva Sitemap es la única parte de robots.txt que no trata sobre reglas de rastreo. Indica a los crawlers dónde encontrar tu(s) sitemap(s) XML — una URL relativa al host o absoluta apuntando a un sitemap o índice de sitemap. Se permiten varias líneas Sitemap y son aditivas. El tester parsea cada directiva Sitemap a su propia pestaña, valida que cada una sea una URL absoluta (la spec lo exige) y renderiza las URLs como enlaces clicables para detectar referencias obsoletas en el mismo pase de auditoría. Combinar el tester de robots.txt con el comparador de sitemaps en el mismo host es una de las verificaciones pre-despliegue más rápidas que un equipo de SEO puede ejecutar."

Lo Que Esta Herramienta No Hace (Y Por Qué Es Intencional)

El tester no rastrea tu sitio. No obtiene tu robots.txt por ti (CORS lo bloquearía y la mayoría de navegadores no exponen la respuesta de todos modos). No comprueba si las URLs que pruebas existen realmente ni si devuelven HTTP 200. Su trabajo es estrecho y bien definido: dado un texto robots.txt y una lista de strings de URL, simula el algoritmo de coincidencia que usa Googlebot y reporta el veredicto por user-agent. Si necesitas un rastreo real, usa Screaming Frog o Sitebulb. Si necesitas probar contra la producción, descárgalo tú mismo (navegador, curl o export de tu CMS) y pégalo. Esta separación mantiene la herramienta predecible, rápida y capaz de funcionar offline — que es exactamente el objetivo de ejecutarla en el navegador.

Privacidad y Procesamiento Local

Los archivos robots.txt a menudo referencian URLs que no quieres logueadas por un servicio externo: rutas de prelanzamiento, contenido restringido por región, rutas internas de admin y listas de competidores. El tester se ejecuta completamente en tu pestaña del navegador — pegar, parsear, probar, exportar, todo local. Puedes verificar en DevTools que pulsar Probar dispara cero peticiones salientes. El mismo parser está disponible como librería open-source si quieres ejecutarlo en CI, pero la herramienta web es totalmente autocontenida.

Preguntas Frecuentes

¿Se envía mi robots.txt a un servidor?

No. El parseo y la coincidencia de URLs se ejecutan completamente en tu pestaña del navegador mediante JavaScript cargado desde un sitio estático. Puedes confirmarlo en el panel de red del navegador — pulsar Probar no dispara ninguna petición saliente.

¿Sigue las mismas reglas que usa Googlebot?

Sí. El parser implementa RFC 9309: gana la coincidencia más larga, Allow gana a Disallow en empates, los comodines (*) coinciden con cualquier secuencia incluida la vacía, y $ ancla al fin de URL. La selección de grupo de user-agent sigue la regla de subcadena más específica de Google con fallback a User-agent: *.

¿Por qué se ignora mi regla Disallow?

Casi siempre porque a la ruta le falta la barra inicial. Disallow: admin/ se ignora silenciosamente; Disallow: /admin/ funciona. El tester lo marca con PATH_MISSING_LEADING_SLASH. Otras causas comunes: un error de sintaxis en algún punto del mismo grupo, la regla aparece antes de cualquier User-agent declarado, o una regla Allow más larga la gana en la misma URL.

¿Cómo funciona la coincidencia de user-agent?

La selección de grupo es una comprobación de subcadena sin distinguir mayúsculas. Si tu robots.txt declara User-agent: Googlebot-Image y pruebas como Googlebot-Image, aplica ese grupo. Si pruebas como Googlebot, el grupo Googlebot-Image no coincide — Googlebot ≠ Googlebot-Image — y aplica el comodín User-agent: *.

¿Por qué se marca Crawl-delay como ignorado?

Googlebot no respeta Crawl-delay; no lo hace desde hace años. Bingbot y Yandex sí. El tester lo reporta como hallazgo informativo para que sepas que la directiva no afectará la tasa de rastreo de Google. Para ralentizar a Googlebot, usa el ajuste de tasa de rastreo de Search Console.

¿Por qué el linter avisa sobre Noindex en robots.txt?

Noindex en robots.txt fue un experimento no documentado de Google que terminó hacia 2019. Está oficialmente sin soporte desde entonces. Otros crawlers podrían respetarla, pero depender de ello es peligroso porque el comportamiento puede cambiar sin previo aviso. Usa una etiqueta <meta name="robots" content="noindex"> o la cabecera HTTP X-Robots-Tag en su lugar.

¿Qué formato usa la exportación CSV?

Seis columnas: url, user_agent, allowed (true/false), matched_rule_type (allow/disallow/empty), matched_rule_path, matched_rule_line. Los valores con comas, comillas o saltos de línea se entrecomillan adecuadamente según RFC 4180. Úsalo como artefacto en un gestor de incidencias o como entrada para una auditoría de cumplimiento más larga.

¿Puede probar URLs que no estén en el mismo host que el robots.txt?

El matcher solo inspecciona la porción ruta-y-query de cada URL, por lo que la parte del host se ignora a efectos de coincidencia de reglas. En producción, por supuesto, robots.txt solo aplica a su propio host — pero el matcher en sí no lo impone, lo que hace que la herramienta sea útil para probar la lógica de reglas de forma aislada.

Palabras clave

¿Necesitas algo más?