¡NUEVO!

Comparador de Sitemaps

Compara dos sitemaps XML en tu navegador. Encuentra URLs solo en A, solo en B, comunes y posibles renombres por similitud. 100% local.

Opciones de comparacion

Umbral de similitud 0.85 Mayor = coincidencia mas estricta. 0.85 detecta erratas y pequenos renombres de slug. Ignorar mayusculas/minusculas Ignorar barra final Ordenar parametros de consulta Ignorar www. Ignorar http frente a https

Sitemap A (antes / origen)

Suelta un archivo sitemap.xml o haz clic para buscar

Sitemap B (despues / destino)

Suelta un archivo sitemap.xml o haz clic para buscar

Todo el procesamiento ocurre localmente en tu navegador. Las URLs del sitemap nunca salen de tu dispositivo.

Palabras clave

diff sitemapcomparar sitemapscomparador de sitemapsencontrar urls renombradassimilitud de urlsauditoria de migracion seodiff xml sitemapchecklist migracion seo

¿Necesitas algo más?

🔍

Probar Verificador de Hreflang

Valida clusters hreflang en tu navegador. Detecta etiquetas de retorno faltantes, códigos ISO inválidos, x-default ausente y locales duplicados. Sin subida.

🔍

Probar Comprobador de robots.txt

Prueba URLs contra tu robots.txt por user-agent. Detecta errores de sintaxis, directivas desconocidas y conflictos de longest-match. 100% local.

Cómo usar

Pega el primer XML de sitemap en el panel Sitemap A, o suelta un archivo sitemap.xml guardado en la zona de arrastre. Sitemap A suele ser el estado 'antes' — tu sitemap de producción actual, el origen del que migras o un snapshot de la competencia.

Pega o sube el segundo sitemap en el panel Sitemap B. Sitemap B suele ser el estado 'después' — el nuevo sitemap, la build de staging o el destino al que migras.

Abre Opciones de comparación si quieres ajustar cómo se normalizan las URLs. Los valores por defecto (ignorar mayúsculas, eliminar barra final, descartar www., ignorar http frente a https, ordenar parámetros) capturan la mayoría de diferencias cosméticas. El umbral de similitud está en 0.85: súbelo para ser más estricto, bájalo para detectar más posibles renombres.

Haz clic en Comparar sitemaps. La herramienta procesa ambas entradas XML, normaliza cada URL y las clasifica en cuatro grupos: Comunes, Solo en A, Solo en B y Similares.

Abre cada pestaña para revisar los resultados. La pestaña Similares empareja probables renombres entre los conjuntos Solo en A y Solo en B — son tus candidatos a redirección. Exporta cualquier pestaña a CSV para alimentar tu mapa de redirecciones, hoja de cálculo o herramienta de migración.

Características

Diff en Cuatro Grupos con Estadísticas en Vivo

Cada par de URLs se clasifica al instante en Comunes, Solo en A, Solo en B o Similares. Una barra de estadísticas en vivo muestra los recuentos para que dimensiones la migración de un vistazo — útil para priorizar qué grupos de redirecciones abordar primero.

Detección de Similitud para Renombres

Tras la normalización, las diferencias restantes se procesan con un matcher de similitud basado en Levenshtein. Renombres de slug (/precios-2024/ → /precios/), cambios de URLs de artículos y migraciones de rutas de CMS aparecen como sugerencias emparejadas en lugar de perderse en las columnas Solo en A / Solo en B.

Normalización de URLs Configurable

Cinco interruptores de normalización permiten ajustar la agresividad del matching: ignorar mayúsculas, eliminar barra final, descartar www., ignorar http frente a https y ordenar parámetros de consulta. Cada uno puede desactivarse cuando necesites comparar esas dimensiones específicamente.

Compatible con Índices de Sitemap

Si alguna entrada es un <sitemapindex> en vez de un <urlset>, la herramienta lo detecta y muestra un aviso claro, leyendo las entradas del índice para que sepas qué sitemaps hijos procesar a continuación.

Exportación CSV para Cada Grupo

Cada pestaña de resultados tiene un botón de exportación CSV. Lleva el archivo resultante a Sheets, Excel o cualquier constructor de mapas de redirecciones para planificar la migración sin retipear URLs.

¿Por qué elegir esta herramienta?

Tus URLs Nunca Salen del Navegador

Los archivos de sitemap que comparas suelen incluir URLs de staging, contenido pre-lanzamiento, trabajo confidencial de cliente o crawls de competencia que no quieres en los logs de un SaaS de terceros. Cada byte de XML permanece en la memoria de tu navegador — no hay paso de subida, ni llamada de red, ni persistencia en servidor.

Pensado Para Flujos Reales de Migración

La mayoría de los comparadores de sitemaps online dan una comparación plana A vs B y dejan el mapeo de redirecciones como deberes. La pestaña Similares hace esos deberes — empareja probables renombres para que la exportación sea el primer borrador de tu mapa 301 en lugar de un punto de partida.

Gestiona el Ruido Cosmético por Defecto

Barras finales, www frente a dominio raíz, http frente a https, orden de parámetros, diferencias de mayúsculas — normalmente no son diferencias reales entre sitemaps, sino inconsistencias en cómo se emiten las URLs. La normalización inteligente las trata como iguales por defecto, así el diff se centra en las URLs que cambiaron de verdad.

Lógica Transparente y de Código Abierto

La comparación se ejecuta desde la librería open-source @anthropic-tools/tools-core compartida con la API REST. Puedes auditar exactamente cómo se procesan, normalizan y emparejan las URLs — sin scoring caja-negra ni pesos ocultos.

Diff de Sitemaps para Migraciones: Guía Práctica de Supervivencia

Por qué el diff de sitemaps es clave en una migración

Las migraciones de sitio — cambio de dominio, cambio de CMS, rediseños, despliegues de idiomas, rehaceres de IA — comparten un mismo modo de fallo: URLs que existían en el sitio antiguo y no quedan redirigidas en el nuevo. Cada URL sin mapear es un 404 en el momento del despliegue, lo que significa pérdida de equity de crawl, pérdida de posiciones, pérdida de tráfico referido y, si dependes de búsqueda orgánica, pérdida de ingresos. El trabajo de la migración no consiste solo en publicar las páginas nuevas; consiste en garantizar que cada URL que importaba antes siga resolviendo a algo útil después.

El diff de sitemaps es la forma más barata y rápida de detectar la brecha. Un sitemap XML es la propia declaración del sitio sobre qué considera rastreable e indexable. Comparado a través de la frontera de la migración — sitemap antiguo vs sitemap nuevo — el diff te dice exactamente qué URLs se quedaron atrás, cuáles son nuevas y cuáles parecen renombres que necesitan 301 explícito. Herramientas de crawl como Screaming Frog o Sitebulb ofrecen señales más ricas (códigos de estado, cabeceras, conteos de enlaces internos) pero son más lentas, más caras y excesivas para un sanity check rápido el día antes del lanzamiento.

Qué te aporta la normalización de URLs

Dos sitemaps generados por sistemas distintos casi nunca coinciden en detalles cosméticos: uno emite barra final, el otro no; uno usa www., el otro no; uno ordena parámetros alfabéticamente, el otro en orden de declaración; uno escribe los hostnames en minúsculas, el otro pone el protocolo en mayúsculas. Nada de esto son diferencias reales en cómo se sirve la página — casi todos los servidores canonicalizan estos casos — pero una comparación de cadenas ingenua las trata como URLs completamente distintas.

La normalización colapsa esas variantes cosméticas en una forma canónica antes de ejecutar la comparación. Por defecto, esta herramienta pone el host en minúsculas, elimina la barra final en rutas no raíz, descarta el prefijo www., ignora http frente a https y ordena los parámetros alfabéticamente. El diff opera sobre la forma normalizada, así las URLs que solo difieren cosméticamente caen en el grupo Comunes donde deben estar. Cada normalización es un interruptor independiente: si te importa específicamente, por ejemplo, http frente a https como diferencia real, desactiva la normalización de protocolo y verás esas URLs separadas en Solo en A y Solo en B.

Detección de similitud: capturar renombres automáticamente

La parte más difícil de una auditoría de migración no son las URLs que desaparecen ni las que se añaden — son las que se renombran. Un cambio de slug de /precios-2024/ a /precios/, una reestructuración de categorías de /blog/categoria/foo/ a /articulos/foo/ o una migración de CMS que cambia /productos/widget/ por /p/widget/ parecen una URL que desaparece y otra que aparece. Sin ayuda explícita, se entierran en las columnas Solo en A y Solo en B y son fáciles de pasar por alto.

Después de calcular el diff normalizado, esta herramienta ejecuta similitud por distancia de Levenshtein sobre las URLs aún no emparejadas de ambos lados. Para cada URL no emparejada en A, busca la coincidencia más cercana en B y las empareja si la similitud supera el umbral (0.85 por defecto — es decir, las dos URLs deben coincidir aproximadamente en el 85% de los caracteres tras la normalización). El resultado es la pestaña Similares: una lista lado a lado de pares probables de renombre con el porcentaje de similitud, lista para exportar y convertir en reglas 301.

La unicidad greedy mantiene limpio el emparejamiento: una vez que una URL en B se empareja con una URL en A, se elimina del pool de candidatos. Esto significa que cada URL de A obtiene como mucho un objetivo B sugerido y viceversa — las sugerencias sirven como borrador de mapa de redirecciones en lugar de matriz ruidosa cualquiera-con-cualquiera. Sube el umbral si ves falsos positivos, bájalo si sospechas que se están perdiendo renombres reales.

Cómo leer el diff: un flujo práctico

La forma más rápida de usar la salida es un paso en cuatro etapas:

Solo en A → comprobar cobertura de redirecciones. Cada URL aquí existe en el sitemap antiguo pero no en el nuevo. Si hay una entrada correspondiente en la pestaña Similares, planifica un 301 hacia su par en B. Si no, decide: ¿se retiró la página intencionadamente (en cuyo caso, un 410 o un 301 al sustituto temático más cercano) o quedó huérfana por accidente (en cuyo caso arregla la migración antes del lanzamiento)?
Similares → revisar y aprobar. Cada par sugerido es un borrador de redirección. Mira el score de similitud: por encima de 0.90 suele ser un renombre con confianza alta; 0.85–0.90 merece una comprobación humana rápida; por debajo de 0.85 (si bajaste el umbral) a menudo empareja URLs no relacionadas que comparten una subcadena.
Solo en B → detectar huérfanos y polución. Las URLs nuevas son esperables, pero vigila las URLs solo de staging que no deberían haber llegado al sitemap de producción, páginas de navegación facetada que deberían ser noindex o duplicados de un constructor de URLs descuidado. El grupo Solo en B también es donde detectas páginas que existen en el sitio nuevo pero no tienen enlace interno desde el contenido antiguo — necesitarán refuerzos editoriales.
Comunes → revisar deriva de barra final y protocolo. Incluso con normalización, échale un vistazo a la pestaña Comunes para confirmar que las URLs que esperas en ambos lados están realmente ahí. Un grupo Comunes sorprendentemente pequeño suele ser señal de que un sitemap tiene una diferencia cosmética sistemática que tus interruptores de normalización aún no cubren.

Índices de sitemap frente a conjuntos de URLs

El protocolo sitemaps.org permite dos tipos de raíz: <urlset>, que lista URLs reales de páginas, y <sitemapindex>, que lista las URLs de otros sitemaps. Los sitios grandes que superan los límites de 50.000 URLs o 50 MB por sitemap dividen sus sitemaps en varios fragmentos y publican un índice. Si introduces un índice en el comparador, el diff no será sobre URLs reales de página — será sobre las URLs de los sitemaps hijos, que rara vez es lo que quieres.

La herramienta detecta este caso y muestra un aviso en la parte superior del panel afectado. La solución es descargar cada sitemap hijo por separado y procesarlos en pares, o fusionarlos localmente antes de comparar. Versiones futuras podrán expandir índices automáticamente; por ahora el aviso explícito previene el footgun silencioso de comparar entradas de índice en vez de URLs de página.

Dónde encaja el diff en un plan de migración más amplio

Un diff de sitemap es un paso necesario pero no suficiente. Las auditorías de migración más sólidas combinan: (a) un diff de sitemap como esta herramienta para detectar los deltas a nivel de URL; (b) un análisis de logs de servidor para detectar URLs que Google rastrea pero no están en el sitemap (suele ser la cola larga con más equity acumulada); (c) una exportación de Google Search Console de las páginas con mejor rendimiento para confirmar que ninguna URL de top de tráfico está en Solo en A sin redirección; (d) un crawl post-lanzamiento con verificación de códigos de estado para confirmar que cada redirección planificada está realmente cableada en producción. Trata el diff de sitemap como el primer 80% de la auditoría que puedes ejecutar en 30 segundos, y luego añade las técnicas más caras encima para las páginas críticas.

Privacidad: por qué importa el procesamiento local aquí

Los sitemaps incluyen rutinariamente URLs pre-lanzamiento, contenido restringido, entornos de staging, trabajo de cliente bajo NDA y crawls de competencia que preferirías no registrar en un servicio de terceros. El procesamiento del lado del navegador — todo el pipeline se ejecuta en la misma pestaña que cargó la página — significa que el XML que pegas nunca cruza una frontera de red. Puedes verificarlo en el panel Network del DevTools de tu navegador: tras cargar la página, el botón Comparar no genera ninguna petición HTTP. La misma lógica de comparación está disponible como librería open-source si necesitas ejecutarla en un pipeline de CI o un script de Node.js, pero la herramienta web es totalmente autocontenida.

Preguntas Frecuentes

¿Se envían mis datos de sitemap a algún servidor?

No. El parsing, la normalización y el matching se ejecutan dentro de tu pestaña con JavaScript cargado desde un sitio estático. Puedes confirmarlo en el panel Network del navegador — al pulsar Comparar no se generan peticiones salientes.

¿Cuál es el tamaño máximo de sitemap que puedo comparar?

No hay un tope estricto, pero los sitemaps muy grandes (decenas de miles de URLs en cada lado) ejecutarán el paso de similitud contra un límite interno de pares para mantener la comparación rápida. Cuando se alcanza ese límite, la herramienta muestra un aviso para que sepas que algunas sugerencias de similitud pueden faltar.

¿Es compatible con archivos <sitemapindex>?

Parcialmente. La herramienta detecta cuando la entrada es un índice de sitemap y lee las URLs de sus sitemaps hijos, pero no descarga esos hijos automáticamente (los navegadores bloquean las descargas XML cross-origin). Descarga cada sitemap hijo por separado y procésalos en pares, o fusiónalos localmente primero.

¿Qué significa exactamente el umbral de similitud?

Es la similitud mínima normalizada de Levenshtein (1 menos la distancia de edición dividida por la longitud máxima) requerida para emparejar dos URLs como posible renombre. 0.85 significa que las dos URLs deben compartir aproximadamente el 85% de sus caracteres tras la normalización. Súbelo para matching más estricto, bájalo para mostrar más candidatos.

¿Por qué se normalizan las URLs antes de comparar?

Los sitemaps de sistemas distintos suelen discrepar en detalles cosméticos — barras finales, prefijos www, http vs https, orden de parámetros, mayúsculas. Nada de eso suele ser una diferencia real en cómo se sirve la página. La normalización los colapsa para que el diff se centre en las URLs que cambiaron de verdad.

¿Qué formatos XML están soportados?

El esquema estándar sitemaps.org 0.9 con entradas <urlset> y <url><loc>, opcionalmente con <lastmod>. Los índices de sitemap (<sitemapindex> con <sitemap><loc>) se reconocen pero se marcan con un aviso. Las extensiones de sitemap de imagen y vídeo se leen para sus <loc> pero los metadatos extra se ignoran actualmente.

¿Qué ocurre con <lastmod>, <changefreq> y <priority>?

<lastmod> se preserva y se muestra en la tabla de resultados junto a cada URL. <changefreq> y <priority> no forman parte de la comparación — Google ha declarado públicamente que los ignora, y el diff es sobre URLs, no sobre metadatos.

¿Cuál es el formato CSV de exportación?

Las exportaciones de Comunes, Solo en A y Solo en B tienen dos columnas: url y lastmod. La exportación Similares tiene cuatro: url_a, url_b, similarity (0–1, cuatro decimales) y edit_distance. Los valores con comas, comillas o saltos de línea se entrecomillan correctamente según RFC 4180.