Los registros de búsqueda deben ignorar los términos de marcador de posición de OpenSearch y opcionalmente etiquetar las búsquedas de agentes de IA

Resumen

El informe de Términos de Búsqueda Populares está contaminado por marcadores de posición de plantillas de URL de OpenSearch (por ejemplo, {searchTerms}) que no son búsquedas reales. Esto hace que el panel de control sea engañoso (a menudo mostrando {searchTerms} como el “término de búsqueda” principal con un 0% de CTR).

Además, a medida que la navegación mediada por IA crece, sería útil etiquetar opcionalmente las búsquedas iniciadas por agentes de IA por separado en las analíticas de búsqueda.


Problema 1: Ruido de marcadores de posición de OpenSearch en SearchLog

En mi sitio, {searchTerms} aparece como el término de búsqueda popular n.º 1, con miles de entradas y 0% de CTR. Estas entradas provienen de rastreadores/bots (por ejemplo, Googlebot, Bingbot, etc.) que rastrean /opensearch.xml y llaman al endpoint de búsqueda con la cadena literal del marcador de posición en lugar de una consulta real.

Esto ya se ha discutido:

Pero los términos de marcador de posición todavía aparecen en las analíticas.


Pasos para Reproducir

  1. Habilitar/servir OpenSearch (por ejemplo, /opensearch.xml) para el sitio
  2. Permitir que los rastreadores accedan a él (comportamiento público por defecto)
  3. Esperar a que los rastreadores obtengan la plantilla de OpenSearch y accedan al endpoint de búsqueda
  4. Ver Administrador → Informes → Términos de Búsqueda Populares
  5. Observar valores de marcador de posición como {searchTerms} dominando el informe

Comportamiento Esperado

Las cadenas de marcador de posición/plantilla utilizadas por los clientes de OpenSearch no deben registrarse como búsquedas reales y no deben aparecer en Términos de Búsqueda Populares.


Comportamiento Actual

Las cadenas de marcador de posición (por ejemplo, {searchTerms}) se guardan en SearchLog y aparecen como términos de búsqueda reales, contaminando las analíticas.


Solución Propuesta

Filtrar las cadenas de marcador de posición de OpenSearch conocidas antes de registrarlas en SearchLog, por ejemplo:

  • {searchTerms}
  • {search_term_string}

(Si hay otras variantes comunes, añadirlas estaría bien también).

Esto es efectivamente “ruido de bot”, nunca una consulta humana legítima, y rompe la utilidad del informe.


Mayor Oportunidad: Analíticas de búsqueda en la era de la IA (Opcional / Medio-Largo Plazo)

El problema de {searchTerms} pone de relieve una brecha más amplia: una porción creciente de las búsquedas son realizadas por agentes de IA en nombre de los usuarios (por ejemplo, cuando un usuario le pide a un asistente “busca en este foro X”). Esas búsquedas pueden representar una intención real del usuario, pero actualmente se mezclan con todo el demás tráfico y son difíciles de entender.

Medio Plazo (Opcional)

Etiquetar las búsquedas probablemente iniciadas por agentes de IA usando heurísticas de User-Agent (solo ejemplos):

  • Variantes de UA de navegación/agente de ChatGPT
  • Bots de Perplexity
  • Agentes relacionados con Claude
  • UAs relacionados con Google AI (por ejemplo, GoogleOther, etc.)

Esto no necesitaría ser perfecto, solo lo suficientemente bueno para dar visibilidad a los administradores.

Largo Plazo (Opcional)

Añadir un filtro/pestaña de “Búsqueda de IA” en el informe de Términos de Búsqueda Populares para que los administradores puedan ver:

  • Búsquedas humanas
  • Búsquedas de agentes de IA
  • Todo combinado

Por Qué Esto Importa

  • La contaminación por marcadores de posición hace que el panel de control sea menos confiable y puede dominar los “Populares”
  • Los administradores no deberían tener que limpiar manualmente las analíticas o ignorar las entradas principales rotas
  • El tráfico de búsqueda mediado por IA está aumentando, y los propietarios de sitios se benefician de tener visibilidad sobre esas intenciones