Logs de pesquisa devem ignorar termos placeholder do OpenSearch e opcionalmente marcar pesquisas de agente de IA

Resumo

O relatório de Termos de Pesquisa em Alta está poluído por espaços reservados de modelos de URL do OpenSearch (por exemplo, {searchTerms}) que não são pesquisas reais. Isso torna o painel enganoso (frequentemente mostrando {searchTerms} como o principal “termo de pesquisa” com 0% de CTR).

Além disso, à medida que a navegação mediada por IA cresce, seria útil marcar opcionalmente as pesquisas iniciadas por agentes de IA separadamente nas análises de pesquisa.


Problema 1: Ruído de espaço reservado do OpenSearch no SearchLog

No meu site, {searchTerms} aparece como o termo de pesquisa em alta nº 1, com milhares de entradas e 0% de CTR. Essas entradas vêm de rastreadores/bots (por exemplo, Googlebot, Bingbot, etc.) que rastreiam /opensearch.xml e chamam o endpoint de pesquisa com a string literal do espaço reservado em vez de uma consulta real.

Isso já foi discutido:

Mas os termos de espaço reservado ainda aparecem nas análises.


Passos para Reproduzir

  1. Ativar/servir OpenSearch (por exemplo, /opensearch.xml) para o site
  2. Permitir que os rastreadores acessem (comportamento público padrão)
  3. Aguardar que os rastreadores busquem o modelo do OpenSearch e acessem o endpoint de pesquisa
  4. Visualizar Admin → Relatórios → Termos de Pesquisa em Alta
  5. Observar valores de espaço reservado como {searchTerms} dominando o relatório

Comportamento Esperado

Strings de espaço reservado/modelo usadas por clientes OpenSearch não devem ser registradas como pesquisas reais e não devem aparecer em Termos de Pesquisa em Alta.


Comportamento Atual

Strings de espaço reservado (por exemplo, {searchTerms}) são salvas no SearchLog e aparecem como termos de pesquisa reais, poluindo as análises.


Correção Proposta

Filtrar strings de espaço reservado conhecidas do OpenSearch antes de registrar no SearchLog, por exemplo:

  • {searchTerms}
  • {search_term_string}

(Se houver outras variantes comuns, adicioná-las seria bom também.)

Isso é efetivamente “ruído de bot”, nunca uma consulta humana legítima, e quebra a utilidade do relatório.


Oportunidade Maior: Análises de pesquisa na era da IA (Opcional / Médio–Longo Prazo)

A questão do {searchTerms} destaca uma lacuna mais ampla: uma porção crescente de pesquisas é realizada por agentes de IA em nome dos usuários (por exemplo, quando um usuário pede a um assistente “pesquise neste fórum por X”). Essas pesquisas podem representar a intenção real do usuário, mas atualmente estão misturadas com todo o outro tráfego e são difíceis de entender.

Médio Prazo (Opcional)

Marcar pesquisas provavelmente iniciadas por agentes de IA usando heurísticas de User-Agent (apenas exemplos):

  • ChatGPT browsing / variantes de agente UA
  • Bots Perplexity
  • Agentes relacionados ao Claude
  • UAs relacionados à IA do Google (por exemplo, GoogleOther, etc.)

Isso não precisaria ser perfeito — apenas bom o suficiente para dar visibilidade aos administradores.

Longo Prazo (Opcional)

Adicionar um filtro/aba “Pesquisa de IA” no relatório Termos de Pesquisa em Alta para que os administradores possam ver:

  • Pesquisas humanas
  • Pesquisas de agentes de IA
  • Tudo combinado

Por Que Isso é Importante

  • A poluição por espaço reservado torna o painel menos confiável e pode dominar os “Em Alta”
  • Os administradores não devem ter que limpar manualmente as análises ou ignorar as principais entradas quebradas
  • O tráfego de pesquisa mediado por IA está aumentando, e os proprietários de sites se beneficiam da visibilidade dessas intenções