Журналы поиска должны игнорировать термины-заполнители OpenSearch и при необходимости помечать запросы AI-agent

Краткое описание

Отчет Популярные поисковые запросы загрязнен плейсхолдерами URL-шаблона OpenSearch (например, {searchTerms}), которые не являются реальными поисковыми запросами. Это делает панель управления вводящей в заблуждение (часто {searchTerms} отображается как самый популярный «поисковый запрос» с CTR 0%).

Кроме того, по мере роста использования браузинга с участием ИИ было бы полезно опционально помечать поисковые запросы, инициированные ИИ-агентами, отдельно в аналитике поиска.


Проблема 1: Шум плейсхолдеров OpenSearch в SearchLog

На моем сайте {searchTerms} занимает #1 место в рейтинге популярных поисковых запросов, имея тысячи записей и CTR 0%. Эти записи поступают от краулеров/ботов (например, Googlebot, Bingbot и др.), которые обращаются к /opensearch.xml и вызывают поисковый эндпоинт с буквальным значением плейсхолдера вместо реального запроса.

Этот вопрос уже обсуждался ранее:

Однако плейсхолдеры по-прежнему отображаются в аналитике.


Шаги для воспроизведения

  1. Включите/настройте OpenSearch (например, /opensearch.xml) для сайта.
  2. Разрешите краулерам доступ к нему (поведение по умолчанию — публичный доступ).
  3. Дождитесь, пока краулеры загрузят шаблон OpenSearch и обратятся к поисковому эндпоинту.
  4. Перейдите в Администрирование → Отчеты → Популярные поисковые запросы.
  5. Обратите внимание, что плейсхолдерные значения, такие как {searchTerms}, доминируют в отчете.

Ожидаемое поведение

Плейсхолдерные/шаблонные строки, используемые клиентами OpenSearch, не должны записываться как реальные поисковые запросы и не должны отображаться в разделе «Популярные поисковые запросы».


Фактическое поведение

Плейсхолдерные строки (например, {searchTerms}) сохраняются в SearchLog и отображаются как реальные поисковые запросы, загрязняя аналитику.


Предлагаемое решение

Фильтровать известные плейсхолдерные строки OpenSearch перед записью в SearchLog, например:

  • {searchTerms}
  • {search_term_string}

(Если существуют другие распространенные варианты, их также можно добавить.)

По сути, это «шум от ботов», который никогда не является легитимным человеческим запросом и снижает полезность отчета.


Более широкая возможность: Аналитика поиска в эпоху ИИ (Опционально / Среднесрочно–Долгосрочно)

Проблема {searchTerms} подчеркивает более широкий пробел: растущая часть поисковых запросов выполняется ИИ-агентами от имени пользователей (например, когда пользователь просит ассистента «найти на этом форуме X»). Такие запросы могут отражать реальные намерения пользователя, но в настоящее время они смешиваются с остальным трафиком и их трудно анализировать.

Среднесрочная перспектива (Опционально)

Помечать поисковые запросы, вероятно, инициированные ИИ-агентами, с помощью эвристик User-Agent (примеры только):

  • Браузинг ChatGPT / варианты User-Agent агентов
  • Боты Perplexity
  • Агенты, связанные с Claude
  • User-Agent, связанные с ИИ Google (например, GoogleOther и др.)

Это не должно быть идеальным — достаточно просто дать администраторам возможность видеть эту информацию.

Долгосрочная перспектива (Опционально)

Добавить фильтр/вкладку «Поиск ИИ» в отчете Популярные поисковые запросы, чтобы администраторы могли видеть:

  • Запросы от людей
  • Запросы от ИИ-агентов
  • Всё вместе

Почему это важно

  • Загрязнение плейсхолдерами снижает доверие к панели управления и может доминировать в разделе «Популярное».
  • Администраторам не следует вручную очищать аналитику или игнорировать ошибочные верхние записи.
  • Трафик поиска с участием ИИ растет, и владельцы сайтов получают выгоду от возможности отслеживать эти намерения.