Отслеживание активности краулеров LLM: можем ли мы определить, какие темы индексируются/сканируются чаще всего?

noahl · 20.Апрель.2026 21:41:17

Мы хотим определить, какие именно темы чаще всего индексируются или сканируются ботами ИИ, чтобы убедиться, что наш наиболее «цитируемый» контент не подпитывает галлюцинации больших языковых моделей. Можно ли в Data Explorer сопоставить попадания ботов с конкретными идентификаторами тем?

Lilly · 20.Апрель.2026 21:59:39

Я могу ошибаться, но, кажется, Discourse не отслеживает трафик веб-скраперов на уровне категорий или тем. (Возможно, есть какой-то математический запрос, который можно применить для получения этих данных? )

github.com/discourse/discourse

app/models/web_crawler_request.rb

e9f4e0dca


      
          # == Schema Information
          #
          # Table name: web_crawler_requests
          #
          #  id         :bigint           not null, primary key
          #  date       :date             not null
          #  user_agent :string           not null
          #  count      :integer          default(0), not null
          #
          # Indexes
          #
          #  index_web_crawler_requests_on_date_and_user_agent  (date,user_agent) UNIQUE
          #

elmuerte · 21.Апрель.2026 05:09:28

Большинство ботов Al не идентифицируют себя через user agent. Обычно они маскируются под устаревшие версии Chrome. Единственный способ их обнаружить — по тому, что они посещают только одну страницу и не задерживаются на сайте для просмотра второй. Часто они находятся в дата-центрах, но я также наблюдаю много одностраничного трафика с мобильных и домашних IP-адресов, что, вероятно, связано с заражёнными устройствами.

Jagster · 21.Апрель.2026 05:26:30

Большинство AI-краулеров указывают user agent. Те, о которых вы говорите, — это SEO-боты/краулеры и другие вредоносные/злоупотребляющие/нежелательные нечеловеческие акторы.

Тема		Ответов	Просм.
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4804	02.12.2023
Discourse is Agent Ready: Here’s How Blog	9	628	24.05.2026
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2371	18.10.2023
User-agent: lfc-discourse-public-crawler Bug	3	127	09.07.2026
Have AI identify and flag web crawlers Feature ai	1	264	11.07.2023

Отслеживание активности краулеров LLM: можем ли мы определить, какие темы индексируются/сканируются чаще всего?

Связанные темы