Отслеживание активности краулеров LLM: можем ли мы определить, какие темы индексируются/сканируются чаще всего?

Мы хотим определить, какие именно темы чаще всего индексируются или сканируются ботами ИИ, чтобы убедиться, что наш наиболее «цитируемый» контент не подпитывает галлюцинации больших языковых моделей. Можно ли в Data Explorer сопоставить попадания ботов с конкретными идентификаторами тем?

Я могу ошибаться, но, кажется, Discourse не отслеживает трафик веб-скраперов на уровне категорий или тем. (Возможно, есть какой-то математический запрос, который можно применить для получения этих данных? :thinking:)

Большинство ботов Al не идентифицируют себя через user agent. Обычно они маскируются под устаревшие версии Chrome. Единственный способ их обнаружить — по тому, что они посещают только одну страницу и не задерживаются на сайте для просмотра второй. Часто они находятся в дата-центрах, но я также наблюдаю много одностраничного трафика с мобильных и домашних IP-адресов, что, вероятно, связано с заражёнными устройствами.

Большинство AI-краулеров указывают user agent. Те, о которых вы говорите, — это SEO-боты/краулеры и другие вредоносные/злоупотребляющие/нежелательные нечеловеческие акторы.