Мы хотим определить, какие именно темы чаще всего индексируются или сканируются ботами ИИ, чтобы убедиться, что наш наиболее «цитируемый» контент не подпитывает галлюцинации больших языковых моделей. Можно ли в Data Explorer сопоставить попадания ботов с конкретными идентификаторами тем?
Я могу ошибаться, но, кажется, Discourse не отслеживает трафик веб-скраперов на уровне категорий или тем. (Возможно, есть какой-то математический запрос, который можно применить для получения этих данных?
)
Большинство ботов Al не идентифицируют себя через user agent. Обычно они маскируются под устаревшие версии Chrome. Единственный способ их обнаружить — по тому, что они посещают только одну страницу и не задерживаются на сайте для просмотра второй. Часто они находятся в дата-центрах, но я также наблюдаю много одностраничного трафика с мобильных и домашних IP-адресов, что, вероятно, связано с заражёнными устройствами.
Большинство AI-краулеров указывают user agent. Те, о которых вы говорите, — это SEO-боты/краулеры и другие вредоносные/злоупотребляющие/нежелательные нечеловеческие акторы.