Видел ли кто-нибудь, как веб-краулер OpenAI GPTBot посещал ваш сайт?

OpenAI создала веб-краулер под названием GPTBot.

Администратор Discourse проверил отчёт по веб-краулерам в разделе /admin/reports/web_crawlers, но пока не обнаружил его.

Интересно, видели ли его кто-то ещё в реальной работе.

3 лайка

У меня есть (и я только что его заблокировал).

2 лайка

Примечание… Я заметил распространённое заблуждение:

Просто заблокируйте это

Это односторонние отношения

Мне кажется, здесь упущен один важный момент. То, что OpenAI индексирует meta.discourse.org, принесло CDCK огромную пользу. Когда вы задаёте GPT 4 вопросы о Discourse, у него хотя бы есть шанс дать правильный ответ.

Это двусторонние отношения:

Вы предоставляете OpenAI доступ к данным.
OpenAI тратит огромные ресурсы на обучение LLM на ваших данных, что может принести вам пользу.

Также по теме: How to prevent community content from being used to train LLMs like ChatGPT?

Мы наблюдаем некоторую активность GPTBot в наших сетях, но трафик примерно в 20–40 раз меньше, чем от Googlebot.

Если кто-то недоволен этим, можно напрямую заблокировать бота через интерфейс Discourse, но этот бот ведёт себя гораздо лучше, чем некоторые другие, с которыми нам приходилось сталкиваться.

8 лайков

Для тех, кто хочет идентифицировать некоторые из плохих, по мере того как некоторые из нас их находят, мы отмечаем их в этом посте.

1 лайк

Да, это первый раз, когда я использую отчёт о краулинге, и вот оно. Оно было здесь.

Мое мнение: оно появилось в августе, и это самый крупный краулер среди всех.

Вот пример за 24 часа и примерное соотношение:

#1 ChatGPT — 18 тыс. просмотров страниц
#2 mj12bot — 1,8 тыс. просмотров страниц

#4 Google — 1,7 тыс. просмотров страниц

Это развёртывание Discourse было специально настроено на long_required, чтобы полностью заблокировать доступ краулера к контенту, так что он, должно быть, попадает только на страницу login_required, чтобы набрать такие показатели, верно?

Может ли он использовать учётную запись пользователя?

Я предполагаю, что технически это возможно, но маловероятно. Если бы это было так, я бы ожидал, что у такого пользователя внезапно будет очень высокий счётчик прочитанных постов.

Сейчас показатели близки к 100 тыс. просмотров страниц, что значительно превышает следующий по величине показатель — примерно менее половины от этого.

Краулер chapgpt — это настоящий монстр.

1 лайк

У вас тоже #3 неопознанный? У меня тоже такой. В списке он отображается только как «—». У меня он тоже на третьем месте, но на моем частном форуме, требующем входа, просмотров от ботов значительно меньше. :sweat_smile:

1 лайк

Нет, ну да, в общем, я не смог прочитать его, так как текст был обрезан, но, кажется, это краулер AppleWebKit. Мне нужно экспортировать данные, чтобы прочитать полную запись.

С тех пор я заблокировал практически всех краулеров, хотя ситуация у меня такая же, как у вас: это закрытый форум с требованием входа в систему. Количество краулеров сегодня упало до 20, тогда как несколько дней назад было почти 14 000!

2 лайка

На вашей панели управления: admin/reports/web_crawlers покажет веб-краулеров за последние 30 дней. Наведение курсора на каждого краулера временно отображает полное описание для каждого без необходимости экспортировать список. Измените период просмотра на последние сутки с помощью календаря в правом верхнем углу и нажмите «Обновить».

За последние 24 часа у меня было 3 краулера (первый — худший):
PetalBot — petalsearch.com/bot/petalbot — 4 просмотра
GPTBot — openai.com/gptbot — 3 просмотра
— — (нет описания) — 1 просмотр

За последние 30 дней PetalBot сканирует чаще всего, за ним следует Yandex.

1 лайк

Я вижу это сейчас, это примерно на 15 строк ниже. Я добавил «—» в список блокировок как ползучего бота; это очень низко по сравнению с самыми вопиющими, но посмотрим, что произойдёт :wink:

У меня почти 50 записей с января, но удивительно, что ChatGPT за чуть менее двух недель превзошёл более чем вдвое второго по популярности бота за весь период с января по сегодня. При такой скорости ChatGPT мог бы обеспечить почти 3 миллиона просмотров страниц за целый год, если бы темп сохранился — около 7–8 тысяч в день.

Только что добавил Grammarly в список блокировок!

1 лайк

Если кому-то интересно, вот диапазон IP-адресов, которые использует GPTBot (OpenAI), опубликованный на их сайте. В списке указано 9 IP-адресов.

https://openai.com/gptbot-ranges.txt

3 лайка

У меня были те же ощущения в прошлом месяце. Я разрешил GPTBot, DeepSeek и Perplexity с задержкой и заметил, что эти источники медленно растут и привлекают новых участников.

Совет: Ограничения скорости Cloudflare могут помочь избежать высокой нагрузки запросов и перерасхода трафика.

OpenAI не следует задержкам, насколько мне известно. Именно поэтому я заблокировал их обучающего бота: он был слишком прилежным (хотя были и другие причины, как и в случае с блокировкой всех SEO/маркетинговых ботов: я не оплачиваю чужой бизнес)

1 лайк