Видел ли кто-нибудь, как веб-краулер OpenAI GPTBot посещал ваш сайт?

sam · 09.Август.2023 05:54:20

Примечание… Я заметил распространённое заблуждение:

Просто заблокируйте это

Это односторонние отношения

Мне кажется, здесь упущен один важный момент. То, что OpenAI индексирует meta.discourse.org, принесло CDCK огромную пользу. Когда вы задаёте GPT 4 вопросы о Discourse, у него хотя бы есть шанс дать правильный ответ.

Это двусторонние отношения:

Вы предоставляете OpenAI доступ к данным.
OpenAI тратит огромные ресурсы на обучение LLM на ваших данных, что может принести вам пользу.

Также по теме: How to prevent community content from being used to train LLMs like ChatGPT?

Мы наблюдаем некоторую активность GPTBot в наших сетях, но трафик примерно в 20–40 раз меньше, чем от Googlebot.

Если кто-то недоволен этим, можно напрямую заблокировать бота через интерфейс Discourse, но этот бот ведёт себя гораздо лучше, чем некоторые другие, с которыми нам приходилось сталкиваться.

Тема		Ответов	Просм.
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4779	02.12.2023
Tracking LLM Crawler Activity: Can we identify which topics are being indexed/crawled most frequently? Data & reporting data-explorer	3	127	21.04.2026
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	69	4843	16.07.2023
How to protect myself from bots crawling my Discourse instance? Support	4	1655	21.01.2019
Smarter handling of random crawler traffic Feature	1	3567	29.03.2018

Видел ли кто-нибудь, как веб-краулер OpenAI GPTBot посещал ваш сайт?

Связанные темы