Alguém já viu o GPTBot, o crawler da OpenAI, visitar seu site?

sam · Agosto 9, 2023, 5:54am

Nota… Tenho visto um sentimento equivocado por aí de:

Apenas bloqueie

Este é um relacionamento unilateral

Sinto que isso está perdendo um ponto importante. Ter a OpenAI rastreando meta.discourse.org tem sido altamente benéfico para a CDCK. Quando você faz perguntas sobre o Discourse para o GPT 4, ele tem pelo menos uma chance de respondê-las.

É um relacionamento de mão dupla:

Você dá à OpenAI acesso a dados
A OpenAI queima florestas treinando o LLM com seus dados, o que pode resultar em valor para você.

Também relacionado: How to prevent community content from being used to train LLMs like ChatGPT?

Vemos algum acesso do GPTBot em nossas frotas, talvez 20-40x menos tráfego do que vemos do Googlebot.

Qualquer pessoa desconfortável com isso pode bloquear diretamente na interface do Discourse, mas o bot parece se comportar muito bem em comparação com alguns maus que vimos.

Tópico		Respostas	Visualizações
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4798	2 de Dezembro de 2023
Tracking LLM Crawler Activity: Can we identify which topics are being indexed/crawled most frequently? Data & reporting data-explorer	3	130	21 de Abril de 2026
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	69	5092	16 de Julho de 2023
How to protect myself from bots crawling my Discourse instance? Support	4	1660	21 de Janeiro de 2019
Smarter handling of random crawler traffic Feature	1	3568	29 de Março de 2018

Alguém já viu o GPTBot, o crawler da OpenAI, visitar seu site?

Tópicos relacionados