Alguém já viu o GPTBot, o crawler da OpenAI, visitar seu site?

A OpenAI criou um rastreador da web chamado GPTBot.

Como administrador do Discourse, verifiquei o relatório /admin/reports/web_crawlers e ainda não o vi.

Curioso se outros o viram em ação.

3 curtidas

Eu tenho (e acabei de bloqueá-lo).

2 curtidas

Nota… Tenho visto um sentimento equivocado por aí de:

Apenas bloqueie

Este é um relacionamento unilateral

Sinto que isso está perdendo um ponto importante. Ter a OpenAI rastreando meta.discourse.org tem sido altamente benéfico para a CDCK. Quando você faz perguntas sobre o Discourse para o GPT 4, ele tem pelo menos uma chance de respondê-las.

É um relacionamento de mão dupla:

Você dá à OpenAI acesso a dados
A OpenAI queima florestas treinando o LLM com seus dados, o que pode resultar em valor para você.

Também relacionado: How to prevent community content from being used to train LLMs like ChatGPT?

Vemos algum acesso do GPTBot em nossas frotas, talvez 20-40x menos tráfego do que vemos do Googlebot.

Qualquer pessoa desconfortável com isso pode bloquear diretamente na interface do Discourse, mas o bot parece se comportar muito bem em comparação com alguns maus que vimos.

8 curtidas

Para aqueles que desejam identificar alguns dos ruins, à medida que alguns de nós os encontramos, anotamos neste post.

1 curtida

Sim, é a primeira vez que uso o relatório do crawler também, e eis que. Lá estava ele.

Minha opinião é que ele apareceu em agosto, e é o maior crawler de todos.

Aqui está um exemplo de um período de 24 horas e o tipo de proporção

#1 ChatGPT 18 mil visualizações de página
#2 mj12bot 1,8 mil visualizações de página

#4 Google 1,7 mil visualizações de página

Esta implantação de discurso foi colocada em long_required especialmente para impedir o crawler de acessar o conteúdo, então ele só deve estar acessando a página login_required para acumular esses acessos, certo?

Poderia usar um usuário?

Eu assumo que isso é tecnicamente possível, mas não provável, e se fosse, eu esperaria que tal usuário tivesse de repente uma contagem de postagens lidas muito alta.

No momento, parece estar perto de 100 mil visualizações de página, muito acima do próximo maior, que é aproximadamente menos da metade.

O crawler chapgpt é um monstro.

1 curtida

O seu #3 está não identificado? Eu também tenho um desses. Ele só aparece como “—” na lista. É também o #3 na minha lista, mas as visualizações de página por bots são muito menores no meu fórum privado que requer login. :sweat_smile:

1 curtida

Não, bem, sim, mais ou menos, veja, eu não conseguia ler porque estava truncado, mas acho que é o rastreador AppleWebKit. Eu precisaria exportar os dados para ler a entrada completa.

Desde então, bloqueei virtualmente todos os rastreadores, embora seja o mesmo que você em um fórum privado que requer login. Os rastreadores caíram para 20 até agora hoje, em comparação com quase 14.000 alguns dias atrás!

2 curtidas

No seu painel: admin/reports/web_crawlers mostrará os rastreadores da web dos últimos 30 dias. Passar o mouse sobre cada rastreador exibe temporariamente a descrição completa de cada um sem precisar exportar a lista. Altere para visualizar o dia anterior usando o calendário no canto superior direito e clique em Atualizar.
Até agora, nas últimas 24 horas, tive 3 rastreadores (o 1º é o pior):
PetalBot - petalsearch.com/bot/petalbot - 4 visualizações
GPTBot - openai.com/gptbot - 3 visualizações
— - (sem descrição) - 1 visualização

Ao longo de 30 dias, o PetalBot rastreia mais, seguido pelo Yandex.

1 curtida

Agora eu vejo, está cerca de 15 linhas abaixo. Adicionei “—” como um crawler à lista de bloqueio, é muito baixo em comparação com os mais graves, mas vamos ver o que acontece :wink:

Tenho quase 50 listagens desde janeiro, mas surpreendentemente o ChatGPT em menos de 2 semanas ou mais é o dobro do segundo maior bot para todo o período de janeiro até hoje, nessa taxa o ChatGPT equivaleria a quase 3 milhões de visualizações de página por um ano inteiro se a taxa permanecesse, 7/8 mil por dia.

Acabei de adicionar o Grammarly à lista de bloqueio!

1 curtida

Se alguém estiver interessado, aqui está o intervalo de IPs que o GPTBot (OpenAI) usa, conforme publicado em seu site. Eles têm 9 IPs listados.

https://openai.com/gptbot-ranges.txt

3 curtidas

Mesmo sentimento aqui. No mês passado, eu permiti o GPTBot/DeepSeek/Perplexity com atraso e vi essas fontes crescendo lentamente e convertendo novos membros.

Dica: Os Limites de Taxa do Cloudflare talvez possam te ajudar a evitar muitas requisições e sobrecarga de largura de banda.

A OpenAI não segue atrasos, pelo que eu saiba. Essa foi a razão pela qual eu baní o bot de ensino deles; ele era diligente demais (bem, também havia outras razões, assim como o motivo pelo qual eu bano todo bot de SEO/marketing que vejo: eu não pago o negócio alheio).

1 curtida