O que os crawlers podem ver?

PVIcpaq · Fevereiro 3, 2024, 7:15pm

Existem alguns rastreadores em nosso site. Existe algum risco de que eles tenham acesso ao conteúdo?

Qual é uma « carga/risco aceitável de rastreador » antes que eu tenha que tomar medidas de bloqueio com as quais tenho pouca ou nenhuma experiência?

HAWK · Fevereiro 3, 2024, 7:35pm

Eles só podem rastrear sites públicos, o que significa que não há violação de segurança. Mas sim, eles podem acessar conteúdo público.

Jagster · Fevereiro 3, 2024, 8:53pm

Quando a carga é tão alta que tem um impacto negativo e você deve comprar mais CPU e/ou RAM. Bem, não sei quão facilmente isso pode acontecer no Discourse porque a solução é diferente, mas o WordPress baseado em PHP é bem fácil de derrubar. Mas o Discourse está servindo conteúdo estático e leve para bots, se ele souber quem é humano e quem não é. E se um bot fornecer um user agent fortemente falso, o que ele pode obter… muitos textos em JSON?

Se um bot conseguir passar pelo login, barreira de nível de confiança, etc. Eu imagino que a equipe entrará em modo de pânico e todas as mãos deverão voltar ao trabalho imediatamente

HAWK · Fevereiro 4, 2024, 1:40am

Observe também que você pode facilmente bloquear rastreadores através das suas configurações de administrador.

PVIcpaq · Fevereiro 4, 2024, 2:19am

Eu ficaria muito grato em saber como…

HAWK · Fevereiro 4, 2024, 2:41am

Controlando Rastreadores da Web para um Site

Jagster · Fevereiro 4, 2024, 3:37am

Espero que isso não seja apenas a edição do robots.txt, pois ele só funciona com aqueles que se comportam bem. Na verdade, existe apenas uma solução eficaz, mas um pouco mais difícil: proxy reverso.

HAWK · Fevereiro 4, 2024, 5:43am

Essa abordagem é eficaz – nós a usamos e a recomendamos para aqueles em nossa hospedagem.

Jagster · Fevereiro 4, 2024, 7:11am

Devo ler que o Discourse está usando filtragem?

HAWK · Fevereiro 4, 2024, 7:31pm

Não tenho certeza do que você está perguntando. Não bloqueamos nada por padrão, mas fornecemos aos administradores as ferramentas para serem seletivos.

Jagster · Fevereiro 4, 2024, 7:36pm

Então você confia que os bots a) lerão o robots.txt e b) seguirão as regras. Bem, os que se comportam mal não fazem nenhuma das duas coisas. E voltamos ao ponto de partida: se os bots forem qualquer tipo de problema, o proxy reverso é a melhor solução.

Obrigado. Gostaria de saber isso.

HAWK · Fevereiro 4, 2024, 8:43pm

Ah, entendi o que você quer dizer. Não, não estamos assumindo que todos os bots se identificam como crawlers ou seguem as regras – é definitivamente uma ciência imprecisa. Eu estava simplesmente oferecendo um primeiro ponto de mitigação ao OP.

Atualmente, estamos trabalhando em maneiras de restringir o tráfego de forma mais específica, mas não é uma tarefa fácil.

anon36555649 · Fevereiro 4, 2024, 10:39pm

Notei que os números de crawlers são muito menores no site hospedado pelo Discourse do que no site do servidor DigitalOcean, com as configurações padrão de administrador para ambos.

O site hospedado geralmente tem menos de dez crawlers por dia, com uma média de cerca de 4. Às vezes, há picos, como no último dia de janeiro, que teve 77 crawlers naquele dia.

O site DigitalOcean, com quase nenhuma atividade, tem uma média de cerca de 30 crawlers por dia. Não sei por que isso importa, mas o tipo de servidor ou domínio faz com que haja mais crawlers?

Geralmente, eles pesquisam/indexam sites públicos + conteúdo para que os motores de busca possam encontrá-los, o que pode ser bom para os sites se você quiser alcançar um público mais amplo, pois as pessoas podem encontrar seu site se estiverem pesquisando algo que está sendo discutido em um site Discourse.

Pode haver outros propósitos para os crawlers, não sei para que servem todos eles. Estes são negados acesso por padrão nas configurações, o que você provavelmente já sabe:

PVIcpaq · Fevereiro 5, 2024, 2:37am

Sendo relativamente analfabeto em computação, tenho acompanhado suas opiniões especializadas sobre rastreamento de forma semelhante a um espectador com deficiência assistindo ao jogo final do US Open… Obrigado por me apresentar a esta parte enigmática da segurança do site.

Nosso fórum, tão eficientemente hospedado pelo Discourse, é um fórum altamente confidencial. Os usuários que entram por convite ficam muito nervosos em relação à confidencialidade e estou tentando tranquilizá-los da melhor maneira possível. Os rastreadores podem não ser muito prejudiciais (?!), mas eu gostaria de mantê-los completamente fora, se possível, eles não nos são de utilidade, pois não temos interesse em que nosso conteúdo seja indexado ou conhecido de alguma forma.

Agora percebo que otimizar as configurações é a primeira coisa a fazer. É possível que minhas configurações sejam examinadas por um dos grupos de suporte da Communitech a esse respeito?

Obrigado pela sua atenção.

rahim123 · Fevereiro 5, 2024, 3:17am

Ah, é bom saber disso. Eu pensei que ele dependesse apenas do Redis para servir mais rapidamente conteúdo renderizado recentemente. Como você mencionou, quando meu fórum rodava no Drupal, os bots ruins e, às vezes, até os rastreadores de mecanismos de busca o derrubavam ocasionalmente. Mas eu instalei um plugin que criava um cache de arquivo HTML estático das páginas acessadas anonimamente e criava automaticamente regras de reescrita do Nginx para elas. O Nginx as servia sem inicializar o código PHP do Drupal, e era incrivelmente rápido e podia lidar com muito mais tráfego anônimo.

HAWK · Fevereiro 5, 2024, 4:04am

Olá. É muito importante notar que isso não tem implicações de segurança. Os rastreadores só têm acesso a sites públicos. Se você tiver um site apenas com login, eles não terão acesso.

Outro esclarecimento é que a Communiteq não é afiliada de forma alguma conosco, portanto, se eles forem seus hosts, você não será hospedado pela Discourse.

RGJ · Fevereiro 5, 2024, 4:47pm

Planejei enviar uma resposta privada, mas isso pode ser útil para outros também, então estou postando aqui.

Eles estão acessando apenas sua página inicial (login) e não conseguem acessar o conteúdo.

Eles podem ser. Dependendo do tipo de crawler, eles podem estar tornando informações acessíveis que você não queria que fossem acessíveis. Tecnicamente falando, um crawler só pode acessar informações públicas, mas um crawler (e os mecanismos de busca associados) são muito bons em descobrir informações e torná-las acessíveis.

Então, vamos dar uma olhada na sua situação.

Seu robots.txt mostra

User-agent: *
Disallow: /

então está configurado para negar todos os crawlers de mecanismos de busca.

No entanto, isso sozinho não é suficiente, pois robots.txt é baseado em polidez e não é respeitado por robôs “ruins”. Um robô ruim pode simplesmente optar por ignorar robots.txt. É como uma placa de “proibido entrar!” - um ladrão não a respeitará.

A principal segurança do seu fórum é baseada no fato de que você tem login obrigatório ativado. Isso é suficiente para manter qualquer crawler fora.

Embora já tenhamos determinado que os crawlers não conseguem entrar, pode ser bom ir um passo além.

Você também tem convite apenas e permitir novas inscrições ativados, e grupos permitidos para convite está definido como TL2. Isso significa que pessoas arbitrárias não podem se inscrever, mas qualquer usuário no TL2 ou superior poderá convidar outros usuários para a comunidade. Como uma rede de segurança, você habilitou aprovar usuários, então isso é bom. A única maneira de obter acesso à sua comunidade é ser convidado por alguém que já é um membro confiável da comunidade e um administrador precisa deixar você entrar.

Entre em contato com support@communiteq.com ou use a opção "Suporte" em nosso painel de controle se tiver dúvidas de suporte sobre um fórum hospedado por nós.

Tópico		Respostas	Visualizações
How to protect myself from bots crawling my Discourse instance? Support	6	1613	17 de Janeiro de 2022
Controlling Web Crawlers For a Site Site Management how-to	10	2462	19 de Julho de 2025
Smarter handling of random crawler traffic Feature	2	3537	29 de Março de 2018
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4549	2 de Dezembro de 2023
How to allow user-agent access to private discourse? Support	10	2053	25 de Novembro de 2018

O que os crawlers podem ver?

Tópicos relacionados