Existem alguns rastreadores em nosso site. Existe algum risco de que eles tenham acesso ao conteúdo?
Qual é uma « carga/risco aceitável de rastreador » antes que eu tenha que tomar medidas de bloqueio com as quais tenho pouca ou nenhuma experiência?
Existem alguns rastreadores em nosso site. Existe algum risco de que eles tenham acesso ao conteúdo?
Qual é uma « carga/risco aceitável de rastreador » antes que eu tenha que tomar medidas de bloqueio com as quais tenho pouca ou nenhuma experiência?
Eles só podem rastrear sites públicos, o que significa que não há violação de segurança. Mas sim, eles podem acessar conteúdo público.
Quando a carga é tão alta que tem um impacto negativo e você deve comprar mais CPU e/ou RAM. Bem, não sei quão facilmente isso pode acontecer no Discourse porque a solução é diferente, mas o WordPress baseado em PHP é bem fácil de derrubar. Mas o Discourse está servindo conteúdo estático e leve para bots, se ele souber quem é humano e quem não é. E se um bot fornecer um user agent fortemente falso, o que ele pode obter… muitos textos em JSON?
Se um bot conseguir passar pelo login, barreira de nível de confiança, etc. Eu imagino que a equipe entrará em modo de pânico e todas as mãos deverão voltar ao trabalho imediatamente ![]()
Observe também que você pode facilmente bloquear rastreadores através das suas configurações de administrador.
Eu ficaria muito grato em saber como…
Espero que isso não seja apenas a edição do robots.txt, pois ele só funciona com aqueles que se comportam bem. Na verdade, existe apenas uma solução eficaz, mas um pouco mais difícil: proxy reverso.
Essa abordagem é eficaz – nós a usamos e a recomendamos para aqueles em nossa hospedagem.
Devo ler que o Discourse está usando filtragem?
Não tenho certeza do que você está perguntando. Não bloqueamos nada por padrão, mas fornecemos aos administradores as ferramentas para serem seletivos.
Então você confia que os bots a) lerão o robots.txt e b) seguirão as regras. Bem, os que se comportam mal não fazem nenhuma das duas coisas. E voltamos ao ponto de partida: se os bots forem qualquer tipo de problema, o proxy reverso é a melhor solução.
Obrigado. Gostaria de saber isso.
Ah, entendi o que você quer dizer. Não, não estamos assumindo que todos os bots se identificam como crawlers ou seguem as regras – é definitivamente uma ciência imprecisa. Eu estava simplesmente oferecendo um primeiro ponto de mitigação ao OP.
Atualmente, estamos trabalhando em maneiras de restringir o tráfego de forma mais específica, mas não é uma tarefa fácil.
Notei que os números de crawlers são muito menores no site hospedado pelo Discourse do que no site do servidor DigitalOcean, com as configurações padrão de administrador para ambos.
O site hospedado geralmente tem menos de dez crawlers por dia, com uma média de cerca de 4. Às vezes, há picos, como no último dia de janeiro, que teve 77 crawlers naquele dia.
O site DigitalOcean, com quase nenhuma atividade, tem uma média de cerca de 30 crawlers por dia. Não sei por que isso importa, mas o tipo de servidor ou domínio faz com que haja mais crawlers?
Geralmente, eles pesquisam/indexam sites públicos + conteúdo para que os motores de busca possam encontrá-los, o que pode ser bom para os sites se você quiser alcançar um público mais amplo, pois as pessoas podem encontrar seu site se estiverem pesquisando algo que está sendo discutido em um site Discourse.
Pode haver outros propósitos para os crawlers, não sei para que servem todos eles. Estes são negados acesso por padrão nas configurações, o que você provavelmente já sabe:
Sendo relativamente analfabeto em computação, tenho acompanhado suas opiniões especializadas sobre rastreamento de forma semelhante a um espectador com deficiência assistindo ao jogo final do US Open… Obrigado por me apresentar a esta parte enigmática da segurança do site.
Nosso fórum, tão eficientemente hospedado pelo Discourse, é um fórum altamente confidencial. Os usuários que entram por convite ficam muito nervosos em relação à confidencialidade e estou tentando tranquilizá-los da melhor maneira possível. Os rastreadores podem não ser muito prejudiciais (?!), mas eu gostaria de mantê-los completamente fora, se possível, eles não nos são de utilidade, pois não temos interesse em que nosso conteúdo seja indexado ou conhecido de alguma forma.
Agora percebo que otimizar as configurações é a primeira coisa a fazer. É possível que minhas configurações sejam examinadas por um dos grupos de suporte da Communitech a esse respeito?
Obrigado pela sua atenção.
Ah, é bom saber disso. Eu pensei que ele dependesse apenas do Redis para servir mais rapidamente conteúdo renderizado recentemente. Como você mencionou, quando meu fórum rodava no Drupal, os bots ruins e, às vezes, até os rastreadores de mecanismos de busca o derrubavam ocasionalmente. Mas eu instalei um plugin que criava um cache de arquivo HTML estático das páginas acessadas anonimamente e criava automaticamente regras de reescrita do Nginx para elas. O Nginx as servia sem inicializar o código PHP do Drupal, e era incrivelmente rápido e podia lidar com muito mais tráfego anônimo.
Olá. É muito importante notar que isso não tem implicações de segurança. Os rastreadores só têm acesso a sites públicos. Se você tiver um site apenas com login, eles não terão acesso.
Outro esclarecimento é que a Communiteq não é afiliada de forma alguma conosco, portanto, se eles forem seus hosts, você não será hospedado pela Discourse. ![]()
Planejei enviar uma resposta privada, mas isso pode ser útil para outros também, então estou postando aqui.
Eles estão acessando apenas sua página inicial (login) e não conseguem acessar o conteúdo.
Eles podem ser. Dependendo do tipo de crawler, eles podem estar tornando informações acessíveis que você não queria que fossem acessíveis. Tecnicamente falando, um crawler só pode acessar informações públicas, mas um crawler (e os mecanismos de busca associados) são muito bons em descobrir informações e torná-las acessíveis.
Então, vamos dar uma olhada na sua situação.
Seu robots.txt mostra
User-agent: *
Disallow: /
então está configurado para negar todos os crawlers de mecanismos de busca. ![]()
No entanto, isso sozinho não é suficiente, pois robots.txt é baseado em polidez e não é respeitado por robôs “ruins”. Um robô ruim pode simplesmente optar por ignorar robots.txt. É como uma placa de “proibido entrar!” - um ladrão não a respeitará.
A principal segurança do seu fórum é baseada no fato de que você tem login obrigatório ativado. Isso é suficiente para manter qualquer crawler fora. ![]()
Embora já tenhamos determinado que os crawlers não conseguem entrar, pode ser bom ir um passo além.
Você também tem convite apenas e permitir novas inscrições ativados, e grupos permitidos para convite está definido como TL2. Isso significa que pessoas arbitrárias não podem se inscrever, mas qualquer usuário no TL2 ou superior poderá convidar outros usuários para a comunidade. Como uma rede de segurança, você habilitou aprovar usuários, então isso é bom. A única maneira de obter acesso à sua comunidade é ser convidado por alguém que já é um membro confiável da comunidade e um administrador precisa deixar você entrar. ![]()