Ouvi em outro tópico o @simon mencionar que existe uma configuração para parar/esmagar crawlers, não consigo encontrar essa configuração, como fazer isso, alguém sabe onde está e como funciona?
Tive um pico incomum de 48 crawlers no meu site em 14 de julho, eu não gosto desses pequenos desgraçados, o que eles estão fazendo?
Obrigado, encontrei isso agora. Vejo que há cinco nomes de rastreadores bloqueados por padrão, imagino que sejam aranhas com problemas conhecidos.
Parece que há uma opção para usar uma lista de permissões para rastreadores bons, que, se usada, nega automaticamente a entrada a todos os outros seres de insetos elétricos. Não sei quais podem ser os bons?
Encontrei os relatórios de user agent de rastreadores da web, os principais são “YandexBox/3.0” e “CensysInspect/1.1”
Seria bom aparecer em alguns motores de busca para os clientes que precisam deles.
Tenho recebido muitas ligações de empresas de marketing que cobram um serviço de assinatura para ajudar com isso e com a construção de sites. Poderia ser bom, mas é meio irritante todas essas ligações sobre isso.
Vale notar que os user agents são totalmente fáceis de falsificar. Se for o Google, você pode ter certeza de que ele dirá isso. Mas só porque diz que é o Google, isso não significa nada.
(Mesma situação do robots.txt, são mecanismos que assumem confiança. Partes não confiáveis podem simplesmente jogar com regras diferentes.)
Alguns robôs podem se disfarçar de robôs do Yandex, indicando o User Agent relevante. Você pode verificar a autenticidade de um robô usando a pesquisa reversa de DNS.
Use uma pesquisa reversa de DNS do endereço IP para determinar o nome do domínio do host.
Verifique se o host pertence ao Yandex. Todos os nomes de robôs do Yandex terminam em yandex.ru, yandex.net ou yandex.com. Se o nome do host tiver um final diferente, o robô não pertence ao Yandex.
Certifique-se de que o nome está correto. Use uma pesquisa DNS direta para obter o endereço IP correspondente ao nome do host. Ele deve corresponder ao endereço IP usado na pesquisa reversa de DNS. Se os endereços IP não corresponderem, significa que o nome do host é falso."
Você sabe se rastreadores da web como estes indexam sites para sistemas de busca por voz?
Recebo algumas chamadas automatizadas todos os dias sobre minha empresa não estar registrada nos principais motores de busca por voz de IA. Parecem ser apenas empresas terceirizadas que fazem isso e não tenho certeza se o que fazem é legítimo.
Especificamente: cobrar um serviço de assinatura para “registrar” uma empresa na busca, ou auxiliar empresas a aparecerem na primeira página dos resultados de busca.
Eu interagi com algumas pessoas que acho que podem realmente ajudar com isso, algumas usando métodos legítimos. Elas parecem ser a exceção, na minha opinião.
Isso é importante de lembrar, especialmente nos dias de hoje, os golpistas estão se tornando mais sofisticados.
As ligações que recebo frequentemente dizem “sua listagem do Google foi sinalizada para revisão”, o que sugere que é o Google ligando, mas o Google nunca liga. Algumas empresas se autodenominam “empresa parceira do Google”, não tenho certeza do que isso significa, se é que isso existe.
Ouvi de um representante que existem cerca de/pelo menos 40 empresas diferentes que fazem isso, ligam para empresas iniciantes para registrá-las em plataformas de pesquisa por voz, o que explica tantas chamadas.