在另一个帖子中听到 @simon 提到有一个设置可以阻止/销毁爬虫,我找不到这个设置,如何操作?有人知道它在哪里以及它是如何工作的吗?
7 月 14 日,我的网站出现了 48 个爬虫的不寻常高峰,我不喜欢这些小东西,它们在做什么?
在另一个帖子中听到 @simon 提到有一个设置可以阻止/销毁爬虫,我找不到这个设置,如何操作?有人知道它在哪里以及它是如何工作的吗?
7 月 14 日,我的网站出现了 48 个爬虫的不寻常高峰,我不喜欢这些小东西,它们在做什么?
在网站设置中搜索“crawler”。您可以按用户代理阻止或减慢其速度。
至少有些会索引您的网站,以便它出现在搜索引擎中。您可能喜欢这样。
谢谢,现在找到了,我看到默认阻止了五个爬虫名称,我猜它们是已知的有问题爬虫。
看起来有一个选项可以使用允许列表来处理好的爬虫,如果使用该选项,它将自动拒绝所有其他“电子虫”的访问,我不知道哪些是好的?
找到了网络爬虫用户代理报告,排名前两位的是“YandexBox/3.0”和“CensysInspect/1.1”
对于客户需要的搜索引挚,能够出现在上面会很好。
我接到了很多来自营销公司的电话,它们提供订阅服务来帮助处理这些问题和网站建设,这可能不错,但所有这些关于网站建设的电话有点烦人。
值得注意的是,用户代理完全可以被伪造。如果是 Google,你几乎可以肯定它会显示出来。但仅仅因为它显示是 Google,这并不意味着什么。
(与 robots.txt 的情况相同,这些机制都假定存在信任。不可信方可以自行制定规则。)
狡猾的机器人伪装得比黄鼠狼更糟:
https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html
“# 如何检查机器人是否属于 Yandex
某些机器人可以通过指示相关的用户代理来伪装成 Yandex 机器人。您可以使用反向 DNS 查询来检查机器人的真实性。
只需按照以下步骤操作:
使用服务器日志确定相关用户代理的 IP 地址。
对 IP 地址进行反向 DNS 查询,以确定主机域名。
检查主机是否属于 Yandex。所有 Yandex 机器人名称都以 yandex.ru、yandex.net 或 yandex.com 结尾。如果主机名称以其他结尾,则该机器人不属于 Yandex。
确保名称正确。使用正向 DNS 查询获取与主机名称对应的 IP 地址。它应与反向 DNS 查询中使用的 IP 地址匹配。如果 IP 地址不匹配,则表示主机名称是伪造的。”
这里还有一个您可以参考的指南:
您是否知道像这样的网络爬虫是否会为语音搜索系统建立索引?
我每天都会接到几个关于我的公司未在主要的 a.i. 语音搜索引擎中注册的自动电话,这似乎只是第三方公司所为,我不确定他们所做的事情是否合法。
特别是:收取订阅服务费以在搜索中“注册”公司,或帮助公司出现在搜索结果的第一页。
我不知道。我对此表示怀疑。
我曾与一些我认为能够真正帮助解决此问题的人打过交道,其中一些人使用了合法的方法。依我估计,他们是例外。
我也不了解语音搜索,甚至不一定希望我的公司被语音搜索索引。
这一点尤其重要,要牢记在心,如今骗子越来越狡猾。
我接到的电话经常说“您的谷歌列表已被标记待审核”,这听起来像是谷歌打来的,但谷歌从不打电话。有些公司自称为“谷歌合作伙伴公司”,我不知道那是什么意思,是不是真的存在。
一位代表说,大约/至少有 40 家公司从事这项业务,他们打电话给初创公司,在语音搜索平台上注册它们,这解释了为什么有这么多电话。
This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.