网络爬虫

在另一个帖子中听到 @simon 提到有一个设置可以阻止/销毁爬虫,我找不到这个设置,如何操作?有人知道它在哪里以及它是如何工作的吗?

7 月 14 日,我的网站出现了 48 个爬虫的不寻常高峰,我不喜欢这些小东西,它们在做什么?

在网站设置中搜索“crawler”。您可以按用户代理阻止或减慢其速度。

至少有些会索引您的网站,以便它出现在搜索引擎中。您可能喜欢这样。

9 个赞

另外,请查看“Web Crawler User Agents”报告,以获取导致问题的爬虫的名称:

6 个赞

谢谢,现在找到了,我看到默认阻止了五个爬虫名称,我猜它们是已知的有问题爬虫。

看起来有一个选项可以使用允许列表来处理好的爬虫,如果使用该选项,它将自动拒绝所有其他“电子虫”的访问,我不知道哪些是好的?

找到了网络爬虫用户代理报告,排名前两位的是“YandexBox/3.0”和“CensysInspect/1.1”

对于客户需要的搜索引挚,能够出现在上面会很好。

我接到了很多来自营销公司的电话,它们提供订阅服务来帮助处理这些问题和网站建设,这可能不错,但所有这些关于网站建设的电话有点烦人。

值得注意的是,用户代理完全可以被伪造。如果是 Google,你几乎可以肯定它会显示出来。但仅仅因为它显示是 Google,这并不意味着什么。

(与 robots.txt 的情况相同,这些机制都假定存在信任。不可信方可以自行制定规则。)

2 个赞

狡猾的机器人伪装得比黄鼠狼更糟:

https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html

“# 如何检查机器人是否属于 Yandex

某些机器人可以通过指示相关的用户代理来伪装成 Yandex 机器人。您可以使用反向 DNS 查询来检查机器人的真实性。

只需按照以下步骤操作:

  1. 使用服务器日志确定相关用户代理的 IP 地址。

  2. 对 IP 地址进行反向 DNS 查询,以确定主机域名。

  3. 检查主机是否属于 Yandex。所有 Yandex 机器人名称都以 yandex.ruyandex.netyandex.com 结尾。如果主机名称以其他结尾,则该机器人不属于 Yandex。

  4. 确保名称正确。使用正向 DNS 查询获取与主机名称对应的 IP 地址。它应与反向 DNS 查询中使用的 IP 地址匹配。如果 IP 地址不匹配,则表示主机名称是伪造的。”

这里还有一个您可以参考的指南:

2 个赞

您是否知道像这样的网络爬虫是否会为语音搜索系统建立索引?

我每天都会接到几个关于我的公司未在主要的 a.i. 语音搜索引擎中注册的自动电话,这似乎只是第三方公司所为,我不确定他们所做的事情是否合法。

特别是:收取订阅服务费以在搜索中“注册”公司,或帮助公司出现在搜索结果的第一页。

我不知道。我对此表示怀疑。

我曾与一些我认为能够真正帮助解决此问题的人打过交道,其中一些人使用了合法的方法。依我估计,他们是例外。

1 个赞

我也不了解语音搜索,甚至不一定希望我的公司被语音搜索索引。

这一点尤其重要,要牢记在心,如今骗子越来越狡猾。

我接到的电话经常说“您的谷歌列表已被标记待审核”,这听起来像是谷歌打来的,但谷歌从不打电话。有些公司自称为“谷歌合作伙伴公司”,我不知道那是什么意思,是不是真的存在。

1 个赞

一位代表说,大约/至少有 40 家公司从事这项业务,他们打电话给初创公司,在语音搜索平台上注册它们,这解释了为什么有这么多电话。

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.