机器人检查阻止了 Oneboxing

我在某个网站上看到了这个情况,而且是最近才出现的。当 Discourse 尝试从该网站抓取信息时,请求被拦截了。在之前的版本中,这本来是能正常工作的。

我附上了一张链接作为示例:

Bloomberg - 您是机器人吗?

这似乎是彭博社实施的速率限制。您恐怕别无他法,只能推测限制范围,并设法保持在限制之下。

你在这里到底想直接展示什么?这个网址相当奇怪。

彭博社新闻文章。如果您点击该链接,即可阅读该文章。

试试 "Onebox Assistant", crawl for those previews reliably!

据我所知,它对彭博社的链接也有效。

原始链接是什么?你上面粘贴的那个并不是文章,我怀疑那是你被重定向到的目标页面。

https://www.bloomberg.com/opinion/articles/2020-01-29/peer-review-is-science-s-wheel-of-misfortune

这是链接。

明白了,这是链接:

http://www.bloomberg.com/opinion/articles/2020-01-29/peer-review-is-science-s-wheel-of-misfortune

看来他们部署了相当激进的防爬取措施,毕竟我们只是在检查元数据头信息。

此外,这又是一个我们根本不应该进行单卡片预览的例子,因为我们既没有图片也没有描述,cc @techAPJ @sam。等下周该变更合并后,我们真的需要将其向后移植到稳定版。

我刚刚尝试了使用 Firefox(而非 Discourse Onebox)访问以 .html 结尾的链接(去掉所有尾部字符)。详细错误信息见下文。第一个链接(其下方附有错误信息)在此处用 <> 包裹。第二个链接未用 <> 包裹,并显示了 URL 的标题。
https://www.bloomberg.com/tosv2.html
Bloomberg - Are you a robot?


我们检测到您的计算机网络存在异常活动

要继续操作,请点击下方框以确认您不是机器人。

为什么会发生这种情况?

请确保您的浏览器支持 JavaScript 和 Cookie,且未阻止其加载。如需更多信息,请参阅我们的 服务条款Cookie 政策

需要帮助?

如需咨询与此消息相关的问题,请 联系我们的支持团队,并提供下方的参考 ID。

区块参考 ID:13215fd0-4285-11eb-8faf-b7e9262e99b2