在Glean AI中对话语社区内容进行索引

我们的公司最近开始使用 Glean 进行内部知识管理。我们希望对我们的 Discourse 社区进行索引,但似乎遇到了如下的错误信息:

 Glean 的网站爬虫连接器的限制包括以下内容:

  1. 访问限制:爬虫可能在访问具有严格访问策略或在认证墙后的网站时遇到困难,尽管它支持各种身份验证方案(如 Basic、Bearer、NTLMv2)和 cookies。
  2. 动态内容限制:默认情况下,爬虫不索引需要 JavaScript 渲染的动态网页,除非配置了特定设置(如启用客户端渲染(CSR))。这需要额外的设置,可能会使集成变得复杂。
  3. 爬取频率与负载管理:虽然 Glean 允许配置爬取频率,但组织在管理服务器负载时可能面临挑战,特别是在多个实例同时运行时。这可能导致性能问题,如果没有正确调度。
  4. URL 管理:爬虫使用正则表达式匹配 URL,配置不当可能导致抓取失败。此外,它必须遵守 robots.txt 文件的规则,这可能限制其爬取某些页面。
  5. 内容类型限制:爬虫可能在索引特定内容类型或格式(如某些交互元素或不直接支持的文件,例如非文本格式)方面存在限制,除非实现了自定义解决方案。

 这些限制可能会为希望充分利用 Glean 连接器捕获与索引基于网页的信息的组织带来挑战。

有人成功用 AI 提供商(如 Glean)索引过他们的 Discourse 吗?

这不是关于人工智能的问题,而是关于爬虫的问题。据我所知,答案是否定的,也是肯定的。如果一个分类对于“每个人”都是可见的,它是可以被抓取的。Googlebot的工作方式就是如此。如果一个论坛在登录后才能访问,或者某个分类的可见性受到信任等级的限制,那么爬取就是不可能的。我真的希望这一点永远不要被突破,因为这是一项非常重要的安全措施。

当然,你可以爬取这种“隐藏”的内容,如果

  • 你有一个系统,机器人可以登录并读取内容,或者
  • 你可以使用连接到所需模型的Discourse AI,从内部索引内容(或类似系统)
1 个赞

如果你将他们的用户代理设置为被识别为爬虫机器人,Discourse 将渲染一个基本的 HTML 视图,这更容易被索引。

或者,将他们的用户代理添加到隐藏的站点设置 crawler_user_agents 中。

4 个赞

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.