我们的公司最近开始使用 Glean 进行内部知识管理。我们希望对我们的 Discourse 社区进行索引,但似乎遇到了如下的错误信息:
Glean 的网站爬虫连接器的限制包括以下内容:
- 访问限制:爬虫可能在访问具有严格访问策略或在认证墙后的网站时遇到困难,尽管它支持各种身份验证方案(如 Basic、Bearer、NTLMv2)和 cookies。
- 动态内容限制:默认情况下,爬虫不索引需要 JavaScript 渲染的动态网页,除非配置了特定设置(如启用客户端渲染(CSR))。这需要额外的设置,可能会使集成变得复杂。
- 爬取频率与负载管理:虽然 Glean 允许配置爬取频率,但组织在管理服务器负载时可能面临挑战,特别是在多个实例同时运行时。这可能导致性能问题,如果没有正确调度。
- URL 管理:爬虫使用正则表达式匹配 URL,配置不当可能导致抓取失败。此外,它必须遵守
robots.txt文件的规则,这可能限制其爬取某些页面。 - 内容类型限制:爬虫可能在索引特定内容类型或格式(如某些交互元素或不直接支持的文件,例如非文本格式)方面存在限制,除非实现了自定义解决方案。
这些限制可能会为希望充分利用 Glean 连接器捕获与索引基于网页的信息的组织带来挑战。
有人成功用 AI 提供商(如 Glean)索引过他们的 Discourse 吗?