在Glean AI中对话语社区内容进行索引

Justin_Gonzalez · 2025 年4 月 24 日 17:53

我们的公司最近开始使用 Glean 进行内部知识管理。我们希望对我们的 Discourse 社区进行索引，但似乎遇到了如下的错误信息：

Glean 的网站爬虫连接器的限制包括以下内容：

访问限制：爬虫可能在访问具有严格访问策略或在认证墙后的网站时遇到困难，尽管它支持各种身份验证方案（如 Basic、Bearer、NTLMv2）和 cookies。
动态内容限制：默认情况下，爬虫不索引需要 JavaScript 渲染的动态网页，除非配置了特定设置（如启用客户端渲染（CSR））。这需要额外的设置，可能会使集成变得复杂。
爬取频率与负载管理：虽然 Glean 允许配置爬取频率，但组织在管理服务器负载时可能面临挑战，特别是在多个实例同时运行时。这可能导致性能问题，如果没有正确调度。
URL 管理：爬虫使用正则表达式匹配 URL，配置不当可能导致抓取失败。此外，它必须遵守 robots.txt 文件的规则，这可能限制其爬取某些页面。
内容类型限制：爬虫可能在索引特定内容类型或格式（如某些交互元素或不直接支持的文件，例如非文本格式）方面存在限制，除非实现了自定义解决方案。

这些限制可能会为希望充分利用 Glean 连接器捕获与索引基于网页的信息的组织带来挑战。

有人成功用 AI 提供商（如 Glean）索引过他们的 Discourse 吗？

Jagster · 2025 年4 月 24 日 18:08

这不是关于人工智能的问题，而是关于爬虫的问题。据我所知，答案是否定的，也是肯定的。如果一个分类对于“每个人”都是可见的，它是可以被抓取的。Googlebot的工作方式就是如此。如果一个论坛在登录后才能访问，或者某个分类的可见性受到信任等级的限制，那么爬取就是不可能的。我真的希望这一点永远不要被突破，因为这是一项非常重要的安全措施。

当然，你可以爬取这种“隐藏”的内容，如果

你有一个系统，机器人可以登录并读取内容，或者
你可以使用连接到所需模型的Discourse AI，从内部索引内容（或类似系统）

Falco · 2025 年4 月 24 日 18:08

如果你将他们的用户代理设置为被识别为爬虫机器人，Discourse 将渲染一个基本的 HTML 视图，这更容易被索引。

或者，将他们的用户代理添加到隐藏的站点设置 crawler_user_agents 中。

话题		回复	浏览量
Discourse is Agent Ready: Here’s How Blog	9	630	2026 年5 月 24 日
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2371	2023 年10 月 18 日
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5787	2024 年6 月 1 日
How public Discourse sites are indexed by search engines like Google Site Management reference	0	12884	2013 年2 月 6 日
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	279	2024 年12 月 18 日

在Glean AI中对话语社区内容进行索引

相关话题