Glean AIにおけるDiscourseコミュニティコンテンツのインデックス化

私たちの会社は最近、内部知識管理のためにGleanを導入しました。私たちはDiscourseコミュニティをインデックス化したいのですが、次のようなエラーメッセージが表示されるのに遭遇しています。

Gleanのウェブサイトクローラーコネクタの制限は以下の通りです:

  1. アクセス制限: クローラーは、厳格なアクセス制御や認証ウォールの背後にあるウェブサイトに対して、各種認証スキーム(例:基本認証、Bearer、NTLMv2)やクッキーをサポートしているにもかかわらず、十分にアクセスできないことがあります。
  2. ダイナミックコンテンツの制限: デフォルトでは、JavaScriptを必要とする動的にレンダリングされたウェブページはインデックスされません。これには、クライアントサイドレンダリング(CSR)を有効にするような特定の設定が必要です。これは追加の設定作業を必要とし、統合プロセスを複雑にする可能性があります。
  3. クロール頻度と負荷管理: Gleanは設定可能なクロール頻度を許可しますが、複数のインスタンスが同時に稼働している場合、サーバーへの負荷管理に課題が生じることがあります。適切に管理しないとパフォーマンスに影響を及ぼす可能性があります。
  4. URL管理: クローラーは正規表現を使用してURLを一致させます。これらの正規表現パターンを誤って設定すると、フェッチ失敗につながることがあります。さらに、ウェブサイトのルールに基づきrobots.txtファイルを尊重し、クロールを制限することもあります。
  5. コンテンツタイプの制限: クローラーは、特定のインタラクティブ要素や直接サポートされていないファイルのような特定のコンテンツタイプまたはフォーマットのインデックス化に制限がある場合があります(例:特定の非テキストフォーマット)。これにはカスタムソリューションの実装が必要となることもあります。

これらの制限は、Gleanのコネクタの機能を完全に活用し、ウェブベースの情報を効率的にキャプチャ・インデックス化したい組織にとって課題となる可能性があります。

AIプロバイダー(例:Glean)を使ってDiscourseをインデックス化した成功例はありますか?

これはAIの問題ではなく、クローラーの問題です。そして、私の知る限り、答えは「いいえ」であり、「はい」でもあります。カテゴリがすべての人に表示されている場合、スクレイピングされる可能性があります。Googlebotはそうやって機能しています。フォーラムがログインの後ろにある場合、またはカテゴリの可視性が信頼レベルによって制限されている場合、スクレイピングは不可能です。そして、それが最も重要なセキュリティ対策の1つであるため、それが決して破られないことを本当に願っています。

しかし、もちろん、次のような場合に、そのような「隠された」コンテンツをスクレイピングできます。

  • ボットがログインしてコンテンツを読み取ることができるシステムを取得した場合、または
  • Discourse AIを目的のモデル(または同様のシステム)に接続して、コンテンツを内部からインデックスする場合
「いいね!」 1

ユーザーエージェントをクローラーボットとして識別されるように設定すると、Discourseはよりインデックスしやすい基本的なHTMLビューをレンダリングします。

あるいは、彼らのユーザーエージェントを非表示のサイト設定crawler_user_agentsに追加してください。

「いいね!」 4

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.