私たちの会社は最近、内部知識管理のためにGleanを導入しました。私たちはDiscourseコミュニティをインデックス化したいのですが、次のようなエラーメッセージが表示されるのに遭遇しています。
Gleanのウェブサイトクローラーコネクタの制限は以下の通りです:
- アクセス制限: クローラーは、厳格なアクセス制御や認証ウォールの背後にあるウェブサイトに対して、各種認証スキーム(例:基本認証、Bearer、NTLMv2)やクッキーをサポートしているにもかかわらず、十分にアクセスできないことがあります。
- ダイナミックコンテンツの制限: デフォルトでは、JavaScriptを必要とする動的にレンダリングされたウェブページはインデックスされません。これには、クライアントサイドレンダリング(CSR)を有効にするような特定の設定が必要です。これは追加の設定作業を必要とし、統合プロセスを複雑にする可能性があります。
- クロール頻度と負荷管理: Gleanは設定可能なクロール頻度を許可しますが、複数のインスタンスが同時に稼働している場合、サーバーへの負荷管理に課題が生じることがあります。適切に管理しないとパフォーマンスに影響を及ぼす可能性があります。
- URL管理: クローラーは正規表現を使用してURLを一致させます。これらの正規表現パターンを誤って設定すると、フェッチ失敗につながることがあります。さらに、ウェブサイトのルールに基づき
robots.txtファイルを尊重し、クロールを制限することもあります。 - コンテンツタイプの制限: クローラーは、特定のインタラクティブ要素や直接サポートされていないファイルのような特定のコンテンツタイプまたはフォーマットのインデックス化に制限がある場合があります(例:特定の非テキストフォーマット)。これにはカスタムソリューションの実装が必要となることもあります。
これらの制限は、Gleanのコネクタの機能を完全に活用し、ウェブベースの情報を効率的にキャプチャ・インデックス化したい組織にとって課題となる可能性があります。
AIプロバイダー(例:Glean)を使ってDiscourseをインデックス化した成功例はありますか?