Unser Unternehmen hat kürzlich begonnen, Glean für das interne Wissensmanagement zu verwenden. Wir möchten unsere Discourse Community indexieren, stoßen jedoch auf diese Fehlermeldung:
Die Beschränkungen des Glean-Webseiten-Crawler-Connectors umfassen Folgendes:
- Zugriffsbeschränkungen: Der Crawler kann Schwierigkeiten mit Websites haben, die strikte Zugriffspolitiken oder Authentifizierungswände besitzen, die er nicht effektiv durchbrechen kann, obwohl verschiedene Authentifizierungsschemata (z. B. Basic, Bearer, NTLMv2) und Cookies unterstützt werden.
- Einschränkung dynamischer Inhalte: Standardmäßig indexiert der Crawler keine dynamisch gerenderten Webseiten, die JavaScript erfordern, es sei denn, spezifische Konfigurationen (wie das Aktivieren von Client-Side Rendering (CSR)) sind eingestellt. Dies erfordert zusätzliche Einrichtungsschritte, die den Integrationsprozess erschweren können.
- Crawlerfrequenz und Lastmanagement: Obwohl Glean eine konfigurierbare Crawling-Frequenz ermöglicht, können Organisationen Schwierigkeiten haben, die Last auf ihren Servern zu verwalten, insbesondere wenn mehrere Instanzen gleichzeitig aktiv sind. Dies kann zu Leistungsproblemen führen, wenn es nicht richtig orchestriert wird.
- URL-Verwaltung: Der Crawler verwendet reguläre Ausdrücke, um URLs zuzuordnen; eine falsche Konfiguration dieser Regex-Muster kann zu Fehlern beim Abruf führen. Außerdem muss er die
robots.txt-Dateien respektieren, die seine Durchsuchung bestimmter Seiten basierend auf den Regeln der Website einschränken können. - Beschränkungen beim Inhaltstyp: Der Crawler kann Einschränkungen beim Indexieren bestimmter Inhaltstypen oder Formate haben, wie z. B. bestimmte interaktive Elemente oder Dateien, die vom System nicht direkt unterstützt werden (z. B. bestimmte nicht-textuelle Formate), es sei denn, es werden benutzerdefinierte Lösungen implementiert.
Diese Beschränkungen können Herausforderungen darstellen für Organisationen, die die Fähigkeiten des Glean-Connectors vollständig nutzen möchten, um webbasierte Informationen effizient zu erfassen und zu indexieren.
Hat schon jemand erfolgreich seine Discourse mit einem KI-Anbieter wie Glean indexiert?