Indexierung von Diskursgemeinschaft-Inhalten in Glean AI

Unser Unternehmen hat kürzlich begonnen, Glean für das interne Wissensmanagement zu verwenden. Wir möchten unsere Discourse Community indexieren, stoßen jedoch auf diese Fehlermeldung:

Die Beschränkungen des Glean-Webseiten-Crawler-Connectors umfassen Folgendes:

  1. Zugriffsbeschränkungen: Der Crawler kann Schwierigkeiten mit Websites haben, die strikte Zugriffspolitiken oder Authentifizierungswände besitzen, die er nicht effektiv durchbrechen kann, obwohl verschiedene Authentifizierungsschemata (z. B. Basic, Bearer, NTLMv2) und Cookies unterstützt werden.
  2. Einschränkung dynamischer Inhalte: Standardmäßig indexiert der Crawler keine dynamisch gerenderten Webseiten, die JavaScript erfordern, es sei denn, spezifische Konfigurationen (wie das Aktivieren von Client-Side Rendering (CSR)) sind eingestellt. Dies erfordert zusätzliche Einrichtungsschritte, die den Integrationsprozess erschweren können.
  3. Crawlerfrequenz und Lastmanagement: Obwohl Glean eine konfigurierbare Crawling-Frequenz ermöglicht, können Organisationen Schwierigkeiten haben, die Last auf ihren Servern zu verwalten, insbesondere wenn mehrere Instanzen gleichzeitig aktiv sind. Dies kann zu Leistungsproblemen führen, wenn es nicht richtig orchestriert wird.
  4. URL-Verwaltung: Der Crawler verwendet reguläre Ausdrücke, um URLs zuzuordnen; eine falsche Konfiguration dieser Regex-Muster kann zu Fehlern beim Abruf führen. Außerdem muss er die robots.txt-Dateien respektieren, die seine Durchsuchung bestimmter Seiten basierend auf den Regeln der Website einschränken können.
  5. Beschränkungen beim Inhaltstyp: Der Crawler kann Einschränkungen beim Indexieren bestimmter Inhaltstypen oder Formate haben, wie z. B. bestimmte interaktive Elemente oder Dateien, die vom System nicht direkt unterstützt werden (z. B. bestimmte nicht-textuelle Formate), es sei denn, es werden benutzerdefinierte Lösungen implementiert.

Diese Beschränkungen können Herausforderungen darstellen für Organisationen, die die Fähigkeiten des Glean-Connectors vollständig nutzen möchten, um webbasierte Informationen effizient zu erfassen und zu indexieren.

Hat schon jemand erfolgreich seine Discourse mit einem KI-Anbieter wie Glean indexiert?

Es geht nicht um KI, sondern um Crawler. Und Soweit ich weiß, lautet die Antwort nein und ja. Wenn eine Kategorie für jeden sichtbar ist, kann sie gesammelt werden. So funktioniert googlebot. Wenn sich ein Forum hinter einer Anmeldung befindet oder die Sichtbarkeit einer Kategorie durch Vertrauensebenen eingeschränkt ist, ist das Scrapen unmöglich. Und ich hoffe wirklich, dass das nie gebrochen wird, weil es eine der wichtigsten Sicherheitsmaßnahmen ist.

Aber natürlich kannst du solche „versteckten“ Inhalte scrapen, wenn

  • du ein System hast, bei dem ein Bot sich anmelden und Inhalte lesen kann, oder
  • du den Inhalt von innen mit Discourse AI, verbunden mit dem gewünschten Modell (oder einem ähnlichen System), indexierst
1 „Gefällt mir“

Wenn Sie deren User-Agent so einstellen, dass er als Crawler-Bot erkannt wird, rendert Discourse eine grundlegende HTML-Ansicht, die viel einfacher zu indexieren ist.

Alternativ können Sie deren User-Agent zur versteckten Seiteneinstellung crawler_user_agents hinzufügen.

4 „Gefällt mir“

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.