Notre entreprise a récemment commencé à utiliser Glean pour la gestion interne des connaissances. Nous aimerions indexer notre communauté Discourse, mais il semble que nous rencontrons ce message d’erreur:
. Restrictions d’accès : Le crawler peut avoir du mal avec les sites web qui ont des politiques d’accès strictes ou sont protégés par des murs d’authentification qu’il ne peut pas franchir efficacement, malgré la prise en charge de divers schémas d’authentification (par ex., Basic, Bearer, NTLMv2) et cookies.
2. Limitations du contenu dynamique : Par défaut, le crawler n’indexe pas les pages web rendues dynamiquement requérant JavaScript, sauf si des configurations spécifiques (comme l’activation du rendu côté client (CSR)) sont définies. Cela nécessite des actions de configuration supplémentaires qui pourraient compliquer le processus d’intégration.
3. Fréquence d’exploration et gestion de la charge : Bien que Glean permette de configurer la fréquence d’exploration, les organisations peuvent rencontrer des défis pour gérer la charge sur leurs serveurs, surtout si plusieurs instances sont actives simultanément. Cela peut entraîner des problèmes de performance si ce n’est pas bien orchestré.
4. Gestion des URL : Le crawler utilise des expressions régulières pour faire correspondre les URL ; une mauvaise configuration de ces motifs regex peut entraîner des échecs de récupération. De plus, il doit respecter les fichiers robots.txt, qui peuvent limiter son exploration de certaines pages selon les règles du site web.
5. Limitations du type de contenu : Le crawler peut avoir des limitations pour indexer certains types ou formats de contenu, tels que certains éléments interactifs ou fichiers qui ne sont pas directement pris en charge par le système (par ex., certains formats non tekstuels), sauf si des solutions personnalisées sont mises en œuvre.
. These limitations can pose challenges for organizations looking to fully leverage the capabilities of Glean’s connector in capturing and indexing web-based information efficiently.
Quelqu’un a-t-il réussi à indexer leur Discourse avec un fournisseur d’IA, comme Glean?