La nostra azienda ha recentemente iniziato a usare Glean per la gestione interna della conoscenza. Vorremmo indicizzare la nostra Community Discourse, ma sembriamo incontrare questo messaggio di errore:
e I limiti del connettore del crawler del sito web di Glean includono:i seguenti:
- Restrizioni di Accesso: Il crawler può avere difficoltà con i siti web che hanno politiche di accesso restrittive o sono protetti da pareti di autenticazione che non può superare efficacemente, nonostante supporti vari schemi di autenticazione (ad esempio Basic, Bearer, NTLMv2) e cookie.
- Limitazione del Contenuto Dinamico: Per impostazione predefinita, il crawler non indicizza le pagine web renderizzate dinamicamente che richiedono JavaScript a meno che non siano configurate specificamente (come abilitare il Rendering sul Lato Client (CSR)). Questo richiede azioni di configurazione aggiuntive che potrebbero complicare il processo di integrazione.
- Frequenza di Cattura e Gestione del Carico: Mentre Glean consente di configurare le frequenze di scansione, le organizzazioni possono incontrare sfide nel gestire il carico sui propri server, specialmente se più istanze sono attive simultaneamente. Ciò può portare a problemi di prestazioni se non viene orchestrato correttamente.
- Gestione degli URL: Il crawler utilizza espressioni regolari per abbinare gli URL; configurare queste regex in modo errato può portare a fallimenti nel recupero. Inoltre, deve rispettare i file
robots.txt, che possono limitare la sua scansione di alcune pagine in base alle regole del sito. - Limitazioni sui Tipi di Contenuto: Il crawler può avere limitazioni nell’indicizzazione di tipi di contenuto o formati specifici, come alcuni elementi interattivi o file che non sono supportati direttamente dal sistema (come formati non testuali specifici), a meno che non siano implementate soluzioni personalizzate.
e Questi limiti possono rappresentare delle sfide per le organizzazioni che desiderano sfruttare al massimo le capacità del connettore di Glean nel catturare e indicizzare efficientemente le informazioni basate su web.
Qualcuno ha già indicizzato con successo la propria comunità Discourse con un provider di intelligenza artificiale, come Glean?