Индексация контента сообщества в Glean AI

Наша компания недавно начала использовать Glean для управления внутренними знаниями. Мы хотим проиндексировать наше сообщество на базе Discourse, но, похоже, столкнулись с этой ошибкой:

Ограничения коннектора веб-краулера Glean включают следующее:

  1. Ограничения доступа: Краулер может испытывать трудности с веб-сайтами, имеющими строгие политики доступа или находящимися за аутентификационными барьерами, которые он не может эффективно преодолеть, несмотря на поддержку различных схем аутентификации (например, Basic, Bearer, NTLMv2) и cookies.
  2. Ограничения динамического контента: По умолчанию краулер не индексирует динамически отрисованные веб-страницы, требующие JavaScript, если не выполнены специальные конфигурации (например, включение клиентского рендеринга (CSR)). Это требует дополнительных действий по настройке, которые могут усложнить процесс интеграции.
  3. Частота обхода и управление нагрузкой: Хотя Glean позволяет настраивать частоту обхода, организации могут столкнуться с проблемами управления нагрузкой на свои серверы, особенно если одновременно активны несколько экземпляров. Это может привести к проблемам с производительностью при отсутствии правильной координации.
  4. Управление URL: Краулер использует регулярные выражения для сопоставления URL; некорректная настройка этих шаблонов regex может привести к сбоям при получении данных. Кроме того, он должен соблюдать файлы robots.txt, которые могут ограничивать обход определенных страниц в соответствии с правилами веб-сайта.
  5. Ограничения типов контента: Краулер может иметь ограничения при индексации определенных типов или форматов контента, таких как некоторые интерактивные элементы или файлы, не поддерживаемые системой напрямую (например, определенные не текстовые форматы), если не реализованы кастомные решения.

Эти ограничения могут создать проблемы для организаций, стремящихся полностью использовать возможности коннектора Glean для эффективного захвата и индексации информации из веб-источников.

Кто-либо успешно индексировал свое сообщество Discourse с помощью провайдера ИИ, такого как Glean?

Дело не в ИИ, а в краулерах. Насколько мне известно, ответ — и да, и нет. Если категория доступна для «всех», её можно скрапить. Именно так работает Googlebot. Если форум закрыт входом по паролю или доступ к категории ограничен уровнями доверия, скрапинг невозможен. И я очень надеюсь, что это никогда не будет нарушено, поскольку это одна из важнейших мер безопасности.

Однако, конечно, вы можете скрапить такое «скрытое» содержимое, если:

  • у вас есть система, где бот может войти в систему и читать содержимое, или
  • вы проиндексируете содержимое изнутри, используя Discourse AI, подключенный к нужной модели (или аналогичную систему).

Если вы установите их user agent как бота-краулера, Discourse отобразит базовый HTML-вид, который гораздо проще индексировать.

Или добавьте их user agent в скрытую настройку сайта crawler_user_agents.