Discourse AI - AI search

Discourse · 16.Октябрь.2023 16:55:51

Это руководство объясняет, как включить и настроить функцию поиска на базе ИИ, которая является частью плагина Discourse AI.

Требуемый уровень пользователя: Администратор

Подобно Связанным темам, поиск на базе ИИ помогает находить наиболее релевантные темы, используя семантическое сходство текстов, выходящее за рамки точного совпадения ключевых слов, характерного для традиционного поиска. Это позволяет обнаруживать темы, которые не являются точными совпадениями, но всё же релевантны первоначальному запросу. Если вы не можете найти то, что ищете, поиск на базе ИИ придёт на помощь!

Возможности

Семантическое сходство текстов: выход за рамки простого совпадения ключевых слов и использование семантического анализа для поиска текстового сходства
Быстрый поиск с ИИ: автоматически добавляет результаты ИИ во всплывающее меню поиска, когда найдено мало обычных результатов (включается параметром ai_embeddings_semantic_quick_search_enabled)
Возможность включения/выключения поиска на базе ИИ в полном поиске по странице
Опциональная поддержка HyDE (Hypothetical Document Embeddings): использует большую языковую модель (LLM) для расширения запросов с целью улучшения результатов
Результаты обозначаются значком
Применяется как для анонимных, так и для авторизованных пользователей

Включение поиска на базе ИИ

Предварительные требования

Для использования поиска на базе ИИ необходимо настроить векторные представления (Embeddings). Большая языковая модель (LLM) требуется опционально, если вы включаете HyDE (Hypothetical Document Embeddings) для повышения качества поиска.

Векторные представления (Embeddings)

Если вы используете наш хостинг, мы предоставим вариант по умолчанию. Для самостоятельного хостинга следуйте руководству по Discourse AI - Embeddings.

Большая языковая модель (LLM) (опционально — для HyDE)

LLM требуется только в том случае, если вы включаете параметр ai_embeddings_semantic_search_use_hyde, который использует LLM для создания гипотетического документа на основе поискового запроса перед его векторизацией. Это может улучшить качество результатов, но добавит задержку и затраты.

Для начала вы можете настроить их на странице настроек большой языковой модели (LLM) в Discourse AI.

OpenAI
Anthropic
Azure OpenAI
AWS Bedrock с доступом к Anthropic
Самостоятельный хостинг открытой LLM для DiscourseAI
Google Gemini

Настройка

Перейдите в Администрирование → Плагины → Discourse AI → Возможности → Векторные представления (Embeddings), чтобы найти все настройки поиска на базе ИИ.
Включите ai_embeddings_enabled для векторных представлений.
Включите ai_embeddings_semantic_search_enabled, чтобы активировать поиск на базе ИИ в полном поиске по странице.
Опционально включите ai_embeddings_semantic_quick_search_enabled, чтобы добавить результаты ИИ во всплывающее меню поиска.
Опционально включите ai_embeddings_semantic_search_use_hyde, чтобы использовать HyDE для улучшения результатов (требуется LLM).

Технический FAQ

Развернуть схему логики поиска на базе ИИ (с включённым HyDE)

mermaid height=255,auto
sequenceDiagram
    User->>+Discourse: Поиск "геймификация" 
    Discourse->>+LLM: Создать статью о "геймификации" на форуме о<br>  "Discourse, системе открытых интернет-форумов с открытым исходным кодом."
    LLM->>+Discourse: Геймификация включает применение элементов игрового дизайна, таких как<br> очки, значки, уровни и таблицы лидеров, в неигровых контекстах...
    Discourse->>+EmbeddingsAPI: Сгенерировать векторные представления для "Геймификация включает применение элементов игрового дизайна..."
    EmbeddingsAPI->>+Discourse: [0.123, -0.321...]
    Discourse->>+PostgreSQL: Дайте мне ближайшие темы для [0.123, -0.321...]
    PostgreSQL->>+Discourse: Темы: [1, 5, 10, 50]
    Discourse->>+User: Темы: [1, 5, 10, 50]

Как работает поиск на базе ИИ?

Когда HyDE включён (ai_embeddings_semantic_search_use_hyde), поисковый запрос обрабатывается LLM, которая создаёт гипотетическую тему/пост. Затем из этого гипотетического поста генерируются векторные представления, которые используются для поиска похожих совпадений на вашем сайте. Когда HyDE отключён (по умолчанию), поисковый запрос векторизируется напрямую и используется для поиска сходства. В обоих случаях результаты объединяются с обычными результатами поиска с помощью метода Reciprocal Rank Fusion (RRF) для повторного ранжирования лучших результатов.

Как обрабатываются данные тем/постов?

Когда HyDE включён, данные, обработанные LLM, обрабатываются сторонним провайдером; пожалуйста, обратитесь к вашему конкретному провайдеру за подробностями. По умолчанию микросервис Embeddings работает на тех же серверах, что и серверы, размещающие ваши существующие форумы. Здесь не задействованы третьи стороны, и эта конкретная информация никогда не покидает вашу внутреннюю сеть в нашем виртуальном частном дата-центре.

Куда уходят данные?

Когда HyDE включён, гипотетическая тема/пост, созданная провайдером LLM, временно кэшируется вместе с векторными представлениями для этого документа. Данные векторных представлений хранятся в той же базе данных, где мы храним ваши темы, посты и пользователей; это просто ещё одна таблица данных там.

Как выглядит «семантическая модель» векторных представлений? Как она «обучалась», и можно ли проверить, что она точно применима к темам в наших «специализированных» сообществах?

По умолчанию мы используем предварительно обученные модели с открытым исходным кодом, например эту. Мы развернули их для множества клиентов и обнаружили, что они хорошо работают как для нишевых, так и для общих сообществ. Если производительности недостаточно для вашего случая использования, у нас есть более сложные модели, готовые к работе, но, по нашему опыту, вариант по умолчанию является надёжным выбором.

RBoy · 13.Февраль.2024 16:36:17

I noticed a minor UI bug for ai embeddings semantic search hyde model. Steps to replicate

Install AI Discourse plugin
Open settings → Configure Gemini key
Enable i embeddings semantic search enabled
ai embeddings semantic search hyde model shows Google - gemini-pro (not configured)

The not configured doesn’t go away until after all the configurations are enabled and the page is refreshed thereafter.

Saif · 16.Февраль.2024 23:25:20

I think this is a limitation of our site settings page so apologies for that and glad you were able to get it sorted out

RBoy · 29.Февраль.2024 07:39:07

A question about semantics. In some AI modules I see a reference to using Gemini while in others I see a reference to Gemini-Pro. Are these referring to different models (Gemini Nano, Pro and Ultra) or do they refer to the same LLM? If so then what does Gemini itself refer to and does it matter if one has a paid or a free subscription to Gemini?

Saif · 29.Февраль.2024 19:01:42

There are different Gemini models such as the ones you’ve pointed out. Depending on the one you have (likely to pro since its free right now) you would just plugin the API key in the relevant setting. The setting is for whatever Gemini model you have

This would depend on you and how you want to use Gemini, but either should work

Тема		Ответов	Просм.
Conversational AI Search coming to Discourse AI Feature ai-search , ai	15	958	16.12.2025
Hiding XX results found using AI - enable toggle by default Feature ai , ai-search	7	181	25.10.2025
Use Semantic Search for related topics Support ai	3	77	10.10.2024
Discourse AI - Embeddings Site Management ai , ai-search , related-topics	24	6400	15.10.2025
API access to the embedding(s) for a post Feature completed	4	492	15.09.2024