Добавлена поддержка поиска PDF-файлов в темах форума от AI personas

Текущие ограничения:
• Семантический поиск по форуму индексирует только текст сообщений, но не вложения в формате PDF
• Файлы PDF не доступны для поиска через переключатель ИИ /search
• Чтобы обойти это, мне пришлось вручную загружать PDF-файлы отдельно в персональный RAG

Предлагаемое решение:
• Извлекать текст из вложений PDF при генерации эмбеддингов
• Индексировать содержимое PDF вместе с текстом сообщений
• Сделать темы с вложениями PDF доступными для поиска через семантический поиск

Преимущества:
• Пользователи смогут находить техническую документацию через поиск по форуму
• Отпадает необходимость дублировать контент (сообщение на форуме + загрузка в RAG)
• Улучшение SEO (PDF, прикрепленные к проиндексированным темам)
• Упрощение архитектуры (команда поиска работает автоматически)

Если бы это было реализовано, я мог бы:

  1. Убрать принудительные инструменты (поиск сам находил бы содержимое PDF)
  2. Полностью отказаться от загрузок в RAG (всё будет в темах форума)
  3. Значительно упростить систему
1 лайк

Здесь есть похожая тема об индексации файлов для #ai-search: Index File Contents for Search

2 лайка

Я думаю, что плагин мог бы добавлять текст к опубликованному сообщению в необязательно скрытый элемент details. Это обеспечило бы его обнаружение, на мой взгляд. Если у вас самохостинг, я думаю, разработка такого решения обошлась бы всего в несколько сотен долларов. Или, если звучит так, будто они заинтересованы, можно отправить pull request примерно за вдвое большую сумму (чтобы включить тесты и прочее).

К сведению — я обнаружил, что загрузка PDF-файлов в персонаж препятствует поиску «обычного» контента форума в поиске с поддержкой ИИ. Поэтому я перешёл к комбинации следующих подходов: (a) конвертация ключевых файлов в Markdown (чтобы я мог публиковать их напрямую как темы) или (b) извлечение основных ключевых слов и оглавления и публикация их вместе с PDF-файлами на форуме. Также мне пришлось переключиться с GPT 4.1 на Sonnet 4.5 и отключить HYDE, чтобы обеспечить надёжность работы.