Index File Contents for Search

ahuling · 07.Август.2015 18:37:32

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

codinghorror · 07.Август.2015 18:47:29

No plans for this at the moment.

DDo · 11.Июнь.2020 07:06:56

«Я тоже»
Мы также хотим, чтобы вложения (в нашем случае PDF-файлы) индексировались поисковой системой.

sam · 11.Июнь.2020 07:40:46

Это очень характерная функция для корпоративных клиентов. У нас пока нет конкретных планов с указанием сроков, и я не уверен, как Postgres будет работать с огромными PDF-документами.

Конечно, мы об этом думали на протяжении многих лет и, возможно, займемся этим в ближайшие несколько лет.

Craig_Robben · 17.Март.2022 20:58:02

Интересно, добавил ли Discourse возможность индексировать и искать по PDF-файлам?

sam · 17.Март.2022 23:16:56

Пока нет, но в плагине это вполне реализуемо.

avandorp · 29.Июнь.2022 07:51:49

При разработке такого плагина: с чего бы вы начали? Будучи полным новичком в коде Discourse, я, вероятно, попытался бы подключиться к UploadCreator, но это может быть совершенно неверно.

mjbergman92 · 16.Октябрь.2024 17:45:30

Разработка плагина для Discourse, интегрированного с Paperless, была бы хорошим началом.

Такой плагин, мягко говоря, потребует значительных усилий, как уже отмечалось выше.

Для создания подобного плагина необходимо, чтобы API Discourse поддерживал внешнюю обработку документов. Доступна ли такая функция на данный момент?

Этот плагин также потребует интеграции с возможностями поиска, предоставляемыми API Discourse. Хотя это непростая задача, она уже была реализована в нескольких существующих плагинах, например, в плагине discourse/discourse-algolia.

Другие аспекты, которые стоит учесть

Резервное копирование

Это то, на чем я лично хотел бы попробовать свои силы. Я начал с изучения API Paperless и реверс-инжиниринга проекта discourse/discourse-algolia… однако есть и другие плагины, интегрирующиеся с поиском.

Есть ли какие-либо мысли по поводу выбора Paperless? Мне нравится, насколько активен этот проект, и то, сколько задач в нём было закрыто, при этом текущее количество открытых задач равно нулю.

dennisjbr · 23.Сентябрь.2025 05:45:07

Это было бы ОГРОМНЫМ улучшением, особенно для тех форумов, где хранится много документации в формате PDF, сканов или изображений. Если задача ограничивается поиском, то в идеале нужно просто извлечь или создать текст, а затем сохранить его в отдельном столбце в PostgreSQL. После этого можно будет использовать уже встроенный полнотекстовый поиск PostgreSQL.

Например, в Linux можно использовать pdftotext для извлечения текста из PDF и сохранения его в базе данных. Другая идея (более дорогая) — использовать компьютерное зрение на базе ИИ для объяснения или извлечения содержимого PDF или изображения с последующим сохранением в БД.

Что думаете?

dennisjbr · 21.Апрель.2026 07:34:57

Итак, я изучаю этот вопрос и с помощью ИИ составляю макет, как лучше всего этого достичь. На ум приходит несколько идей. Использование Apache TIKA позволило бы нам выполнить OCR практически для любого текстового формата файла, включая изображения. Это был бы вариант с самостоятельным размещением. Или же: использовать Gemini Flash 1.5 (например), чтобы не только выполнять OCR, но и описывать просматриваемые и анализируемые изображения, а затем сохранять эти данные в таблице/столбце PostgreSQL для поиска. Конечно, это потребует значительных затрат токенов на начальном этапе для повторной обработки всех постов с вложениями/загрузками, но это было бы наиболее полезно. Похоже, получаешь то, за что платишь?

Тема		Ответов	Просм.
Index PDFs for search Support	1	388	07.10.2023
Searchable File Attachments Feature	12	2885	03.05.2022
Add support for searching pdf files in forum topics from AI personas Feature	3	138	12.12.2025
Browser-based PDF Viewer with search and highlighting capabilities Feature	9	2620	15.12.2020
Upload and discuss pdfs in composer Feature ai	5	297	24.02.2025

Index File Contents for Search

Связанные темы