Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
No plans for this at the moment.
“Me, too”
We’d like to have attachments (in our case, PDF’s) indexed for the search engine, too.
This is very much an enterprise customer type feature. We don’t have concrete plans here with a timeline, I am uncertain what would happen to Postgres with huge PDF documents.
Certainly something we have thought about over the years and may get to over the next few years.
还没有,但在插件中构建它非常可行。
开发此类插件时:你会从哪里开始?对于 discourse 代码我完全是新手,我可能会尝试挂钩 UploadCreator,但这可能完全错误。
开发一个与 Paperless 集成的 Discourse 插件将是一个不错的开始。
如前所述,这样的插件至少会非常复杂。
像这样的插件需要 Discourse API 允许外部处理文档。目前有这个功能吗?
这个插件需要与 Discourse API 提供的搜索功能集成。虽然这并非易事,但已有几个现有插件完成了类似的工作,即 discourse/discourse-algolia 插件。
其他需要考虑的领域
这是我个人有兴趣尝试的。我已开始研究 Paperless API,并逆向工程 discourse/discourse-algolia 项目……但也有其他与搜索集成的项目。
关于选择 Paperless 有什么想法吗?我喜欢这个项目的活跃度以及他们已关闭的 issue 数量以及他们拥有的 issue 数量(目前为 0)。
这将是一个巨大的改进,特别是对于那些通过 PDF、扫描件或图像承载大量文档的论坛。如果此范围仅限于搜索,那么理想情况下,您只需提取/创建文本,然后将该文本存储在 PostgreSQL 的列中。完成此操作后,您就可以利用 PostgreSQL 中已有的全文搜索功能。
例如,在 Linux 中,您可以使用 pdftotext 从 PDF 中提取文本并将其存储在数据库中。另一个(更昂贵的)想法是使用 AI 视觉来解释/提取 PDF 或图像,以便存储在数据库中。
有什么想法吗?