Разрешить ChatBot читать PDF-файлы, чтобы он мог участвовать в групповом обсуждении

Для тех, у кого есть доступ к инструментам, позволяющим общаться с PDF-файлами, было бы здорово, если бы бот Discourse AI мог тоже читать PDF и присоединяться к обсуждению.


Сейчас академическое сообщество просто в восторге от этого, но я не знаю способа, чтобы группа пользователей могла вместе с ботом обсудить статью(и). Насколько я знаю, можно общаться с ботом, прочитавшим статью, только в одиночку. Уверен, групповые чаты по статьям существуют, но и в Discourse такая функция должна быть.

Представьте себе книжный клуб, куда пригласили бота, а обсуждение ведётся об одной или нескольких статьях (PDF).



Если кому-то придёт в голову блестящая идея :star2:, что Discourse + плагины для AI-моделей (ссылка) = :moneybag:, надеюсь, вы прочтёте об этом здесь впервые.

По мере создания всё новых и новых плагинов и ботов можно будет в конечном итоге собрать гаражную группу :guitar:, провести виртуальную встречу программистов :desktop_computer: и так далее.



3 лайка

Что касается Discourse Chatbot 🤖, то приветствуются pull-запросы.

Любой желающий может связаться со мной, если хочет спонсировать эту работу.

Созданная мной фреймворк легко расширяется, и добавление возможности чтения PDF-файлов стало бы отличным дополнением. :+1:

3 лайка

Для такой работы понадобятся отдельные персоны. Я считаю, что это вполне реализуемо: вы разбиваете текст на части, создаете эмбеддинги, а затем можете обсуждать с ним содержимое. Но я не уверен, что стоит смешивать это с «Помощником форума»… Возможно, лучше создать персону «Исследователь документов».

Очень интересный вариант использования, и учитывая, что у нас уже есть значительная часть инфраструктуры для загрузки документов и т.д., создание такого функционала не составит большого труда.

3 лайка

Это извлечение текста из файла и его внедрение в промпт? Если так, звучит как интересная функция.

Прежде всего, я не создавал ни одного из этих инструментов, поэтому могу лишь предполагать.

Да.

Некоторые плагины ChatGPT, которые я пробовал, читают весь PDF-файл целиком, однако многие из них извлекают только текст, так как извлечение данных из математических выражений и графиков выходит за рамки их возможностей. Это связано с тем, что PDF предназначен для оформления и представления информации, а не для извлечения контекста или передачи знаний в формате обмена данными.

Не совсем уверен, что именно вы имеете в виду, но, насколько я понимаю, они внедряют знания в векторную базу данных, а затем используют промпт для выбора соответствующих частей и формирования ответа.

Аналогия, которую я использую, чтобы объяснить это другим: вместо того чтобы сосредотачиваться на идее PDF, думайте об идеях, которые авторы статьи пытаются донести в своей работе, и представляйте, что вы ведёте с ними беседу.

Если вы можете запускать плагины в ChatGPT, перейдите на этот сайт:

https://pugin.ai/

и введите в поиск PDF или paper, чтобы попробовать несколько из них. Основное различие, которое я заметил, заключается в том, что многие из них работают с одним PDF-файлом (https://pugin.ai/p/chatwithpdf), тогда как этот (https://pugin.ai/p/science) выбирает соответствующие статьи из 250 миллионов научных работ.


В LangChain есть аналогичное решение:

а также похожие репозитории на GitHub (ref). Результат может варьироваться.


Вот конкретный пример использования такой технологии для тех, кто считает, что она подходит только для академических целей.

Использование больших языковых моделей с обширными наборами данных и руководствами для механиков

1 лайк

Как странно указывать номер модели в названии репозитория! Почему бы ему не работать с 3.5?

К сведению

Другие тоже присоединяются к подобным идеям.

1 лайк