Интеграция ботов, похожих на GPT3?

@Festinger Я уже ответил, возможно, вы пропустили моё письмо? Проверьте почту от 17 января:

@SimonBiggs, поразмыслив немного над этой проблемой, я понял, что, возможно, лучшим решением будет создать закрытый внешний сервис, который сможет получать приглашения для вступления в форум Discourse, настраивать свой профиль и затем участвовать в обсуждениях как пользователь, используя API. Профиль будет выглядеть реалистично, но в описании будет чётко указано, что это бот.

Я придумал, что будет делать бот, но ему не обязательно быть плагином для Discourse. Ему достаточно запускаться время от времени через cron, а затем публиковать комментарии и ответы, используя API Discourse. Что вы думаете по этому поводу?

У меня есть несколько идей для сценариев использования таких функций. Я понимаю, что это отклонение от темы первого сообщения, но, похоже, это именно та тема, где собираются все, кто заинтересован в интеграции бота, похожего на GPT-3. Если вы захотите создать новую тему (публичную или приватную), то появится единое место, где будут собраны идеи сообщества. :slightly_smiling_face:

Это было бы замечательно, так как первая задача нашей выделенной команды по ИИ — собрать и каталогизировать идеи относительно возможных функций.

Я понял, что будет делать бот, но ему не обязательно быть настоящим плагином для Discourse. Достаточно запускать его время от времени через cron, а затем публиковать комментарии и ответы, используя API Discourse. Что вы думаете об этом?

Это, безусловно, имеет смысл. Однако лично я хотел бы создавать только инструменты искусственного интеллекта с открытым исходным кодом. И, учитывая, что сама команда Discourse планирует создать подобный инструмент, в идеале я хотел бы помогать им.

Предложение по созданию бота для ответов с запланированной категоризацией и дообучением для форумов Discourse

Введение: Форумы Discourse зависят от вовлеченности и вклада пользователей, и ключевым аспектом этого является возможность получения своевременных и точных ответов на вопросы. Однако иногда ответ может прийти не сразу, что демотивирует пользователей продолжать участие в обсуждении. Чтобы решить эту проблему, мы предлагаем внедрить бота, который будет автоматически отвечать на вопросы по истечении определенного промежутка времени, способствуя вовлеченности сообщества. Кроме того, бот будет выполнять запланированные вызовы для категоризации существующих тем и формирования собственного набора данных для дообучения, который можно обновлять по мере необходимости.

Цели: Основные цели внедрения бота для ответов с запланированной категоризацией и дообучением для форумов Discourse заключаются в следующем:

  1. Стимулирование вовлеченности сообщества за счет предоставления своевременных и точных ответов на вопросы, которые в противном случае могли бы остаться без ответа.
  2. Автоматизация категоризации существующих тем для обеспечения правильной маркировки вопросов и облегчения поиска пользователями релевантной информации.
  3. Формирование набора данных для дообучения бота с целью повышения его производительности и точности со временем.

Предлагаемое решение: Для достижения вышеуказанных целей мы предлагаем внедрить бота, способного автоматически отвечать на вопросы по истечении определенного промежутка времени, выполнять запланированные вызовы для категоризации существующих тем и формировать набор данных для своего дообучения. Бот будет разработан так, чтобы анализировать ввод пользователя, понимать контекст разговора и генерировать соответствующие ответы на основе заранее определенных правил и моделей машинного обучения.

Бот будет использовать методы обработки естественного языка (NLP) для анализа вводных данных пользователя и генерации ответов, релевантных обсуждению. Он будет обучен понимать контекст вопроса, обсуждаемую тему и предыдущие взаимодействия пользователя, чтобы предоставлять точные и полезные ответы. Бот будет отвечать только на вопросы, на которые не было дано ответа в течение определенного времени, или когда его вызовут по имени пользователя.

Помимо ответов на вопросы, бот будет выполнять запланированные вызовы для категоризации существующих тем. Он будет анализировать содержание тем и их теги, чтобы обеспечить правильную маркировку и организацию вопросов для удобной навигации. Бот также будет формировать набор данных для дообучения, записывая и классифицируя запросы и ответы пользователей. Этот набор данных будет использоваться для обучения и повышения производительности бота со временем.

Преимущества: Внедрение бота для ответов с запланированной категоризацией и дообучением для форумов Discourse имеет множество преимуществ, включая:

  1. Стимулирование вовлеченности сообщества: бот будет предоставлять своевременные и точные ответы на вопросы, побуждая пользователей продолжать участие в обсуждении.
  2. Улучшенная категоризация тем: бот будет автоматизировать категоризацию тем, обеспечивая правильную маркировку и организацию вопросов для удобной навигации.
  3. Повышенная точность и производительность: набор данных для дообучения бота будет использоваться для обучения и повышения его производительности со временем.
  4. Снижение нагрузки на человеческих модераторов: бот снизит нагрузку на модераторов за счет автоматизации категоризации тем и ответов на вопросы, которые в противном случае остались бы без ответа.

Заключение: Внедрение бота для ответов с запланированной категоризацией и дообучением для форумов Discourse является ценным вложением, которое может способствовать вовлеченности сообщества, автоматизации задач категоризации и повышению точности и производительности бота со временем. Мы рекомендуем изучить доступные модели обработки естественного языка (NLP) и машинного обучения, чтобы выбрать ту, которая лучше всего соответствует потребностям форума Discourse. Процесс внедрения должен быть тщательно спланирован и выполнен, с надлежащим тестированием и обучением, чтобы обеспечить работу бота в соответствии с ожиданиями.

Это отличный старт, но, к сожалению, как автор оригинального поста (OP), я должен признать, что это всё ещё не отвечает тому, что я искал в самом начале. Однако, изучая эту область уже много лет, я понимаю: если только я не выиграю в лотерею, я не смогу получить именно то, что хочу, просто заплатив за это самостоятельно. Повторюсь: мне нужен бот, который不仅能 выполнять то, что вы описали выше, но и обладает долговременной памятью о предыдущих обсуждениях с конкретными людьми — точно так же, как это делает человек. Поскольку получить именно то, что я хочу, в ближайшее время вряд ли удастся, но сам Discourse в сочетании с разрабатываемым предложением по боту на базе ИИ для Discourse уже решает большую часть моих задач, возможно, мне стоит направить все усилия на максимально возможную помощь в развитии этого проекта, продолжая параллельно исследовать возможности долговременной памяти с использованием теории графов и других методов — чтобы добавить их позже?

Если реализация или предложения Discourse не отвечают вашим требованиям, и вы готовы финансировать разработку программного обеспечения с открытым исходным кодом на базе ИИ (лицензия Apache-2.0, что позволит самой компании Discourse впоследствии использовать его в других целях), я с радостью настрою для вас ИИ-бота для Discourse с функцией памяти.

Всё здесь будет зависеть от модели. Я вижу здесь большой общий интерес, но никто не предложил, какую модель использовать, и никто не доказал, что модель способна на что-то хоть отдалённо полезное.

Даже получение хороших результатов от OPT — задача сложная, а Facebook добавила довольно много параметров. Моя общая озабоченность здесь (и в целом для всей индустрии) заключается в том, что в открытом пространстве нет ничего, что хоть отдалённо приближалось бы к GPT-3 Davinci, а GPT-4 уже на горизонте и сделает конкуренцию ещё сложнее.

В следующем посте выше подробно описана как модель, так и её полезность:

Процесс строится на связке Supabase + API OpenAI. На данный момент GPT 3.5 + эмбеддинги от OpenAI достаточно для решения многих задач, которые сегодня ожидают от бота Discourse.

API GPT не является открытым исходным кодом. Однако это API. И когда модель с открытым исходным кодом догонит (например, https://github.com/LAION-AI/Open-Assistant), её можно будет заменить на неё.

Я полностью согласен. Именно поэтому на данный момент «под капотом» будет использоваться GPT 3.5, пока не появится лучшая альтернатива.

Моя главная забота здесь — атрибуция, особенно когда корпус огромен, как форум Discourse, и значительная часть данных, использованных для обучения бота, может быть устаревшей.

С подходом ClippyGPT связаны некоторые фундаментальные проблемы. Нельзя заменить поиск инструментом, который не предоставляет ссылки на исходный контент. Обучение такой системы также стало бы монументальной задачей.

Лучше, наверное, написать вам в личные сообщения для более детального обсуждения этой идеи…

Привет, Фил,

Я тоже нахожусь в часовом поясе Сиднея (Вагга-Вагга). Мой адрес электронной почты: me@simonbiggs.net. Давай договоримся о времени для видеозвонка?

С наилучшими пожеланиями,
Саймон

Ого! — Я переехал из Сиднея в Коуру в 2015 году! — Несколько дней назад я проезжал мимо вас, ездил в Холмбрук и обратно!

Вы будете на связи хотя бы остаток дня?

Кстати, о Сиднее… :wink:

Удивительно, что никто ещё не упомянул «новый» Bing. Мне кажется, это отличный пример того, что можно реализовать в Discourse.

Готов внести некоторую финансовую поддержку :slight_smile:

Итак, мой плагин может использовать GPT-3 (по умолчанию: “text-davinci-003”, но вы можете выбрать другую модель) для суммирования тем:

Я уже попробовал его (даже в рабочей среде) и пока очень впечатлён результатами. Я бы даже сказал, что иногда они просто восхитительны.

Однако, хотя он часто выдаёт релевантные, грамматически правильные и убедительные резюме, он склонен к фактическим ошибкам, которые могут быть крайне вводящими в заблуждение и снижать его полезность. Тем не менее, потенциал здесь огромный!

Обратите внимание: плагин всё ещё очень экспериментальный, но сейчас кажется стабильным. Результаты могут различаться, однако есть различные настройки для улучшения качества, включая механизм дизлайков с пороговым значением, которое побуждает систему запрашивать новое резюме у LLM.

Это тоже идёт довольно хорошо:

Я думаю, что ChatGPT отлично подойдет для FAQ и документации. Посмотрите на это исследование Ричарда Миллингтона: https://www.feverbee.com/chat-gpt-in-communities/?utm_source=pocket_mylist

У ChatGPT нет поддержки дообучения (кстати, на сегодня у него вообще нет API для этого).

Мне кажется интересной идея обучить модель на базе GPT (либо дообучить GPT-3, либо использовать что-то другое) на корпусе данных с сайта на Discourse, чтобы посмотреть, насколько хорошо «капитанская каша из слов» будет работать после обучения на этих данных и настройки на ответы. С оговоркой, что «мусор на входе — мусор на выходе».

Эксперименты, безусловно, будут проводиться, и чрезмерно самоуверенные лживые модели GPT со временем станут лучше (благодаря как более качественным данным, так и алгоритмам, которые каким-то образом проверяют факты).

Пост Ричарда, безусловно, интересен, но ChatGPT пока еще не готов к такой задаче:

В отличие, скажем, от Bing, который дообучается на основе результатов поиска, которые довольно свежие.

Похоже, что нечто подобное было выпущено на Goodspeed I Bubble Buddy I Bubble FAQs

Я не уверен, используется ли содержимое https://forum.bubble.io/ также в качестве исходных данных.