Представляем Discourse AI

Для тех, кто хочет узнать, что такое векторная база данных

Примечание: Это материал от коммерческого поставщика векторных баз данных, но это всё равно лучшее введение, которое я знаю, и та же векторная база данных используется OpenAI.

Чтобы понять, что означает вектор в контексте трансформерной модели, посмотрите это техническое видео на YouTube:

4 лайка

Мы используем GitHub - pgvector/pgvector: Open-source vector similarity search for Postgres · GitHub в discourse-ai, но в долгосрочной перспективе рассматриваем и другие варианты, такие как Weaviate, Elastic, Milvus.

Pinecone — пользователи Discourse :hugs: https://community.pinecone.io/

11 лайков

Привет @sam, да, мы действительно довольные клиенты Discourse, и одно из самых распространённых сочетаний с GPT-4 именно для того случая использования, о котором вы упомянули — см. логотипы и отзывы на нашей главной странице. Можем ли мы помочь вам с POC?

8 лайков

Конечно, я свяжу вас с @Falco, и вы сможете обсудить детали.

Думаю, было бы замечательно, если бы discourse-ai также поставлялся с адаптером для Pinecone — это значительно упрощает жизнь тем, кто разворачивает нашу платформу самостоятельно.

7 лайков

Похоже, вы провели исследование по стоимости обучения, но я хотел поделиться своим пониманием на основе руководства OpenAI по тонкой настройке. Если я правильно понял https://platform.openai.com/docs/guides/fine-tuning, они рекомендуют использовать Ada для задач классификации и предоставлять по 100 примеров для каждого класса. В таком случае у нас будет в общей сложности 200 примеров (спам и не спам). Предполагая, что средний пример состоит из 500 токенов, общее количество составит 500 * 200 = 100 000 токенов на Ada, что будет стоить 0,04 доллара США для обучения. Если бы вы использовали Davinci, стоимость составила бы 3,00 доллара США.

Я предполагаю, что цена может относиться к одному шагу или одному эпохе обучения, но я не смог найти более подробной информации на их сайте. Пожалуйста, дайте знать, если у вас есть какие-либо идеи или если я что-то неправильно понял.

2 лайка

Как я уже упоминал, эти расходы касались моего сценария использования для моего бизнеса. Я использую для обучения и работы модель Davinci, а не Ada, поэтому там расходы в 75 раз выше. Кроме того, мы практически исчерпываем лимит токенов на один запрос.

Я точно не знаю, что именно имеют в виду Сэм/Фалько для своего сценария использования — просто отмечу в целом, что тонкая настройка может быть дорогостоящей при масштабировании!

2 лайка

Поздравляю с релизом, @sam и @Falco!

Буду рад поддержать Discourse оценкой Weaviate! :clap:

7 лайков