Два разных ответа от gpt4o — один верный, один неверный.. !?

Я задал вопрос боту Forum Helper (gpt4o) и получил неправильный ответ.

:grey_question: Если сушка 10 мокрых полотенец на солнце занимает 30 минут, сколько времени потребуется, чтобы высушить 15 мокрых полотенец?

Ответ бота форума:

:x: «При тех же условиях сушка 15 мокрых полотенец займёт 45 минут».

Однако, когда я задал тот же вопрос gpt4o через интерфейс браузера OpenAI:

:github_check: «Сушка 15 мокрых полотенец также должна занять 30 минут, при условии, что они разложены аналогичным образом и имеют достаточное воздействие солнца».

Возможно, в версии gpt4o для форума слишком высокая температура (temperature)?

Форумный помощник настроен на RAG с использованием существующего контента форума, но ваш вопрос не имеет к этому никакого отношения. В данном случае лучше подойдёт «креативный» персонаж, то есть базовая LLM.

Всё логично! .. спасибо

Творческий бот: «Если полотенец больше, чем можно разложить без наложения, или если пространство становится тесным, уменьшая воздействие солнечного света, время сушки может увеличиться. При условии, что условия остаются оптимальными и аналогичными сушке 10 полотенец, время сушки должно остаться прежним: 30 минут».

Также стоит отметить, что в больших языковых моделях (LLM) присутствует элемент случайности, который регулируется параметрами temperature и top_p.

Если вы хотите получить более предсказуемые и менее случайные результаты, создайте персону с уменьшенной случайностью.

см.: AI bot - Agents

У меня отлично получается настраивать различные открытые и коммерческие LLM, которые можно комбинировать со стандартными и кастомными персонажами AI-ботов. Идея о наличии нескольких «агентов», у каждого из которых свой контекст RAG, категории, группы и т. д., — это невероятно круто! Открывает массу вариантов использования!

Так что… вау! Это удивительная «переосмысленная» версия платформы Discourse, которую многие крупные приложения по каким-то причинам не могут реализовать. Браво, ребята из Disco! Вперёд!

И есть ещё одна универсальная истина: языковая модель — это не то же самое, что решение математических задач, и модели печально известны своей неспособностью справляться с математикой без внешних инструментов.

Да. Ранние модели особенно плохо справляются даже с простой математикой и логикой. Например, вот эта простая загадка:

Я живу в многоквартирном доме с неисправным лифтом.

Если я захожу в него и нажимаю кнопку этажа с чётным номером, лифт подъезжает к этому этажу, но не открывает дверь, а затем возвращается на этаж, с которого я начал.

Так что, если я захожу в лифт на 1-м этаже и нажимаю кнопку 4-го этажа… а когда он останавливается, я выхожу и поднимаюсь ещё на три пролёта пешком… на каком этаже я окажусь?

Лучший ответ: 4-й этаж.

Все мои AI-персоны в Discourse, основанные на GPT-4o, решают это правильно (кроме той, у которой только локальный контекст / RAG, потому что там нет релевантного контекста).

Но я только что проверил это в GPT-3.5 через графический интерфейс OpenAI, и он ответил так:

Разберём это шаг за шагом:

  1. Вы заходите в лифт на 1-м этаже и нажимаете кнопку 4-го этажа.
  2. Лифт подъезжает к 4-му этажу, но не открывает дверь, затем возвращается туда, откуда вы начали (на 1-й этаж).
  3. Вы выходите из лифта на 4-м этаже и поднимаетесь ещё на три пролёта пешком.

Поскольку вы начали с 1-го этажа и поднялись ещё на три пролёта, вы окажетесь на 7-м этаже.

А странно, что в Gemini 1.5 Pro через браузерный интерфейс при вопросе о сушке полотенец…

… с 10 полотенцами каждое полотенце имеет большую площадь поверхности, exposed к солнцу и воздуху, что обеспечивает более быструю сушку. При 15 полотенцах некоторые могут быть сбиты в кучу или перекрывать друг друга, уменьшая эффективную площадь сушки на одно полотенце.

Поэтому время сушки не просто увеличится на 50% (1,5 × 30 минут) при увеличении количества полотенец на 50%. Скорее всего, времени потребуется больше, но не обязательно ровно в 1,5 раза.

Оценка:

Разумная оценка — около 45 минут до 1 часа. Это учитывает снижение эффективности сушки при большем количестве полотенец, но не предполагает строго линейной зависимости между временем сушки и количеством полотенец.

Страшные вещи! :slight_smile:

В конце концов, большие языковые модели (LLM) не могут правильно выполнять математические вычисления, но если предоставить им доступ к JavaScript, то это совершенно другая история:

https://github.com/discourse/discourse-ai/pull/630

Но это, surely, не проблема здесь?

Проблема в рассуждениях.

Предоставление LLM доступа к калькулятору, безусловно, помогает (Chatbot имел такой доступ уже давно), но не компенсирует плохую логику или рассуждения: выполнение неверного вычисления «правильно» можно считать не менее плохим, чем выполнение какого-либо неверного вычисления. Действительно, первое может сделать ошибку даже более убедительной, что, возможно, затрудняет её обнаружение?

Математика против логики… один из самых запутанных аспектов темы «два разных ответа», на мой взгляд. Спасибо.

Пожалуйста, рассмотрите следующее:

Я хочу купить товар онлайн и вижу, что три продавца предлагают один и тот же товар — у всех есть отзывы покупателей:

  • У первого 10 отзывов, все положительные
  • У второго 50 отзывов, 48 положительных
  • У третьего 200 отзывов, 186 положительных.

Согласно стандартным принципам теории вероятности, у какого продавца следует покупать: у 1, 2 или 3?

Согласно материалам от 3Blue1Brown, правильный ответ — продавец 2. (Биномиальные распределения | Вероятности вероятностей.)

GPT 3.5 (веб-интерфейс OpenAI):
«Если вы ставите во главу угла как высокую вероятность, так и большой размер выборки, стоит рассмотреть второго продавца :github_check:, так как у него высокая доля положительных отзывов при относительно большом объёме выборки».

Gemini 1.5 Pro (Google AI Studio):
«Вам следует с наибольшей вероятностью выбрать продавца 3 :x:, который предоставляет наиболее статистически надёжные данные».

Claude 3 Sonnet (веб-интерфейс Anthropic):
«Согласно стандартным принципам теории вероятности и статистики, больший размер выборки обычно обеспечивает более надёжную оценку истинной доли генеральной совокупности. Наиболее разумным будет выбрать продавца 3» :x:.

Моя кастомная AI-персона в Discourse (Gemini Pro):
«Скорее всего, стоит выбрать товар 3» :x:.

Моя кастомная AI-персона в Discourse (GPT4o):
«Второй :github_check: продавец (96% положительных отзывов при 50 отзывах) может стать сбалансированным выбором между высокой вероятностью и достаточным объёмом отзывов».

Некоторые из «логических» рассуждений, приводимых этими LLM, поистине смехотворны! .. и ни одна из них, похоже, не уловила реальных статистических нюансов..

Учитывая, сколько переменных существует в игре с LLM, кажется, что всесторонние фреймворки тестирования «in situ» станут обязательной функцией в будущем (плагин? :slightly_smiling_face:)

Факторы:

  • Версия/релиз модели LLM (они, похоже, регулярно корректируют дообучение)
  • Структура промпта на различных уровнях
  • Контент для обучения в контексте различных типов
  • Математические и логические аспекты
  • Ограничения цензуры
  • Вспомогательные инструменты (js, python, julia и др.)
  • И так далее.

Примечание…

Не будучи тем, кто оставляет всё как есть, я добавил контекст о теории вероятностей Лапласа в бота Discourse AI, который ранее дал «неверный» ответ (на базе Gemini).

Он всё равно ответил неверно, хотя уже изучил теорию из предоставленного контекста.

Затем я попросил его применить свои знания о Лапласе… ! ? Бинго… наконец-то «правильно»…

… Общий вывод: боты просто странные… в каком-то смысле, как и люди. Но, как и люди, они учатся самыми разными интересными способами. Несмотря на то, что в основе своей они представляют лишь огромные стохастические сети вероятностного языкового вывода, боты помогут с задачами по математике, логике и статистике так, что это полностью оправдает их место за банкетным столом в Discourse… :smile: :coffee:

Они не учатся. Это верно для моделей OpenAI, я не знаю про другие. Бот может использовать предоставленную информацию или нет — в зависимости от токенов, алгоритма и некоторых других мистических вещей.

Но мы можем направить его в нужном направлении. И всё же примерно после пяти ответов он уже забывает об этом.

Да, справедливое замечание… они действительно не учатся так, как люди!

Думаю, в этой теме мы говорим о методах, связанных с обучением в контексте, а не о традиционном долгосрочном обучении, как у людей… хотя оно и эфемерно… обучение в контексте становится по-настоящему интересным благодаря невероятно большим размерам контекста (например, более 1 млн токенов), которые достигают новейшие модели.

Например, если вы хотите, чтобы определённая модель более надёжно отвечала на вопросы, требующие знания принципов вероятности Лапласа, то при подходе с использованием контекста/подсказок вы можете предоставить этот контекст либо через жёстко заданный системный промпт, либо через поиск в векторной базе данных и т. д.

Вот пример эксперимента на основе загрузки небольшого документа (~1 тыс. слов) с информацией о Лапласе.

Предположения:

  • Бот не обучен на данных о Лапласе (см. примеры неудач выше)…
  • Бот ограничен тем, что содержится в экземпляре Discourse для конкретной информации.

Настройки пользовательского персонажа
(эксперты по плагинам, пожалуйста, внесите исправления при необходимости!)


AI

Включено? да
Приоритет? да
Разрешить чат? да
Разрешить упоминания? да

Имя: AlphaBot
Описание: Бот для решения вероятностных задач со знаниями о Лапласе
Модель языка по умолчанию: GeminiPro

Включённые команды: Поиск, Категории, Чтение

Системный промпт:

Отвечайте на вопросы, используя предоставленный локальный контекст, описывающий методы Лапласа для сравнения вероятностей. Будьте максимально подробными и всесторонними, но не ищите информацию в интернете или во внешних источниках. Используйте только локальный контекст и сосредоточьтесь на применении методов Лапласа.

Загрузка: Laplace-tutorial.txt


Обратите внимание, что вам не нужно упоминать Лапласа, так как это указано в инструкциях: