Два разных ответа от gpt4o — один верный, один неверный.. !?

StevePlex · 15.Май.2024 22:42:04

Я задал вопрос боту Forum Helper (gpt4o) и получил неправильный ответ.

Если сушка 10 мокрых полотенец на солнце занимает 30 минут, сколько времени потребуется, чтобы высушить 15 мокрых полотенец?

Ответ бота форума:

«При тех же условиях сушка 15 мокрых полотенец займёт 45 минут».

Однако, когда я задал тот же вопрос gpt4o через интерфейс браузера OpenAI:

«Сушка 15 мокрых полотенец также должна занять 30 минут, при условии, что они разложены аналогичным образом и имеют достаточное воздействие солнца».

Возможно, в версии gpt4o для форума слишком высокая температура (temperature)?

Falco · 15.Май.2024 22:50:49

Форумный помощник настроен на RAG с использованием существующего контента форума, но ваш вопрос не имеет к этому никакого отношения. В данном случае лучше подойдёт «креативный» персонаж, то есть базовая LLM.

StevePlex · 15.Май.2024 22:52:41

Всё логично! .. спасибо

Творческий бот: «Если полотенец больше, чем можно разложить без наложения, или если пространство становится тесным, уменьшая воздействие солнечного света, время сушки может увеличиться. При условии, что условия остаются оптимальными и аналогичными сушке 10 полотенец, время сушки должно остаться прежним: 30 минут».

sam · 15.Май.2024 23:49:47

Также стоит отметить, что в больших языковых моделях (LLM) присутствует элемент случайности, который регулируется параметрами temperature и top_p.

Если вы хотите получить более предсказуемые и менее случайные результаты, создайте персону с уменьшенной случайностью.

см.: AI bot - Agents

StevePlex · 16.Май.2024 03:43:05

У меня отлично получается настраивать различные открытые и коммерческие LLM, которые можно комбинировать со стандартными и кастомными персонажами AI-ботов. Идея о наличии нескольких «агентов», у каждого из которых свой контекст RAG, категории, группы и т. д., — это невероятно круто! Открывает массу вариантов использования!

Так что… вау! Это удивительная «переосмысленная» версия платформы Discourse, которую многие крупные приложения по каким-то причинам не могут реализовать. Браво, ребята из Disco! Вперёд!

Jagster · 16.Май.2024 07:37:29

И есть ещё одна универсальная истина: языковая модель — это не то же самое, что решение математических задач, и модели печально известны своей неспособностью справляться с математикой без внешних инструментов.

StevePlex · 16.Май.2024 13:33:37

Да. Ранние модели особенно плохо справляются даже с простой математикой и логикой. Например, вот эта простая загадка:

Я живу в многоквартирном доме с неисправным лифтом.

Если я захожу в него и нажимаю кнопку этажа с чётным номером, лифт подъезжает к этому этажу, но не открывает дверь, а затем возвращается на этаж, с которого я начал.

Так что, если я захожу в лифт на 1-м этаже и нажимаю кнопку 4-го этажа… а когда он останавливается, я выхожу и поднимаюсь ещё на три пролёта пешком… на каком этаже я окажусь?

Лучший ответ: 4-й этаж.

Все мои AI-персоны в Discourse, основанные на GPT-4o, решают это правильно (кроме той, у которой только локальный контекст / RAG, потому что там нет релевантного контекста).

Но я только что проверил это в GPT-3.5 через графический интерфейс OpenAI, и он ответил так:

Разберём это шаг за шагом:

Вы заходите в лифт на 1-м этаже и нажимаете кнопку 4-го этажа.

Лифт подъезжает к 4-му этажу, но не открывает дверь, затем возвращается туда, откуда вы начали (на 1-й этаж).

Вы выходите из лифта на 4-м этаже и поднимаетесь ещё на три пролёта пешком.

Поскольку вы начали с 1-го этажа и поднялись ещё на три пролёта, вы окажетесь на 7-м этаже.

А странно, что в Gemini 1.5 Pro через браузерный интерфейс при вопросе о сушке полотенец…

… с 10 полотенцами каждое полотенце имеет большую площадь поверхности, exposed к солнцу и воздуху, что обеспечивает более быструю сушку. При 15 полотенцах некоторые могут быть сбиты в кучу или перекрывать друг друга, уменьшая эффективную площадь сушки на одно полотенце.

Поэтому время сушки не просто увеличится на 50% (1,5 × 30 минут) при увеличении количества полотенец на 50%. Скорее всего, времени потребуется больше, но не обязательно ровно в 1,5 раза.

Оценка:

Разумная оценка — около 45 минут до 1 часа. Это учитывает снижение эффективности сушки при большем количестве полотенец, но не предполагает строго линейной зависимости между временем сушки и количеством полотенец.

Страшные вещи!

sam · 17.Май.2024 06:49:32

В конце концов, большие языковые модели (LLM) не могут правильно выполнять математические вычисления, но если предоставить им доступ к JavaScript, то это совершенно другая история:

https://github.com/discourse/discourse-ai/pull/630

merefield · 17.Май.2024 08:27:17

Но это, surely, не проблема здесь?

Проблема в рассуждениях.

Предоставление LLM доступа к калькулятору, безусловно, помогает (Chatbot имел такой доступ уже давно), но не компенсирует плохую логику или рассуждения: выполнение неверного вычисления «правильно» можно считать не менее плохим, чем выполнение какого-либо неверного вычисления. Действительно, первое может сделать ошибку даже более убедительной, что, возможно, затрудняет её обнаружение?

StevePlex · 17.Май.2024 18:48:25

Математика против логики… один из самых запутанных аспектов темы «два разных ответа», на мой взгляд. Спасибо.

Пожалуйста, рассмотрите следующее:

Я хочу купить товар онлайн и вижу, что три продавца предлагают один и тот же товар — у всех есть отзывы покупателей:

У первого 10 отзывов, все положительные

У второго 50 отзывов, 48 положительных

У третьего 200 отзывов, 186 положительных.

Согласно стандартным принципам теории вероятности, у какого продавца следует покупать: у 1, 2 или 3?

Согласно материалам от 3Blue1Brown, правильный ответ — продавец 2. (Биномиальные распределения | Вероятности вероятностей.)

GPT 3.5 (веб-интерфейс OpenAI):
«Если вы ставите во главу угла как высокую вероятность, так и большой размер выборки, стоит рассмотреть второго продавца , так как у него высокая доля положительных отзывов при относительно большом объёме выборки».

Gemini 1.5 Pro (Google AI Studio):
«Вам следует с наибольшей вероятностью выбрать продавца 3 , который предоставляет наиболее статистически надёжные данные».

Claude 3 Sonnet (веб-интерфейс Anthropic):
«Согласно стандартным принципам теории вероятности и статистики, больший размер выборки обычно обеспечивает более надёжную оценку истинной доли генеральной совокупности. Наиболее разумным будет выбрать продавца 3» .

Моя кастомная AI-персона в Discourse (Gemini Pro):
«Скорее всего, стоит выбрать товар 3» .

Моя кастомная AI-персона в Discourse (GPT4o):
«Второй продавец (96% положительных отзывов при 50 отзывах) может стать сбалансированным выбором между высокой вероятностью и достаточным объёмом отзывов».

Некоторые из «логических» рассуждений, приводимых этими LLM, поистине смехотворны! .. и ни одна из них, похоже, не уловила реальных статистических нюансов..

Учитывая, сколько переменных существует в игре с LLM, кажется, что всесторонние фреймворки тестирования «in situ» станут обязательной функцией в будущем (плагин? )

Факторы:

Версия/релиз модели LLM (они, похоже, регулярно корректируют дообучение)
Структура промпта на различных уровнях
Контент для обучения в контексте различных типов
Математические и логические аспекты
Ограничения цензуры
Вспомогательные инструменты (js, python, julia и др.)
И так далее.

StevePlex · 17.Май.2024 20:12:18

Примечание…

Не будучи тем, кто оставляет всё как есть, я добавил контекст о теории вероятностей Лапласа в бота Discourse AI, который ранее дал «неверный» ответ (на базе Gemini).

Он всё равно ответил неверно, хотя уже изучил теорию из предоставленного контекста.

Затем я попросил его применить свои знания о Лапласе… ! ? Бинго… наконец-то «правильно»…

… Общий вывод: боты просто странные… в каком-то смысле, как и люди. Но, как и люди, они учатся самыми разными интересными способами. Несмотря на то, что в основе своей они представляют лишь огромные стохастические сети вероятностного языкового вывода, боты помогут с задачами по математике, логике и статистике так, что это полностью оправдает их место за банкетным столом в Discourse…

Jagster · 18.Май.2024 07:44:12

Они не учатся. Это верно для моделей OpenAI, я не знаю про другие. Бот может использовать предоставленную информацию или нет — в зависимости от токенов, алгоритма и некоторых других мистических вещей.

Но мы можем направить его в нужном направлении. И всё же примерно после пяти ответов он уже забывает об этом.

StevePlex · 18.Май.2024 12:50:44

Да, справедливое замечание… они действительно не учатся так, как люди!

Думаю, в этой теме мы говорим о методах, связанных с обучением в контексте, а не о традиционном долгосрочном обучении, как у людей… хотя оно и эфемерно… обучение в контексте становится по-настоящему интересным благодаря невероятно большим размерам контекста (например, более 1 млн токенов), которые достигают новейшие модели.

Например, если вы хотите, чтобы определённая модель более надёжно отвечала на вопросы, требующие знания принципов вероятности Лапласа, то при подходе с использованием контекста/подсказок вы можете предоставить этот контекст либо через жёстко заданный системный промпт, либо через поиск в векторной базе данных и т. д.

Вот пример эксперимента на основе загрузки небольшого документа (~1 тыс. слов) с информацией о Лапласе.

Предположения:

Бот не обучен на данных о Лапласе (см. примеры неудач выше)…
Бот ограничен тем, что содержится в экземпляре Discourse для конкретной информации.

Настройки пользовательского персонажа
(эксперты по плагинам, пожалуйста, внесите исправления при необходимости!)

AI

Включено? да
Приоритет? да
Разрешить чат? да
Разрешить упоминания? да

Имя: AlphaBot
Описание: Бот для решения вероятностных задач со знаниями о Лапласе
Модель языка по умолчанию: GeminiPro

Включённые команды: Поиск, Категории, Чтение

Системный промпт:

Отвечайте на вопросы, используя предоставленный локальный контекст, описывающий методы Лапласа для сравнения вероятностей. Будьте максимально подробными и всесторонними, но не ищите информацию в интернете или во внешних источниках. Используйте только локальный контекст и сосредоточьтесь на применении методов Лапласа.

Загрузка: Laplace-tutorial.txt

Обратите внимание, что вам не нужно упоминать Лапласа, так как это указано в инструкциях:

Тема		Ответов	Просм.
Gpt3.5_bot user Support	2	524	03.02.2024
Request: AI Bot Chat Threads Support (Threaded/Branched Conversations with AI) Feature ai	0	88	22.12.2025
Discourse Chatbot :robot: Plugin ai	215	34731	07.03.2026
Answer feature Feature	1	645	01.04.2023
[Ai Bot] Add user token tracking, custom AI personas, max context posts, document loading, custom API URLs, and localized chat titles Feature ai , ai-bot	1	614	22.03.2024

Два разных ответа от gpt4o — один верный, один неверный.. !?

Связанные темы