Проблемы с возвращаемыми значениями детектора локали

RGJ · 07.Сентябрь.2025 08:49:31

Мы столкнулись с двумя различными проблемами на двух разных форумах, где локализация контента начала переводить посты на их исходный язык (а в худшем случае — странным образом искажать содержимое или добавлять «этот пост уже на английском!»).

При深入ном анализе выяснилось, что детектор локали не получал от LLM чистый код языка.

Вместо этого он был обернут в markdown-разметку ``` (мы приводим только соответствующие части из логов для наглядности:

"delta":{"content":"```"}
"delta":{"content":"en```"},

или же он содержал окружающие кавычки, вероятно, из-за путаницы с промптом, который гласит Output: "en":

"delta":{"content":"\""}
"delta":{"content":"en\""}

Изменение последней строки промпта на Ваш ответ должен быть только кодом языка, и ничем иным. Не оборачивайте ответ в markdown. помогло, но, полагаю, метод LanguageDetector.detect должен немного очищать полученный ответ (например, разрешая только символы AZaz и дефис -) перед его использованием.

sam · 15.Сентябрь.2025 01:24:10

Спасибо за сообщение, @nat посмотрит.

nat · 04.Ноябрь.2025 03:21:37

@RGJ у нас открыт PR по этому вопросу, но не могли бы вы поделиться, какую LLM вы используете?

RGJ · 04.Ноябрь.2025 06:14:37

Мы вывели этот экземпляр из эксплуатации, но, насколько я помню, это был Ministral 3B.

nat · 05.Ноябрь.2025 10:17:11

Я объединил исправление, которое включало обновление промпта и перенос примеров из системного промпта в нормальное взаимодействие.

github.com/discourse/discourse

FIX: Improve prompt and check returned value conforms to standard (#35763)

main ← sanitise-locale-detection

merged 09:41AM - 05 Nov 25 UTC

nattsw

+92 -34

This commit improves the prompt, and also matches the return value against this:… - https://datatracker.ietf.org/doc/html/rfc5646#section-2.2.1 - **Primary Language Subtag**: ... Two-character primary language subtags were defined in the IANA registry according to the assignments found in the standard "ISO 639-1:2002 ... - **Extended Language Subtags**: ... Extended language subtags consist solely of three-letter subtags. Meta: https://meta.discourse.org/t/locale-detector-return-value-issues/381852

Наша команда также в настоящее время работает над оценками (evals) для повышения надёжности работы различных LLM.

nat · 08.Ноябрь.2025 00:00:36

Эта тема была автоматически закрыта через 2 дня. Новые ответы больше не принимаются.

Тема		Ответов	Просм.
AI Translation skips Portuguese (pt) locale - post translated to all languages except Portuguese Bug ai , dynaloc	25	403	22.04.2026
Default LLM model is required prior to enabling "Chat"? Bug ai , content-localization	2	150	15.09.2025
Norwegian is identified as `no` by locale detector agent, content localization supported locales is `nb_NO` Bug ai , fixed	5	171	18.05.2026
AI Commentary on German Translations Bug ai , fixed , content-localization	2	98	03.04.2026
Localized content shows raw HTML or json Bug content-localization	2	114	15.09.2025

Проблемы с возвращаемыми значениями детектора локали

Связанные темы