Минимальная длина заголовков на международных сайтах

Вот я был на 臺鐵用Openstreetmap! - 台灣/Tâi-oân/Tâi-uân/Thòi-vân (Taiwan) - OpenStreetMap Community Forum,
пытаясь опубликовать тему
台鐵用OSM!
Так вот, я получил предупреждение, что это меньше 15 символов.
Давайте посмотрим,
$ echo 台鐵用OSM!|wc -c
14
Поэтому мне пришлось изменить её.
$ echo 台鐵用Openstreetmap!|wc -c
24
В любом случае, в настройках по умолчанию Discourse присутствует культурная предвзятость.
Случается, что китайский иероглиф может нести в себе множество смыслов, и его не следует просто
считать тремя скучными байтами. То же самое касается японских кандзи.

Обратите внимание: я не управляю ни одним из этих сайтов. Я всего лишь самый обычный пользователь.

Ну, это могут настроить администраторы сайта. Думаю, виноваты именно они.
Я тоже китайский пользователь, администратор моего форума установил минимальную длину темы в 1 символ.


Обновление: О, похоже, это сайт для всего мира.
В любом случае, раз администраторы сайта стремятся к глобальному охвату, уважение языковых различий — это правильный путь.

Я говорю о том, что глобальное значение по умолчанию,

не должно быть ориентировано только на Европу.
Discourse поддерживает UTF-8, поэтому в нём должен быть и более совершенный алгоритм для установки значения по умолчанию.
Как насчёт такого подхода: всем администраторам из западных стран пришлось бы устанавливать более высокое значение по умолчанию,
потому что Discourse предполагал, что пользователи используют китайский язык. Это было бы столь же несправедливо, как и текущая противоположная ситуация,
когда всем администраторам из восточных стран приходится изменять значение по умолчанию.

1 лайк

Discourse поставляется с изменёнными автоматическими настройками по умолчанию для сайтов, если локаль установлена на китайский.

У нас есть настройки по умолчанию для каждой локали. Не слишком ли строгими являются наши настройки по умолчанию для китайского?

11 лайков

Я ничего не знаю, и меня задело одно слово «blaim», поэтому я снова ушёл в мета-обсуждение :wink:

Я из Финляндии. Я ничего не знаю о китайском или любых других неалфавитных языках. Из-за этого я даже не стал бы думать о такой ситуации.

Вот почему у нас есть (или должны быть) две вещи:

  • значения по умолчанию для каждого языка или группы языков (насколько мне известно, они есть)
  • система личных сообщений (ЛС), чтобы сообщить администратору о незначительной проблеме, такой как нелепо жёсткое ограничение на количество символов (и оно у нас точно есть ;))

Так что по сути здесь есть две разные, но пересекающиеся части:

  • какие варианты предусмотрены конструктивно (это по теме)
  • как администратор использует эти варианты (это уже не по теме)
2 лайка

Вы можете добавить что-то вроде этого к своему сообщению:

台铁用OSM! <!-- some more text because limits -->

Если пользователю приходится прибегать к подобным ухищрениям, это верный признак плохого дизайна или некомпетентного администратора :wink:

Конечно — это временное решение.

1 лайк

Discourse поставляется с изменёнными автоматическими настройками по умолчанию для сайтов, если локаль установлена на китайский.

Большая ошибка!

В старые времена каждое сообщество оставалось в своей стране.
Всё было хорошо.

В наше время у нас есть множество международных сообществ,
как, например, сайт, который я опубликовал.

Вы можете сказать, что вышеупомянутое международное сообщество должно
установить другие настройки по умолчанию.

Хорошо, но проблема всё равно остаётся: слишком свободно для авторов, использующих ASCII.
Да, мы говорим о двух типах авторов на одном и том же сайте. И эти надоедливые авторы могут даже переключаться между языками от одного сообщения к другому, или даже в рамках одного сообщения, или даже в одном заголовке.

Поэтому я предлагаю считать каждый китайский иероглиф равным 5 символам ASCII и другим. Не просто текущим трём, которые, о боже, совпадают с количеством байтов символа UTF-8… А эти эмодзи будут оцениваться от 2 до 4… Какой бардак.

В любом случае, я уверен, что кто-то уже написал библиотеку, которая даст вам реальную «ценность» каждого символа, будь то ASCII или нет.

Это было даже отдалённо не так. Все эти платформы были созданы американцами и для американцев. И постоянно возникали проблемы с персонажами. Каждый европеец может это подтвердить, ведь если смотреть на картину в целом, английский язык является меньшинством :wink:

2 лайка

Возможно, поможет (опциональная) настройка для каждой категории, позволяющая снизить минимальную длину. Ведь на международном форуме обычно требуется отдельная категория, если вы публикуете на китайском (или любом другом языке).

1 лайк

Это интересный запрос на #функцию, но он сложен из-за необходимости согласованности.

Кроме того, не международные сайты могут быть против этого из-за векторов спама.

Здесь нет простого решения, и уже существует множество настроек.

2 лайка

На самом деле вы можете считать знаки препинания, например, -1,
$ unicode ,
U+002C COMMA …
Категория: Po (Пунктуация, прочее)
$ unicode ’ ’
U+0020 SPACE …
Категория: Zs (Разделитель, пробел);

А здесь мы получаем +5 из первого перевода: h e a r t
$ unicode -v 心|grep Def
kDefinition: сердце; разум, интеллект; душа

См., например,
$ apropos perluniprops
perluniprops (1) - Индекс свойств символов Unicode версии 14.0.0 в Perl
$ apt-cache policy unicode #Debian
unicode:
Установлено: 2.9-1

Именно поэтому эти настройки можно изменять. Я предполагаю, что на обсуждаемых сайтах основным языком является не китайский.

Минимальное значение этой настройки предназначено для предотвращения слишком расплывчатых заголовков тем. Хотя действительно верно, что в китайском и других языках, использующих иероглифическую письменность, один символ может выражать гораздо более полное высказывание, чем, например, в английском или других языках, использующих алфавит из 26 букв.

Поэтому настройки по умолчанию, установленные в системе, обычно следуют стандартам, таким как 15 символов в заголовке и минимум 20 символов в тексте сообщения.

Я не думаю, что кто-то должен нести вину. Сайты создаются в первую очередь для своей целевой аудитории. Например, если речь об английском языке, было бы недобросовестно с моей стороны ожидать, что все сайты, не являющиеся родными для меня, будут иметь правильно переведённый контент на английском.

1 лайк

Это консенсус, но я не совсем уверен, что это действительно работает. Hello you all guys — это 15 символов, и это действительно размыто. То же самое с темами — как часто мы видели здесь короткий ответ, заканчивающийся (плюс ещё несколько символов). Тогда предел в 20 не работает и может добавить только больше шума. На самом деле на англоязычных форумах предел для тем мог бы быть всего 6, и это остановило бы I agree (учитываем ли мы пробелы?). Для заголовков достаточно 3.

Конечно, я понимаю, зачем нужны некоторые ограничения, но я не совсем уверен, что 15, 20 или любые числа, делящиеся на 5, действительно точны :wink: Но эй, именно поэтому у нас есть настройки для этого.

Глобальные форумы должны вносить некоторые корректировки и использовать модераторов, если слишком короткие заголовки начнут становиться проблемой.

Извините, ребята, если я сейчас задену чьи-то чувства, но эта тема говорит больше о том, что у нас слишком много свободного времени, чем о реальной проблеме :rofl:

(Почему Meta больше не предоставляет мне список эмодзи?)

2 лайка

Нам кажется, что мы вынуждаем пользователей избегать слишком коротких заголовков.

Но на самом деле мы вынуждаем других пользователей использовать слишком длинные заголовки.

Это всё культурная предвзятость.

И нет, пожалуйста, не говорите: «им следует обратиться к администратору, чтобы настроить это».

Корень культурной предвзятости находится прямо здесь, в Discourse.com.

Отсутствие чувствительности.

Также легко исправить. Просто по-другому считать символы.

Но кому какое дело. Это не большая проблема в «рынках, которые мы охватываем».

Стоит ещё раз отметить следующее:

Как вы можете представить, мы получаем множество запросов на новые функции и улучшения UX, и мы обычно следуем принципу, что те, которые вызывают больший интерес, получают приоритет раньше. На данный момент этот запрос не получил значительной поддержки от кого-либо, кроме вас.

Я понимаю, что для вас это может быть очень желаемой функцией, однако я считаю, что нам следует стремиться вести обсуждение в цивилизованном и продуктивном ключе, а не прибегать к необоснованным обвинениям.

2 лайка

Проблема в том, что если произвольно установить равенство каждого китайского иероглифа пяти латинским символам, а сообщение об ошибке всё ещё гласит: «Заголовок должен содержать не менее 15 символов», и вы введёте три китайских иероглифа, после чего ошибка исчезнет, то описание ошибки внезапно потеряет смысл (ведь вы ввели 3 символа, а не 15).

Думаю, на международном сайте, если спросить себя: «Как бы поступил Бог?» — сайт должен определять, на каком языке вы пытаетесь написать заголовок, и показывать соответствующее минимальное требование к количеству символов.

  • Заголовок должен содержать не менее 15 символов (для латиницы)
  • Заголовок должен содержать не менее 7 символов (для японского языка, поскольку большинство символов эквивалентны двум латинским, за исключением гласных…)

и так далее для каждого языка.

Другая проблема в том, что люди могут использовать несколько языков в одном заголовке, как вы сделали в оригинальном посте.

Речь идёт о взвешивании затрат на реализацию всего этого и оценке его полезности по сравнению с текущими глобальными настройками по умолчанию.

Просто хочу сказать, что не вижу необходимости переходить на личности — я владею английским и вьетнамским на родном уровне, сейчас изучаю русский и выучил немного латыни, китайского и японского. К слову, команда Discourse является одной из самых географически разнородных, которые я когда-либо видел (охватывает 6 континентов и 15 часовых поясов). Я не думаю, что это связано с чуткостью, скорее с логистикой.

Большинство сайтов используют один язык, поэтому существует единое глобальное значение по умолчанию для минимальной длины заголовка, которое администраторы могут изменить, причём есть также настройки по умолчанию для каждого локали.

Для сайта, где ведутся обсуждения на многих языках (что встречается гораздо реже), администраторы такого сайта могут снизить лимит до 3 или 5 символов.

(Причина, по которой это решение находится в руках администраторов, заключается в следующем: например, если минимальная длина составит 3 символа, пользователи могут писать очень короткие спамные заголовки на английском, если это самый распространённый язык. Для зрелого сообщества это может не стать проблемой, но для других сообществ — может. Администраторам решать, как взвесить эти факторы исходя из состава их пользователей.)

4 лайка

Я также придумал ещё одно решение: возможность устанавливать минимальную длину заголовка темы отдельно для каждой категории, если есть несколько категорий с разными языками.

Для основного функционала это, вероятно, всё ещё будет зависеть от частоты использования, но такую возможность можно реализовать и через плагин.

Основная причина, по которой это решение находится в руках администраторов, а не пользователей, — борьба со спамом и обеспечение ясности заголовков. Хотя я понимаю, насколько это может быть раздражающим для пользователя на многоязычном форуме в текущем виде.

1 лайк

Лучше, чем подсчёт байтов, было бы, например,

wcswidth (3) — определить количество столбцов, необходимое для строки фиксированной ширины с широкими символами

В любом случае, это похоже на «Выберите своего аватара», когда раса и пол принадлежат кому-то другому.

И знаете что? Я думал, что уже ответил на это сообщение по электронной почте. Но, похоже, тема была переназначена, пока я был офлайн. Поэтому, когда письмо пришло в Discourse, не было места для его публикации, и оно попало в «чёрную дыру». Так что я обнаружил баг. По крайней мере, пользователь должен получать уведомление о возврате.

Search results for 'wcswidth' - Discourse Meta находит только этот один ответ. Мои другие сообщения, отправленные по почте, пришли нормально, но не то, где я упоминал wcswidth. Это, должно быть, связано со сменой темы и т. п.

Я не против смены темы. Но система должна обязательно отправлять пользователю письмо с уведомлением о том, что его сообщение не удалось… по причине…

Хорошо, я могу подтвердить, что отправка сообщения в уже закрытую тему приводит к получению письма об отказе (но при этом теряется текст, введённый пользователем!), однако при смене темы и подобных действиях, похоже, письмо просто отбрасывается.