Мысли об автоматическом переводе с помощью ИИ

РЕДАКТИРОВАНИЕ: Эта тема началась как своего рода запрос на новую функцию, который позволил бы мне, как автору, иметь больше контроля над тем, как обрабатываются мои материалы (сообщения). Это привело к гораздо более глубокому размышлению о том, к чему может привести автоматический перевод контента с помощью ИИ, и имеет ли это смысл и вообще возможно ли это в контексте этого форума (и подобных ему). Ниже следует мой оригинальный пост:


Я хочу продолжить мысль, возникшую у меня при обсуждении недостатков автоматического перевода. Большая часть дискуссии касалась того, как администратор Discourse может настроить сайт так, чтобы перевод (или его отсутствие) осуществлялся корректно, и когда перевод происходит, как пользователи должны быть проинформированы о том, что они читают (какой язык оригинала, является ли текст переводом и т. д.).

Но у меня есть и другая точка зрения:

Было высказано мнение, что прокси-серверы осуществляют некоторый перевод с целью привлечения трафика:

Но я хочу поговорить об источнике информации, то есть о том, что вы увидите, когда наконец попадете на сообщение, написанное автором?

Итак, давайте возьмем Meta в качестве примера и рассмотрим ситуацию с разных точек зрения и с разными целями:

  • Владелец сайта (CDCK): Мы хотим общаться с как можно большим количеством людей, поэтому включаем локализацию с помощью ИИ.
  • Читатель: Я хочу легко читать всё на языках, которыми я владею (на моем родном языке, а на любых других, которым я научился, я хочу читать оригиналы; в противном случае — автоматический перевод на мой родной язык).
  • Автор: Теперь есть два варианта:
    A) Я пишу на любом языке, и меня устраивает, если вы переведете это на любой язык, какой захотите.
    B) Я очень внимательно отношусь к тому, что и как я пишу на выбранном мной языке (здесь, на Meta, это английский, так как это основной язык форума), и я хочу отказаться от автоматических переводов, которые вы предлагаете.

Итак, вариант B — это моя позиция. Как участник, я хочу иметь некоторый контроль над тем, что вы делаете с моими материалами, независимо от того, как вы представляете себе работу форума. Меня устраивает, что некоторые люди не смогут понять, что я говорю. Если я пишу на английском, я могу ожидать, что люди тоже выучат английский, чтобы понять меня — мне самому пришлось выучить английский в первую очередь. И я не хочу быть неправильно понятым только ради того, чтобы меня услышало как можно больше людей.

Таким образом, эта функция предназначена для того, чтобы автор мог контролировать уровень перевода своих сообщений.

И если представить реализацию этой функции, то, конечно, всё может усложниться: если я владею несколькими языками, я могу пойти даже на то, чтобы вручную локализовать свой пост. Маловероятно, но теоретически — да.

4 лайка

Это… кое-что. Вы действительно требуете этого от каждого живого человека на Земле только потому, что вы выучили английский? :flushed_face:

Конечно, это можно сделать. Тогда каждый пост, где автор говорит, что читатель должен или может, должен быть скрыт из всех переведённых тем. Потому что тогда это будет справедливо.

Это будет интересный мир, когда каждый итальянец, испаноговорящий, португалоговорящий, русский, китаец, вьетнамец… последуют вашей идее.

1 лайк

Обсуждаем ли мы здесь технические и философские аспекты перевода или вкусы и жизненный опыт друг друга?

1 лайк

Почему, по-твоему, это не связано? Ты только что объяснил, почему хочешь что-то получить, используя очень философские доводы, а теперь какой-то довод не подходит?

Я очень не люблю двойные стандарты. Но это не твоё дело решать, что я могу или не могу делать. Ты сам выбираешь, писать или нет, и не более того.

Я отключаюсь.

Это будет очень грустный мир, если люди перестанут пытаться изучать языки друг друга. Мировая война менее чем через 5 лет. Даже без того, чтобы ИИ стал злым. И я здесь оптимистичен.

Точно, и этот пост целиком о моём выборе и о выборе CDCK — пустить меня или нет.

1 лайк

Спасибо за ваш отзыв, но, полагаю, реагировать на тему только потому, что вы не разделяете точку зрения автора, может даже нарушать правила сообщества. Есть много функций Discourse, которыми я бы не пользовался, и я не объявляю об этом в каждой из них, не говоря уже о том, чтобы говорить авторам, что они глупы.

Если вы как автор не заботитесь о том, как вас представляют — я совершенно не против. Я же не согласен, и я не пришел сюда, чтобы слышать, что я «неправильный человек». Более того, я считаю, что это даже не цель этого форума. Я вполне спокойно отношусь к тому, что что-то не будет сделано, или к тому, что существует другое решение моей проблемы. Гражданская и конструктивная дискуссия. Спасибо.


Что касается вашего вопроса: Требую ли я от всех выучить английский? Нет. Мне не нужно, чтобы все читали то, что я написал. Но если они это делают, я хочу, чтобы они видели только оригинал. А если они хотят увидеть перевод, я хочу, чтобы они использовали свой собственный инструмент, чтобы они осознавали, что переводят что-то. Чтобы они понимали, что это не идеально. Я боюсь, что внедрение и использование автоматического перевода с помощью ИИ заставит людей лениться изучать оригинал. И лениться отвечать мне на языке, который я понимаю. И я хочу как автор на этом сайте отказаться от этого. Мне очень нравилось общаться с англоязычным сообществом со всего мира, и у меня сильное ощущение, что содержание деградирует, если каждый из нас начнет говорить на своих языках, позволяя ИИ автоматически переводить это для всех остальных. Не в случае с очень техническими темами, но определенно с более глубокими темами, подобными этой.

Я считаю, что автоматический перевод должен быть включен для категорий вроде Support или bug, но его следует тщательно обдумать для любых более глубоких категорий, таких как #feature или #site-feedback, и включить, но с ручной вычиткой, например, в Documentation или #community-wiki. Иначе даже как читатель я могу начать беспокоиться о качестве контента.

По сути, Discourse теперь перешла от бизнеса с 100% сверхвысококачественным UGC (пользовательским контентом) к полу-AIGC (один пост — это UGC — оригинал, все переводы по сути сгенерированы ИИ, хотя все ожидают, что они будут правильными, но всё же — они полностью сгенерированы ИИ, и никто не будет проверять их все, чтобы убедиться, что ничего не пошло не так). И поскольку люди начнут реагировать на AIGC, это может стать очень хаотичным.

Это большой шаг.

И мой вопрос: Хочу ли я быть частью этого? Или, по крайней мере, иметь возможность держаться в стороне?

6 лайков

Это хорошая тема. Я согласен, что автоматический перевод текста без предупреждения читателей может стать проблемой. Другое возможное решение — использование предупреждающего баннера, который уведомит читателей об исходном языке и системе, использованной для перевода.

Английский язык — один из самых странных языков, когда-либо существовавших, где несколько незначительных изменений в структуре предложения или грамматике могут кардинально изменить смысл предложения или то, как его воспринимают читатели.

1 лайк

Теперь, когда вы так говорите, возможно, это даже не решит мою проблему.

Предположим, что я говорю по-английски (но не как носитель). Допустим, у нас есть тема следующего содержания:

  1. Главная тема: SomeLanguage
  2. Ответ: EnglishLanguage
  3. Ответ: SomeLanguage
  4. Ответ: TotallyDifferentLanguage

Всё переводится на английский, но только первый ответ действительно написан носителем английского.

Так на каком же языке ведётся эта ветка? Отсутствие предупреждений облегчит мне жизнь. Каково качество такой ветки? По сути, все отвечают на перевод, сделанный ИИ. Если исходная тема уже не была высокого качества, она будет становиться всё хуже и хуже… И я думаю, что мой ответ «только на английском» не исправит этого.

Возможно, всю суть моего тезиса можно свести к следующему: можно ли поддерживать содержательное обсуждение в смеси языков, соединённых роботом? Действительно ли открытие доступа для всех, независимо от уровня владения языком, и снижение барьера до минимума улучшит обсуждение?

Подчеркну: я действительно рад, что в этом сообществе есть люди, которые вкладывают свои усилия в:

  1. Изучение новых технологий
  2. Изучение нового языка (если применимо)
  3. Изучение того, как вообще вести обсуждение

Теперь одно из этих направлений станет не нужно. Но даже не это. Оно будет заменено роботом. Победа или поражение?

Это также может использоваться для более взрослых или взрослых изучающих иностранный язык, где задача говорить понятно и понимать становится сложнее из-за низкого уровня владения, и, следовательно, требуется большее мастерство в тонкостях произношения.[21]

1 лайк

Попробую что-то здесь написать (это я пишу по-чешски) — сегодня я получил от учителя двойку.

Теперь это интересно. Я написал это предложение на чешском. У нас оценки идут от 1 до 5, где 1 — лучшая, а 5 — худшая в школе.

Я написал буквально:

Сегодня я получил от учителя 5.

В английском переводе это получилось довольно хорошо, смысл сохранился (хотя и не сам факт). Я кратко проверил другие языки, и там всё не так уж хорошо.

В немецком сказано «Fünf», но в Германии система из 6 оценок. Так что 5 означает провал, но есть даже что-то хуже этого (представьте себе!).

Но если это прочтёт немецкоязычный швейцарец, у них всё наоборот (5 — вторая после лучшей)!

В японском всё ещё упоминается число 5, которое в Японии на самом деле означает «лучшая».

Теперь представьте, что чех, немец, швейцарец и японец идут в бар…

О, и я проверил Финляндию, и там ещё смешнее!

1 лайк

Погодите секунду…

Какую функцию можно добавить в Discourse, чтобы запретить циклы «скопировал-вставил» через Google Translate???

Стоит ли предоставить пользователям возможность отключать копирование, перехватывая комбинацию клавиш CTRL-C???

Большая часть этой дискуссии кажется интеллектуальным упражнением. В условиях использования (TOS) подавляющего большинства форумов указано, что «вы предоставляете права операторам форума в обмен на ценность, которую они вам дают, предоставляя онлайн-сообщество».


Однако я твердо выступаю за маркировку: важно, чтобы было понятно, что контент переведён, и всегда легко можно было перейти к оригиналу. Я определённо поддерживаю доработку нашего интерфейса.

«Изначально написано на немецком — посмотрите оригинал, нажав здесь»

Это слишком много шума для каждого отдельного сообщения, но я уверен, что мы сможем придумать дружелюбный и понятный способ маркировки.

Также полезно указывать: «Я говорю на языках 1/2/3, поэтому показывайте оригинал на этих языках». У меня именно такая проблема на X, так как я владею несколькими языками. Отображение языков, на которых я говорю, также помогает сообществу лучше понимать нюансы при кросс-переводе.

9 лайков

Я не думаю, что кто-то предлагал вам это предотвращать. У меня сложилось впечатление, что такой подход предпочтителен, потому что он повышает осведомлённость о том, что это перевод.
{quote=“tvavrda, пост:7, тема:381187”}
И если они хотят увидеть перевод, я хочу, чтобы они использовали свой собственный инструмент, чтобы они осознавали процесс перевода. Тогда они будут знать, что результат не идеален.
[/quote]

И у меня также сложилось впечатление, что в настоящее время не все пользователи об этом осведомлены. Это приводит к недопониманию, как в Edit of hidden entry blocked period setting, где название настройки сайта, которое я предоставил, было переведено, и пользователь этого не заметил, поэтому это не помогло ему.

Я понимаю желание отказаться от перевода своих постов, чтобы избежать недопонимания. Как я уже говорил в другой теме: интересно, что бы произошло, если бы я написал свой пост, вызвавший недопонимание, на немецком языке, а ИИ перевёл его так, как я его опубликовал. Были бы мои намерения истолкованы иначе? Или реакция была бы такой же?

3 лайка

Давайте сделаем шаг назад.

Если бы было:

  1. Абсолютно ясно, что это перевод
  2. Как-то проще получить доступ к оригиналу (сейчас это уже один клик)

Какая проблема остаётся?

2 лайка

Эта ветка должна была быть длиннее, но изначально это был просто фидбек и предложение новой функции. Однако в процессе обсуждения я понял, что тема гораздо сложнее, и, возможно, решения вообще не существует, либо его поиск займёт очень много времени.

Существует множество тонких проблем, которые могут проявиться только со временем, вызывая разочарование у пользователя за пользователем. Я глубоко ценю главную мотивацию CDCK — создание Discourse для поддержки цивилизованных дискуссий. Мне это нравилось с самого первого раза, когда я установил систему 10 лет назад. Это был ключевой аргумент в её пользу для меня, независимо от того, насколько хорошим или плохим был сам продукт. Я верил, что с такой миссией вы создадите отличный продукт. И, думаю, я был прав.

Довольно много.

Проблемы локализации продукта

Я занимался локализацией нескольких программных пакетов, и Discourse — один из двух крупнейших. Я также создавал несколько крупных программных продуктов. Это огромная работа с языком, если делать всё правильно. Непоследовательное название чего-либо разочаровывает пользователей. Будь то в самом приложении или в документации. Иногда я нахожу более подходящее чешское слово для того, что у вас названо простым английским термином (но у нас такого нет), и мне приходится просматривать все переводы Discourse, чтобы проверить, используется ли оно последовательно.

Поэтому, когда вы видите проблему @Moin с лишь небольшой частью — настройкой в цитате, — я беспокоюсь. Если однажды вы добавите поддержку чешского языка и каждый чешский пользователь сможет читать всё в Meta на своём языке, я опасаюсь. Потому что я уверен, что 50% переводов будут выполнены плохо. Все настройки сайта и прочее будут иметь неверные названия. Это связано с тем, что не всегда очевидно, какие слова имеют схожие значения с тем, что вы имеете в виду, в другом языке. Было несколько вариантов, и мне приходилось выбирать. Иногда вопреки предложениям переводчика на базе ИИ.

Глубокие дискуссии

Затем есть дискуссии, подобные этой. С моей точки зрения, это сложное обсуждение. Оно критически важно, поэтому мне приходится много думать и писать, учитывая культурные особенности. Я примерно знаю, кому пишу, потому что читаю ваши профили и знаю, из каких вы стран. Тот факт, что мы все уже знаем английский, что-то значит. Это означает, что мы стали ближе и уже разделяем некоторые аспекты общей культуры. Мы примерно понимаем, что звучит забавно по-английски, поэтому нам не всегда приходится говорить что-то вроде «кстати, это чешская шутка».

Мы уже знаем препятствия в подборе слов для того, что хотим сказать, мы совершали ошибки в прошлом, и теперь стараемся их не повторять. Вот тест, который я только что провёл здесь:

Если я использую иностранный язык, высока вероятность, что я также осознаю не только проблемы перевода. Возможно, я узнал (может быть, трудным путём), что школьные оценки не везде одинаковы. Поэтому я не говорю вам, какую оценку я получил, когда в США используются буквы. ИИ тоже это знает, поэтому он перевёл «неудовлетворительную оценку» на английский. Но провалился с другими языками, просто выдав вам цифру. Но именно так я бы написал, если бы общался на чешском форуме с чехами (вы все внезапно показались бы чехами). Так что я бы совсем не волновался, что вы не поймёте. И разговор стал бы очень странным уже с третьего поста.

И это очень простая проблема. Представьте, что вы начинаете терять смысл слово за словом в течение важной дискуссии.

Как в игре «Испорченный телефон», о которой я упоминал. Перевод ИИ работает здесь как «шум». Вы начинаете с чего-то и в итоге получаете совершенно другое.

Я, автор

Итак, что я хотел предложить: я начал чувствовать себя некомфортно как автор здесь. Я хочу вносить вклад, но хочу иметь больше контроля. Как автор книги, который должен согласовывать переводы своих произведений. Перевод никогда не будет звучать как оригинал, даже при самом тщательном подходе. Авторы это знают. Поэтому не любой может перевести их книги в любое время. Они выбрали бы переводчика, по крайней мере, и проверили бы, как книга звучит на новом языке.

У меня здесь нет контроля над этим. Я хочу, чтобы меня поняли, мне это действительно важно. Возможно, 95% постов здесь — это простые технические вопросы, пусть так. Но меня бы отпугнуло начало чего-то более глубокого и значимого, если бы я знал, что меня небрежно (с помощью ИИ) переводят на множество языков и культур. Никакое количество предупреждений не решит эту проблему. Это уже существует, и люди будут этим пользоваться, потому что это удобно. Никто никогда не будет читать оригинал. И люди начнут отвечать на мою ветку, основываясь на этих плохих переводах, а я буду читать плохие переводы их ответов. Я был бы очень недоволен.

4 лайка

Что ж, если вы пишете на немецком в Германии, я могу гарантировать, что без переводов у нас не возникает недопонимания. То же самое, если я использую финский.

В чём здесь выгода для всех?

Речь не о проблемах перевода, которые легко решаются простым вопросом. Речь о том, чтобы максимально ограничить коммуникацию границами и заставить использовать язык-посредник — потому что раньше другого решения не было, не было переводчиков. Теперь у нас есть такой инструмент.

И я спрашиваю: по какой причине кто-то считает своим правом диктовать, на каком языке я читаю? И, если я правильно понимаю, именно это и имел в виду Сэм, говоря о копипасте.

Уже существуют инструменты, если кто-то хочет читать на оригинальном языке. Есть метка, показывающая, когда контент федеративный (о боже, даже там кто-то может воспользоваться переводчиком и неправильно понять что-то :smirking_face:), и, надеюсь, все используют какую-то метку, когда в общении участвует ИИ. У нас также есть метка для переводчиков.

Но дело не в этом сейчас. Речь о том, чтобы дать авторам право решать, когда переводы делаются, а когда нет. Это не про теги и кнопки.

1 лайк

Именно с этого я и начал. И чтобы ответить на ваш вопрос: «Кто я такой, чтобы решать?», ответ прост: автор контента здесь. Контента, который питает форум. Реального продукта, который здесь «продаётся».

Но теперь я задаю более сложный вопрос: Уничтожит ли многоязычность Meta? Приведёт ли снижение входных барьеров к повышению качества? Это сейчас меня больше всего беспокоит. Я знаю, что вы думаете: «Конечно! Каждый должен присоединиться!». А я шепчу: «Не уверен, возможно, языковой барьер был хорошим фильтром от всего шума…».

Я помню времена, когда существовали фермы контента. Столько сайтов, где люди генерировали тонны текстов, чтобы обмануть SEO. И сайты, использующие такой контент, быстро теряли позиции в результатах поиска. Потому что все мы знаем: это не настоящий контент, люди получали за это деньги. И у меня есть ощущение (не знание, я не могу это доказать), что автоматические переводы каким-то образом попадут в эту же категорию. Не настоящий контент.

И я чувствую себя человеком, который поддерживает такую ферму контента. Я пишу что-то здесь, и автоматически появляется ещё 20 версий. Люди начинают отвечать ерундой… И ничего с этим нельзя сделать.

На самом деле я также боюсь, что Meta может превратиться в те дешёвые сайты с вопросами и ответами, которые существовали до появления StackOverflow с его превосходным курируемым контентом. Что, как я знаю, имеет общую историю с Discourse, конечно.

1 лайк

Meta — это в первую очередь форум для обсуждения функций Discourse, багов, мелких недочетов UX и так далее.

Если баг подробно описан на немецком, а я читаю его на английском, вероятность того, что я пойму суть бага, довольно высока. При правильном запросе мы также можем попросить ИИ представить этот баг более широкой аудитории, чтобы все понимали, что это был баг и что он исправлен.

Еще один вопрос, над которым стоит поразмыслить: только 8% японцев говорят по-английски, по сравнению, скажем, с 45% чехов.

Английский как фильтр для «людей, способных к цивилизованному общению в Discourse онлайн», может служить своего рода лакмусовой бумажкой в некоторых странах, где все «высококачественные пользователи говорят на прекрасном английском», но уж точно не во всех.

Да, некоторые тонкие нюансы обсуждения очень трудно перевести. Но важно отметить, что сегодня перевод с помощью ИИ находится на наихудшем уровне, который когда-либо будет. Со временем мы сможем улавливать более тонкие нюансы и лучше передавать стиль. На самом деле я только что прочитал ваш пост на иврите, и он был довольно точным: все ваши основные идеи были переданы уверенно, оценка 8 из 10.

5 лайков

Но этот конкретный сценарий больше не будет иметь места. Дело в том, что мы сохраняем тред на английском, в то время как перевод может происходить в контексте всего общения (не знаю, происходит ли это, но мог бы). Перевод осуществляется в одну сторону: с английского на другие языки. Таким образом, у нас есть стабильный перевод всего треда на уровне 8/10. Это очень хорошо!

Допустим, перевод с чешского на иврит — 7/10.

Итак, я начну на чешском, а вы прочтёте это на иврите с качеством 7/10.

Затем вы ответите на иврите, а я прочитаю перевод на чешский с качеством 7/10.

Чтобы стало ещё веселее, к нам присоединится японский язык с версией 7/10 (но это будет другой 7/10 — со своими уникальными языковыми особенностями, отличными от чешско-ивритских).

И предположим, что @Jagster тоже захочет внести свой вклад со своим уникальным языком.

Английский язык не будет задействован. Ни в коем случае.

Люди общаются в своих собственных «коробках», у них нет ничего общего, даже общего ощущения ситуации. И что-то помимо их воли пытается заставить их понять друг друга. (На самом деле нет — оно просто выполняет свою работу — перевод. Задача перевода не в том, чтобы «дать им понять друг друга». ИИ никогда не будет заботиться так, как человеческий переводчик, который спросит: «Вы имели в виду X или Y?», прежде чем продолжить перевод.)

Вы действительно уверены, что это может сработать в любых обстоятельствах? Даже человеческие переводчики, я считаю, откажутся от такой работы. Дело не в том, достаточно ли хорош ИИ. Даже если он достигает 9,8/10 в треде из 100 сообщений, я уверен, что всё равно провалится, что бы ни произошло.


Я представляю это как костёр. Люди сидят вместе ночью, разговаривают, поют, наслаждаются теплом огня. А теперь вы говорите: «Мы можем транслировать огонь на весь мир, теперь у нас есть инструменты!». Так что отныне каждый будет разводить свой собственный маленький костёр дома. Знаете, это просто удобнее: не нужно никуда ехать и преодолевать все эти трудности. И мы будем транслировать этот костёр в каждый дом. Проблема решена. У вас есть огонь? Проверено. Вы видите всех остальных? Проверено. Даже больше людей могут присоединиться! (хотя это и не было запрошено, но всё же проверено). Так что вы вместе у костра со своими друзьями! Нет.

Это напомнило мне вечеринки во время пандемии коронавируса. Мы на самом деле это пережили.

Может быть, добавить иконку перевода/языка рядом с иконками истории/времени под постом?

:+1: В Firefox есть опция «Никогда не переводить для этого языка».

Также: возможность всегда видеть оригинал может быть ценной. Я обнаружил, что поездки в места, где я не говорю на местном языке, спасают меня от рекламы… И веб-пространство стало именно таким местом.

Примечание: возможно, стоит перенести существующие комментарии по этой теме из оригинального объявления сюда?

5 лайков