Запрос функции: нативная запись голосовых сообщений и автоматическая транскрипция аудио

Привет, команда Discourse,

Я хотел бы предложить новую функцию, которая могла бы существенно улучшить доступность и вовлечённость на платформе Discourse: нативная поддержка записи и публикации аудио-сообщений прямо в темах и ответах, а также автоматическая транскрипция аудио в текст (по аналогии с тем, что предлагают Instagram и WhatsApp). Я видел обсуждения плагинов и компонентов для этой возможности, включая информацию о том, что доступный сейчас плагин не работает. Поскольку у меня нет экспертизы даже для самостоятельной установки плагина из GitHub и его проверки, нативный инструмент, встроенный в систему и управляемый простым переключателем включения/выключения, был бы замечательным решением для обычных пользователей, таких как я =)

Зачем нужна эта функция?

Для многих людей набор текста не всегда является наиболее эффективным или доступным способом общения. Это может касаться:

  • Людей с ограниченными возможностями или временными травмами, затрудняющими набор текста.
  • Участников сообщества, которые предпочитают говорить из-за уровня грамотности или личных предпочтений.
  • Пользователей мобильных устройств, которым нужна более быстрая и бесконтактная коммуникация.

Возможность записи и публикации аудио (голосовых сообщений), включая комментарии, значительно снизила бы барьеры для участия и сделала бы сообщества Discourse более инклюзивными.

Почему важна транскрипция?

Автоматическая транскрипция голосовых сообщений обеспечит участие всех пользователей, включая тех, кто не может прослушивать аудио (например, из-за нарушений слуха или когда они находятся в тихой обстановке), позволяя им полноценно взаимодействовать с контентом на платформе.

Интеграция этой функции на нативном уровне (как это делают Instagram, WhatsApp или Google Messages) приблизит платформы Discourse к современным стандартам инклюзивности и доступности.

Что уже было предпринято?

Я видел, что ранее существовали решения сообщества:

Однако большинство из них либо не поддерживаются активно, либо не полностью интегрированы, либо не имеют функций транскрипции. В сообществе явно сохраняется интерес к аудио-функциям и встроенному преобразованию голоса в текст.

Предлагаемый функционал

  • Прямая запись аудио (голосовых сообщений) в редакторе для тем и ответов.
  • Поддержка загрузки аудиофайлов в качестве альтернативы.
  • Интеграция со службой распознавания речи для автоматической генерации и отображения расшифровки каждого аудио-сообщения.
  • Возможность редактирования или исправления транскрипции перед публикацией.
  • Инструменты модерации для управления и проверки аудио-контента.

Заключение

Эта функция выделит Discourse как инклюзивную и современную платформу, поддерживающую разнообразие пользователей и ситуаций.

Спасибо за рассмотрение этого предложения! Я (и другие участники сообщества) с большим энтузиазмом ждём любых подвижек в этом направлении.

7 лайков

Лично я был бы этому очень рад. В прошлом году я сломал руку, и хотя голосовой ввод Apple работает довольно хорошо, мне бы хотелось иметь возможность использовать его прямо в Discourse. Хотя, если честно, я часто отвлекаюсь во время диктовки! :laughing:

Мне также это нужно для семейного форума, где мы, среди прочего, делимся фотографиями и обсуждаем их. Возможность записать сообщение, чтобы сохранить голос, а затем увидеть его расшифровку, была бы просто золотом.

Спасибо, что так лаконично изложили запрос.

3 лайка

Похоже, это вопрос, который должен решаться на стороне компьютера. Освоение одной системы диктовки и её настройка уже кажутся сложной задачей. Наличие разных систем в каждом используемом вами программном обеспечении, вероятно, было бы ужасным решением. Попытки поддерживать диктовку на нескольких платформах через браузер также выглядят нереализуемыми.

Разве не лучше, чтобы преобразование речи в текст работало корректно ещё до загрузки на форум? Разве преобразование речи в текст не работает лучше на вашем собственном компьютере, где его можно обучить под ваш голос?

Я полностью за поддержку пользователей всех типов, но не вижу, как может быть логичным возлагать ответственность за транскрибацию на каждое веб-приложение. Мы не ожидаем, что Discourse будет читать текст вслух для слабовидящих; Discourse предоставляет HTML, с которым может работать выбранное пользователем приложение.

6 лайков

Доступность — один из вариантов использования (вероятно, основной), но не единственный.

Поскольку форум предназначен для облегчения содержательного взаимодействия и создания сообщества, предложение более чем одного способа поделиться мыслью кажется ценным. Я не знаю, насколько сложно это будет с точки зрения разработки и стоит ли оно усилий, но постоянно думаю о том, как легко люди выражают себя в группах WhatsApp просто потому, что там есть возможность записать голосовое сообщение. Было бы замечательно иметь что-то подобное на форуме, где разговоры могут быть лучше организованы по темам и категориям.

Я сам часто использую функцию Instagram, которая транскрибирует голосовые сообщения вместо их воспроизведения. Это удобно, когда я не хочу использовать наушники, прикладывать телефон к уху или воспроизводить звук вслух. Наличие аналогичной опции на форуме сделало бы голосовые сообщения гораздо более практичными. И личными.

Конечно, форумы не совсем предназначены для людей, которые не любят читать или писать, или которым слишком хлопотно переключаться между приложениями, чтобы скопировать и вставить транскрибированный текст. Но в моём случае большинство людей на форуме, который я веду, используют Discourse с мобильных устройств, а не с компьютеров. Я представляю, что это меняет то, как и когда они участвуют. Многие могут отказаться от публикации просто потому, что в данный момент не могут много печатать. Возможность говорить и отправлять голосовое сообщение или, что ещё лучше, транскрибировать речь в текст и редактировать его позже, имела бы большое значение.

С другой стороны, голосовые сообщения усложняют модерацию, поэтому это то, что нам нужно коллективно обдумать, рассмотрев как можно больше различных сценариев использования.

2 лайка

ООООО, ты права.

Понятно. Это потому что я старый. Я просто ненавижу разговаривать с компьютером. Даже когда это было бы очевидно быстрее, чем мое упрямство в том, чтобы выцарапывать текст на клавиатуре телефона.

Создание интерфейса, позволяющего записывать или загружать аудиофайл и затем транскрибировать его, не должно быть таким сложным. Думаю, компонент темы мог бы справиться с частью загрузки, а существующий плагин ИИ — с транскрибацией. (И самое смешное, что я последние пару-тройку недель работал над инструментом транскрибации с открытым исходным кодом transcribe-with-whisper!)

5 лайков

Ну, запись на самом деле не новый запрос, и раньше было довольно сложно заставить её работать правильно. Но — форум не принимает фотографии или видео, так почему аудио должно или может быть каким-то другим? У всех нас есть устройства, которые это умеют, а остальное — просто хороший плеер :thinking:

2 лайка

Что ж, я понимаю вашу точку зрения, но природа этих форматов не совсем одинакова.

На форуме мы обычно делимся изображениями, созданными кем-то другим, тогда как голосовые сообщения чаще всего содержат ваш собственный голос и носят более личный характер. По крайней мере, такова цель.

Затраты усилий на создание собственных фотографий, видео и голосовых сообщений существенно различаются — и голосовые сообщения обычно являются самым быстрым и прямым способом поделиться мыслью. Сделать или выбрать фотографию, записать и загрузить видео часто требует больше шагов.

Однако с аудио, особенно если функция встроена в инструмент, который вы уже используете, можно просто говорить и отправлять. Это снижает барьер для участия, поэтому я вижу ценность в наличии такой опции в контексте форума.

Я даже вижу ещё большую ценность в возможности транскрибации и наличия как аудио, так и текста, из-за проблем с модерацией и поиском, которые могут возникнуть при использовании только аудио.

6 лайков

Я хотел бы поддержать идею Суэлен. Моя жена и её сестра болеют болезнью Паркинсона, и они используют Siri для отправки каждого сообщения и письма. Я ежедневно наблюдаю за деталями их использования и размышляю о том, как люди без инвалидности также могли бы лучше взаимодействовать с их программным обеспечением через голос.

Хотя Discourse во многих отношениях прекрасен, его главное отличие от старых систем BBS заключается в том, что он хорошо работает на телефонах и планшетах, а также в браузере. А телефоны — это в первую очередь голосовые устройства.

Если бы я создал набор тестов для того, каким должен быть Discourse в 2030–2035 годах, он включал бы возможность зайти на сайт Discourse с телефона и просто устно ориентироваться в сообществе. В идеале можно было бы перемещаться по категориям и темам только с помощью голоса и аудио, а текст озвучивался бы по запросу.

Это гораздо важнее, чем ИИ, и при этом гораздо проще реализовать. И хотя каждое устройство будет иметь свой способ транскрибации речи в текст и исправления ошибок, вы не хотите полагаться на то, что эти системы будут хорошими, бесплатными или последовательными, если этого можно избежать.

Это была бы огромная функция, учитывая, насколько много возможностей у Discourse, и мне интересно, каковы были бы затраты на транскрибацию, но я считаю, что это действительно очень ценное предложение, которое стоит изучить.

1 лайк

У нас, в принципе и на практике, уже есть все необходимые инструменты, если только ими пользоваться. Я написал этот текст на финском языке. Затем ИИ перевёл его на английский, и всё отлично.

1 лайк