Запрос функции: нативная запись голосовых сообщений и автоматическая транскрипция аудио

Suelen_Calonga · 05.Октябрь.2025 12:19:32

Привет, команда Discourse,

Я хотел бы предложить новую функцию, которая могла бы существенно улучшить доступность и вовлечённость на платформе Discourse: нативная поддержка записи и публикации аудио-сообщений прямо в темах и ответах, а также автоматическая транскрипция аудио в текст (по аналогии с тем, что предлагают Instagram и WhatsApp). Я видел обсуждения плагинов и компонентов для этой возможности, включая информацию о том, что доступный сейчас плагин не работает. Поскольку у меня нет экспертизы даже для самостоятельной установки плагина из GitHub и его проверки, нативный инструмент, встроенный в систему и управляемый простым переключателем включения/выключения, был бы замечательным решением для обычных пользователей, таких как я =)

Зачем нужна эта функция?

Для многих людей набор текста не всегда является наиболее эффективным или доступным способом общения. Это может касаться:

Людей с ограниченными возможностями или временными травмами, затрудняющими набор текста.
Участников сообщества, которые предпочитают говорить из-за уровня грамотности или личных предпочтений.
Пользователей мобильных устройств, которым нужна более быстрая и бесконтактная коммуникация.

Возможность записи и публикации аудио (голосовых сообщений), включая комментарии, значительно снизила бы барьеры для участия и сделала бы сообщества Discourse более инклюзивными.

Почему важна транскрипция?

Автоматическая транскрипция голосовых сообщений обеспечит участие всех пользователей, включая тех, кто не может прослушивать аудио (например, из-за нарушений слуха или когда они находятся в тихой обстановке), позволяя им полноценно взаимодействовать с контентом на платформе.

Интеграция этой функции на нативном уровне (как это делают Instagram, WhatsApp или Google Messages) приблизит платформы Discourse к современным стандартам инклюзивности и доступности.

Что уже было предпринято?

Я видел, что ранее существовали решения сообщества:

Однако большинство из них либо не поддерживаются активно, либо не полностью интегрированы, либо не имеют функций транскрипции. В сообществе явно сохраняется интерес к аудио-функциям и встроенному преобразованию голоса в текст.

Предлагаемый функционал

Прямая запись аудио (голосовых сообщений) в редакторе для тем и ответов.
Поддержка загрузки аудиофайлов в качестве альтернативы.
Интеграция со службой распознавания речи для автоматической генерации и отображения расшифровки каждого аудио-сообщения.
Возможность редактирования или исправления транскрипции перед публикацией.
Инструменты модерации для управления и проверки аудио-контента.

Заключение

Эта функция выделит Discourse как инклюзивную и современную платформу, поддерживающую разнообразие пользователей и ситуаций.

Спасибо за рассмотрение этого предложения! Я (и другие участники сообщества) с большим энтузиазмом ждём любых подвижек в этом направлении.

tobiaseigen · 05.Октябрь.2025 15:42:35

Лично я был бы этому очень рад. В прошлом году я сломал руку, и хотя голосовой ввод Apple работает довольно хорошо, мне бы хотелось иметь возможность использовать его прямо в Discourse. Хотя, если честно, я часто отвлекаюсь во время диктовки!

Мне также это нужно для семейного форума, где мы, среди прочего, делимся фотографиями и обсуждаем их. Возможность записать сообщение, чтобы сохранить голос, а затем увидеть его расшифровку, была бы просто золотом.

Спасибо, что так лаконично изложили запрос.

pfaffman · 05.Октябрь.2025 16:00:23

Похоже, это вопрос, который должен решаться на стороне компьютера. Освоение одной системы диктовки и её настройка уже кажутся сложной задачей. Наличие разных систем в каждом используемом вами программном обеспечении, вероятно, было бы ужасным решением. Попытки поддерживать диктовку на нескольких платформах через браузер также выглядят нереализуемыми.

Разве не лучше, чтобы преобразование речи в текст работало корректно ещё до загрузки на форум? Разве преобразование речи в текст не работает лучше на вашем собственном компьютере, где его можно обучить под ваш голос?

Я полностью за поддержку пользователей всех типов, но не вижу, как может быть логичным возлагать ответственность за транскрибацию на каждое веб-приложение. Мы не ожидаем, что Discourse будет читать текст вслух для слабовидящих; Discourse предоставляет HTML, с которым может работать выбранное пользователем приложение.

Suelen_Calonga · 05.Октябрь.2025 17:11:36

Доступность — один из вариантов использования (вероятно, основной), но не единственный.

Поскольку форум предназначен для облегчения содержательного взаимодействия и создания сообщества, предложение более чем одного способа поделиться мыслью кажется ценным. Я не знаю, насколько сложно это будет с точки зрения разработки и стоит ли оно усилий, но постоянно думаю о том, как легко люди выражают себя в группах WhatsApp просто потому, что там есть возможность записать голосовое сообщение. Было бы замечательно иметь что-то подобное на форуме, где разговоры могут быть лучше организованы по темам и категориям.

Я сам часто использую функцию Instagram, которая транскрибирует голосовые сообщения вместо их воспроизведения. Это удобно, когда я не хочу использовать наушники, прикладывать телефон к уху или воспроизводить звук вслух. Наличие аналогичной опции на форуме сделало бы голосовые сообщения гораздо более практичными. И личными.

Конечно, форумы не совсем предназначены для людей, которые не любят читать или писать, или которым слишком хлопотно переключаться между приложениями, чтобы скопировать и вставить транскрибированный текст. Но в моём случае большинство людей на форуме, который я веду, используют Discourse с мобильных устройств, а не с компьютеров. Я представляю, что это меняет то, как и когда они участвуют. Многие могут отказаться от публикации просто потому, что в данный момент не могут много печатать. Возможность говорить и отправлять голосовое сообщение или, что ещё лучше, транскрибировать речь в текст и редактировать его позже, имела бы большое значение.

С другой стороны, голосовые сообщения усложняют модерацию, поэтому это то, что нам нужно коллективно обдумать, рассмотрев как можно больше различных сценариев использования.

pfaffman · 05.Октябрь.2025 17:24:20

ООООО, ты права.

Понятно. Это потому что я старый. Я просто ненавижу разговаривать с компьютером. Даже когда это было бы очевидно быстрее, чем мое упрямство в том, чтобы выцарапывать текст на клавиатуре телефона.

Создание интерфейса, позволяющего записывать или загружать аудиофайл и затем транскрибировать его, не должно быть таким сложным. Думаю, компонент темы мог бы справиться с частью загрузки, а существующий плагин ИИ — с транскрибацией. (И самое смешное, что я последние пару-тройку недель работал над инструментом транскрибации с открытым исходным кодом transcribe-with-whisper!)

Jagster · 05.Октябрь.2025 19:19:14

Ну, запись на самом деле не новый запрос, и раньше было довольно сложно заставить её работать правильно. Но — форум не принимает фотографии или видео, так почему аудио должно или может быть каким-то другим? У всех нас есть устройства, которые это умеют, а остальное — просто хороший плеер

Suelen_Calonga · 05.Октябрь.2025 21:55:01

Что ж, я понимаю вашу точку зрения, но природа этих форматов не совсем одинакова.

На форуме мы обычно делимся изображениями, созданными кем-то другим, тогда как голосовые сообщения чаще всего содержат ваш собственный голос и носят более личный характер. По крайней мере, такова цель.

Затраты усилий на создание собственных фотографий, видео и голосовых сообщений существенно различаются — и голосовые сообщения обычно являются самым быстрым и прямым способом поделиться мыслью. Сделать или выбрать фотографию, записать и загрузить видео часто требует больше шагов.

Однако с аудио, особенно если функция встроена в инструмент, который вы уже используете, можно просто говорить и отправлять. Это снижает барьер для участия, поэтому я вижу ценность в наличии такой опции в контексте форума.

Я даже вижу ещё большую ценность в возможности транскрибации и наличия как аудио, так и текста, из-за проблем с модерацией и поиском, которые могут возникнуть при использовании только аудио.

Cortrah · 12.Октябрь.2025 19:36:53

Я хотел бы поддержать идею Суэлен. Моя жена и её сестра болеют болезнью Паркинсона, и они используют Siri для отправки каждого сообщения и письма. Я ежедневно наблюдаю за деталями их использования и размышляю о том, как люди без инвалидности также могли бы лучше взаимодействовать с их программным обеспечением через голос.

Хотя Discourse во многих отношениях прекрасен, его главное отличие от старых систем BBS заключается в том, что он хорошо работает на телефонах и планшетах, а также в браузере. А телефоны — это в первую очередь голосовые устройства.

Если бы я создал набор тестов для того, каким должен быть Discourse в 2030–2035 годах, он включал бы возможность зайти на сайт Discourse с телефона и просто устно ориентироваться в сообществе. В идеале можно было бы перемещаться по категориям и темам только с помощью голоса и аудио, а текст озвучивался бы по запросу.

Это гораздо важнее, чем ИИ, и при этом гораздо проще реализовать. И хотя каждое устройство будет иметь свой способ транскрибации речи в текст и исправления ошибок, вы не хотите полагаться на то, что эти системы будут хорошими, бесплатными или последовательными, если этого можно избежать.

Это была бы огромная функция, учитывая, насколько много возможностей у Discourse, и мне интересно, каковы были бы затраты на транскрибацию, но я считаю, что это действительно очень ценное предложение, которое стоит изучить.

Jagster · 12.Октябрь.2025 21:36:22

У нас, в принципе и на практике, уже есть все необходимые инструменты, если только ими пользоваться. Я написал этот текст на финском языке. Затем ИИ перевёл его на английский, и всё отлично.

Тема		Ответов	Просм.
Replying with an audio recording instead of text Community Building	14	1192	30.04.2024
Voice messages for discourse Feature	15	4113	02.08.2023
Voice to text integration Support	9	865	13.11.2023
Voice Messages on Discourse Support	2	764	14.11.2021
Voice note recording Feature chat	3	1147	14.10.2023