Solicitação de recurso: Gravação nativa de mensagens de voz e transcrição automática de áudio

Olá equipe do Discourse,

Gostaria de sugerir um novo recurso que faria uma grande diferença para a acessibilidade e o engajamento na plataforma Discourse: suporte nativo para gravação e postagem de mensagens de áudio diretamente em tópicos e respostas, juntamente com transcrição automática de áudio para texto (semelhante ao que Instagram e WhatsApp oferecem). Vi algumas discussões sobre plugins e componentes para essa capacidade, incluindo a informação de que o disponível não está funcionando no momento. Como não tenho a expertise para sequer instalar um plugin do github sozinho e tentar, uma ferramenta nativa incorporada ao sistema com apenas um botão de ativar/desativar seria maravilhosa para usuários leigos como eu =)

Por que este recurso?

Para muitas pessoas, digitar nem sempre é o meio de comunicação mais eficaz ou acessível. Isso pode incluir:

  • Pessoas com deficiências ou lesões temporárias que dificultam a digitação.
  • Membros da comunidade que preferem falar devido ao nível de alfabetização ou conforto.
  • Usuários de dispositivos móveis que desejam comunicação mais rápida e com as mãos livres.

Permitir que os usuários gravem e postem áudio (notas de voz), inclusive em comentários, reduziria drasticamente as barreiras de participação e tornaria as comunidades Discourse mais inclusivas.

Por que a transcrição é importante?

A transcrição automática de mensagens de voz garantiria que todos os usuários — incluindo aqueles que não podem ouvir áudio (por exemplo, devido a deficiências auditivas ou quando estão em um ambiente silencioso) — ainda possam participar e interagir totalmente com o conteúdo da plataforma.

Integrar isso nativamente (como fazem Instagram, WhatsApp ou Google Mensagens) aproximaria as plataformas Discourse dos padrões de ponta em inclusão e acessibilidade.

O que foi tentado até agora?

Vi que houve soluções anteriores da comunidade:

No entanto, a maioria deles não está ativamente mantida, não está totalmente integrada ou carece de recursos de transcrição. Há um claro interesse contínuo da comunidade em relação a recursos de áudio e voz para texto integrados.

Funcionalidade sugerida

  • Permitir a gravação direta de áudio (notas de voz) no compositor para tópicos e respostas.

  • Suportar o upload de arquivos de áudio como alternativa.

  • Integrar com um serviço de reconhecimento de voz para gerar e exibir automaticamente uma transcrição com cada postagem de áudio.

  • Opção de editar ou corrigir transcrições antes de postar.

  • Controles de moderação para gerenciar e revisar conteúdo de áudio.

Conclusão

Este recurso diferenciaria o Discourse como uma plataforma inclusiva e moderna que suporta uma gama diversificada de usuários e situações.

Obrigado por considerar isso! Eu (e outros na comunidade) ficaríamos muito animados em ver qualquer movimento nessa direção.

7 curtidas

Eu adoraria isso pessoalmente. Quebrei a mão no ano passado e, embora a ditado da Apple funcione muito bem, eu gostaria de poder fazer isso diretamente no Discourse também. Dito isso, pessoalmente, eu tendo a divagar quando dicto! :laughing:

Eu também gostaria disso para o fórum da minha família, onde, entre outras coisas, compartilhamos e falamos sobre fotos. Ser capaz de gravar uma mensagem para que a voz seja capturada e, em seguida, ver essa transcrição seria ouro puro.

Obrigado por postar a solicitação de forma tão sucinta.

3 curtidas

Isso parece algo que deveria ser tratado no lado do computador. Aprender a usar um sistema de ditado e fazê-lo funcionar já parece difícil o suficiente. Ter um diferente em cada peça de software que você usa parece que seria terrível. Tentar dar suporte a ditado em várias plataformas através do navegador também parece insustentável.

Você não preferiria ver que o voz-para-texto realmente funcionou antes de ser carregado em um fórum? O voz-para-texto não funciona melhor em seu próprio computador, onde pode ser treinado para sua própria voz?

Sou totalmente a favor de apoiar todos os tipos de usuários, mas não vejo como faz sentido que cada aplicativo web seja responsável pela transcrição. Não esperamos que o Discourse leia texto para os cegos, o Discourse fornece HTML com o qual o aplicativo que o usuário escolher pode trabalhar.

6 curtidas

Acessibilidade é um caso de uso (provavelmente o principal), mas não o único.

Como um fórum tem como objetivo facilitar interações significativas e construir comunidade, oferecer mais de uma maneira de compartilhar um pensamento parece valioso. Não sei quão complexo isso seria do ponto de vista de desenvolvimento, ou se valeria a pena o esforço, mas continuo pensando em como as pessoas se expressam facilmente em grupos do WhatsApp simplesmente porque a opção de gravar uma nota de voz está ali. Seria maravilhoso ter algo semelhante em um fórum, onde as conversas podem ser melhor organizadas por tópicos e categorias.

Eu mesma uso frequentemente o recurso do Instagram que transcreve notas de voz em vez de reproduzi-las. É conveniente quando não quero usar fones de ouvido, segurar o telefone na orelha ou reproduzir áudio em voz alta. Ter uma opção semelhante em um fórum tornaria as notas de voz muito mais práticas. E pessoais.

Claro, fóruns não são exatamente projetados para pessoas que não gostam de ler ou escrever, ou que acham muito incômodo alternar entre aplicativos apenas para copiar e colar texto transcrito. Mas, no meu caso, a maioria das pessoas no fórum que gerencio acessa o Discourse de seus dispositivos móveis em vez de computadores. Imagino que isso mude como e quando elas participam. Muitas podem desistir de postar simplesmente porque não conseguem digitar muito naquele momento. Poder falar e postar uma nota de voz, ou ainda melhor, transcrever a fala para texto e editá-la depois, faria uma grande diferença.

Por outro lado, notas de voz tornam a moderação mais desafiadora, então isso é algo que precisamos pensar coletivamente, considerando o maior número possível de cenários de usuários diferentes.

2 curtidas

OOOOOOOh. Você tem razão.

Entendi. É porque sou velho. Eu simplesmente odeio falar com um computador. Mesmo quando seria obviamente mais rápido do que minha insistência em rabiscar no teclado do meu celular.

Ter uma interface que permitisse gravar ou fazer upload de um arquivo de áudio e depois transcrevê-lo não deveria ser tão difícil. Acho que um componente de tema poderia cuidar da parte de upload e talvez o plugin de IA existente pudesse lidar com a transcrição. (E o engraçado é que passei as últimas duas ou três semanas em uma ferramenta de transcrição de código aberto!)

5 curtidas

Bem, a gravação não é exatamente uma novidade, e antigamente era bem difícil fazê-la funcionar direito. Mas — um fórum não tira fotos nem grava vídeos, então por que o áudio seria diferente? Todos nós temos dispositivos que podem fazer isso e o resto é apenas um bom player :thinking:

2 curtidas

Bem, entendo seu ponto, mas não é exatamente a mesma natureza de mídia.

Em um fórum, geralmente compartilhamos imagens criadas por outra pessoa, mas as notas de voz geralmente contêm sua própria voz de uma maneira mais pessoal. Pelo menos este é o objetivo.

O esforço envolvido na produção de suas próprias fotos, vídeos e notas de voz é bem diferente — e as notas de voz são geralmente a maneira mais rápida e direta de compartilhar um pensamento. Tirar ou selecionar uma foto, ou gravar e fazer upload de um vídeo, muitas vezes requer mais etapas.
Mas com áudio, especialmente se o recurso estiver incorporado na ferramenta que você já está usando, você pode simplesmente falar e enviar. É uma barreira menor para a contribuição, e é por isso que vejo valor em ter essa opção em um ambiente de fórum.

Eu até vejo mais valor na capacidade de transcrever e ter ambos, áudio e texto, por causa dos desafios de moderação e pesquisa que apenas o áudio poderia trazer.

6 curtidas

Gostaria de dar um +1 na ideia da Suelen. Minha esposa e a irmã dela têm doença de Parkinson e usam a Siri para enviar todas as mensagens e e-mails. Eu observo e reflito sobre os detalhes do uso delas todos os dias e penso em como pessoas sem deficiência também poderiam interagir melhor com seus softwares por voz.

Embora o Discourse seja ótimo em muitos aspectos, seu principal diferencial em relação aos antigos sistemas BBS é que ele funciona bem em celulares e tablets, assim como no navegador. E celulares são principalmente dispositivos de voz.

Se eu fosse criar um conjunto de testes para o que o Discourse precisa ser em 2030-35, ele incluiria a capacidade de acessar um site do Discourse com um celular e simplesmente navegar pela comunidade auditivamente. Idealmente, seria possível navegar por suas categorias e tópicos apenas por voz e áudio, e converter texto em fala do conteúdo quando solicitado.

Muito mais importante do que IA e muito mais simples de fazer. E embora cada dispositivo tenha sua própria maneira de transcrever fala para texto e corrigir erros, você não quer depender desses sistemas serem bons, gratuitos ou consistentes, se puder evitar.

Seria um recurso enorme porque o Discourse tem muito a oferecer, e estou curioso sobre quais seriam os custos das transcrições, mas acho que é realmente uma sugestão muito válida para se investigar.

1 curtida

Basicamente, na prática, já temos as ferramentas necessárias se apenas as usarmos. Eu falei este texto em finlandês. Depois disso, o AI o traduziu para o inglês e tudo está ótimo.

1 curtida