Solicitud de función: Grabación nativa de mensajes de voz y transcripción automática de audio

Hola equipo de Discourse,

Me gustaría sugerir una nueva función que marcaría una gran diferencia para la accesibilidad y la participación en la plataforma Discourse: soporte nativo para grabar y publicar mensajes de audio directamente en temas y respuestas, junto con transcripción automática de audio a texto (similar a lo que ofrecen Instagram y WhatsApp). Vi algunas discusiones sobre plugins y componentes para esta capacidad, incluida la información de que el disponible no está funcionando ahora. Como no tengo la experiencia para instalar un plugin desde GitHub yo mismo e intentarlo, una herramienta nativa integrada en el sistema con un simple interruptor de habilitar/deshabilitar sería maravillosa para usuarios finales legos como yo =)

¿Por qué esta función?

Para muchas personas, escribir no siempre es el medio de comunicación más eficaz o accesible. Esto puede incluir:

  • Personas con discapacidades o lesiones temporales que dificultan la escritura.
  • Miembros de la comunidad que prefieren hablar debido a su nivel de alfabetización o comodidad.
  • Usuarios de dispositivos móviles que desean una comunicación más rápida y manos libres.

Permitir a los usuarios grabar y publicar audio (notas de voz), incluso en comentarios, reduciría drásticamente las barreras de participación y haría que las comunidades de Discourse fueran más inclusivas.

¿Por qué es importante la transcripción?

La transcripción automática de mensajes de voz garantizaría que todos los usuarios, incluidos aquellos que no pueden escuchar audio (por ejemplo, debido a discapacidades auditivas o cuando se encuentran en un entorno silencioso), aún puedan participar e interactuar plenamente con el contenido de la plataforma.

Integrar esto de forma nativa (como lo hacen Instagram, WhatsApp o Google Messages), acercaría las plataformas Discourse a los estándares de vanguardia en cuanto a inclusión y accesibilidad.

¿Qué se ha intentado hasta ahora?

Vi que ha habido soluciones comunitarias previas:

Sin embargo, la mayoría de estas no se mantienen activamente, no están completamente integradas o carecen de funciones de transcripción. Existe un claro interés continuo de la comunidad en cuanto a funciones de audio y voz a texto integradas.

Funcionalidad sugerida

  • Permitir la grabación directa de audio (notas de voz) en el compositor para temas y respuestas.
  • Soporte para subir archivos de audio como alternativa.
  • Integrarse con un servicio de voz a texto para generar y mostrar automáticamente una transcripción con cada publicación de audio.
  • Opción para editar o corregir transcripciones antes de publicar.
  • Controles de moderación para administrar y revisar contenido de audio.

Cierre

Esta función diferenciaría a Discourse como una plataforma inclusiva y moderna que apoya a una diversa gama de usuarios y situaciones.

¡Gracias por considerar esto! Yo (y otros en la comunidad) estaríamos muy emocionados de ver cualquier avance en esta dirección.

7 Me gusta

Personalmente me encantaría. Me rompí la mano el año pasado y, aunque la dictado de Apple funciona bastante bien, me hubiera gustado poder hacerlo directamente en Discourse también. Dicho esto, ¡personalmente tiendo a divagar cuando dicto! :laughing:

También me gustaría esto para el foro de mi familia donde, entre otras cosas, compartimos y hablamos sobre fotos. Poder grabar un mensaje para que se capture la voz y luego verlo transcrito sería oro puro.

Gracias por publicar la solicitud de forma tan concisa.

3 Me gusta

Esto parece algo que debería manejarse en el lado de la computadora. Aprender a usar un sistema de dictado y hacerlo funcionar parece bastante difícil. Tener uno diferente en cada pieza de software que usas parece que sería terrible. Intentar dar soporte a la dictado en múltiples plataformas a través del navegador también parece insostenible.

¿No preferirías ver que el voz a texto realmente funcionara antes de que se subiera a un foro? ¿No funciona el voz a texto mejor en tu propia computadora, donde se puede entrenar con tu propia voz?

Estoy totalmente a favor de apoyar a todo tipo de usuarios, pero no veo cómo tiene sentido que cada aplicación web sea responsable de la transcripción. No esperamos que Discourse lea texto a los ciegos, Discourse proporciona HTML con el que la aplicación que el usuario elija puede trabajar.

6 Me gusta

La accesibilidad es un caso de uso (probablemente el principal), pero no el único.

Dado que un foro está destinado a facilitar interacciones significativas y construir comunidad, ofrecer más de una forma de compartir un pensamiento parece valioso. No sé cuán complejo sería esto desde una perspectiva de desarrollo, o si valdría la pena el esfuerzo, pero sigo pensando en lo fácilmente que la gente se expresa en los grupos de WhatsApp simplemente porque la opción de grabar una nota de voz está ahí. Sería maravilloso tener algo similar en un foro, donde las conversaciones se puedan organizar mejor por temas y categorías.

Yo mismo uso a menudo la función de Instagram que transcribe las notas de voz en lugar de reproducirlas. Es conveniente cuando no quiero usar auriculares, sostener el teléfono en la oreja o reproducir audio en voz alta. Tener una opción similar en un foro haría que las notas de voz fueran mucho más prácticas. Y personales.

Por supuesto, los foros no están diseñados exactamente para personas a las que no les gusta leer o escribir, o que encuentran demasiado engorroso cambiar entre aplicaciones solo para copiar y pegar texto transcrito. Pero en mi caso, la mayoría de las personas en el foro que administro acceden a Discourse desde sus dispositivos móviles en lugar de desde computadoras. Me imagino que esto cambia cómo y cuándo participan. Muchos podrían renunciar a publicar simplemente porque no pueden escribir mucho en ese momento. Poder hablar y publicar una nota de voz, o aún mejor, transcribir voz a texto y editarla más tarde, marcaría una gran diferencia.

Por otro lado, las notas de voz hacen que la moderación sea más desafiante, por lo que esto es algo que debemos pensar colectivamente, considerando tantos escenarios de usuario diferentes como sea posible.

2 Me gusta

OOOOOOOh. Tienes razón.

Ya veo. Es porque soy viejo. Simplemente odio hablar con una computadora. Incluso cuando obviamente sería más rápido que mi insistencia en escribir en el teclado de mi teléfono.

Tener una interfaz que te permitiera grabar o subir un archivo de audio y luego transcribirlo no debería ser tan difícil. Creo que un componente temático podría encargarse de la parte de carga y tal vez el complemento de IA existente podría encargarse de la transcripción. (¡Y lo gracioso es que he pasado las últimas dos o tres semanas en una [herramienta de transcripción] de código abierto(GitHub - literatecomputing/transcribe-with-whisper)!)

5 Me gusta

Bueno, la grabación no es realmente una solicitud nueva, y antes era razonablemente difícil hacer que funcionara correctamente. Pero, un foro no toma fotos ni videos, ¿entonces por qué el audio debería ser diferente? Todos tenemos dispositivos que pueden hacer eso y el resto es solo un buen reproductor :thinking:

2 Me gusta

Entiendo tu punto, pero no es exactamente la misma naturaleza de medio.

En un foro, generalmente compartimos imágenes creadas por otra persona, pero las notas de voz suelen contener tu propia voz de una manera más personal. Al menos ese es el objetivo.

El esfuerzo necesario para producir tus propias fotos, videos y notas de voz es bastante diferente, y las notas de voz suelen ser la forma más rápida y directa de compartir un pensamiento. Tomar o seleccionar una foto, o grabar y subir un video, a menudo requiere más pasos.

Pero con el audio, especialmente si la función está integrada en la herramienta que ya estás utilizando, puedes simplemente hablar y enviar. Es una barrera de contribución más baja, por lo que veo valor en tener esa opción en un entorno de foro.

Incluso veo más valor en la capacidad de transcribir y tener ambas, audio y texto, debido a los desafíos de moderación y búsqueda que solo el audio podría plantear.

6 Me gusta

Me gustaría dar un +1 a la idea de Suelen. Mi esposa y su hermana tienen la enfermedad de Parkinson y usan Siri para enviar todos sus mensajes y correos electrónicos. Observo y reflexiono sobre los detalles de su uso cada día y pienso en cómo las personas sin discapacidad también podrían interactuar mejor con su software a través de la voz.

Si bien Discourse es excelente en muchos frentes, su principal diferenciador con los viejos sistemas BBS es que funciona bien en teléfonos y tabletas, así como en el navegador. Y los teléfonos son principalmente dispositivos de voz.

Si creara un conjunto de pruebas para lo que Discourse necesita ser en 2030-35, incluiría la capacidad de ir a un sitio de Discourse con un teléfono y simplemente navegar por la comunidad de forma audible. Idealmente, uno podría navegar por sus categorías e hilos solo con voz y audio, y leer el contenido en voz alta cuando se solicite.

Mucho más importante que la IA y mucho más simple de hacer. Y si bien cada dispositivo tendrá su propia forma de transcribir el habla a texto y corregir errores, no querrá depender de que estos sistemas sean buenos, gratuitos o consistentes si puede evitarlo.

Sería una gran característica porque Discourse tiene mucho que ofrecer, y tengo curiosidad sobre cuáles serían los costos de las transcripciones, pero creo que es una sugerencia muy valiosa a considerar.

1 me gusta

En principio, y en la práctica, ya tenemos las herramientas necesarias si tan solo las usamos. Yo hablé este texto en finlandés. Después de eso, Ai lo tradujo al inglés y todo está bien.

1 me gusta