Feature Request: Native Sprachnachrichtenaufnahme & automatische Audiotranskription

Hallo Discourse-Team,

ich möchte eine neue Funktion vorschlagen, die einen großen Unterschied für Barrierefreiheit und Engagement auf der Discourse-Plattform machen würde: native Unterstützung für die Aufnahme und Veröffentlichung von Audiomitteilungen direkt in Themen und Antworten, zusammen mit automatischer Audio-zu-Text-Transkription (ähnlich wie bei Instagram und WhatsApp). Ich habe einige Diskussionen über Plugins und Komponenten für diese Funktion gesehen, einschließlich der Information, dass die verfügbare nicht mehr funktioniert. Da ich nicht über die Expertise verfüge, um selbst ein Plugin von GitHub zu installieren und auszuprobieren, wäre ein natives, im System integriertes Tool mit einem einfachen Ein-/Ausschalter wunderbar für Laien-Endbenutzer wie mich =)

Warum diese Funktion?

Für viele Menschen ist Tippen nicht immer das effektivste oder zugänglichste Kommunikationsmittel. Dazu gehören:

  • Menschen mit Behinderungen oder vorübergehenden Verletzungen, die das Tippen erschweren.

  • Community-Mitglieder, die aufgrund von Lese- und Schreibfähigkeiten oder Komfort lieber sprechen.

  • Benutzer auf Mobilgeräten, die eine schnellere, freihändige Kommunikation wünschen.

Wenn Benutzer direkt Audio (Sprachnotizen) aufnehmen und posten können, würde dies die Teilnahmebarrieren erheblich reduzieren und Discourse-Communities integrativer machen.

Warum ist Transkription wichtig?

Die automatische Transkription von Sprachnachrichten würde sicherstellen, dass alle Benutzer – einschließlich derer, die Audio nicht hören können (z. B. aufgrund von Hörbehinderungen oder wenn sie sich in einer ruhigen Umgebung befinden) – weiterhin teilnehmen und sich vollständig mit Inhalten auf der Plattform auseinandersetzen können.

Die native Integration (wie bei Instagram, WhatsApp oder Google Messages) würde Discourse-Plattformen näher an modernste Inklusivitäts- und Barrierefreiheitsstandards bringen.

Was wurde bisher versucht?

Ich habe gesehen, dass es frühere Community-Lösungen gab:

Die meisten davon werden jedoch entweder nicht aktiv gepflegt, sind nicht vollständig integriert oder verfügen nicht über Transkriptionsfunktionen. Es gibt ein klares anhaltendes Interesse der Community an Audiofunktionen und integrierter Sprach-zu-Text-Konvertierung.

Vorgeschlagene Funktionalität

  • Direkte Aufnahme von Audio (Sprachnotizen) im Composer für Themen und Antworten ermöglichen.

  • Unterstützung für das Hochladen von Audiodateien als Alternative.

  • Integration mit einem Speech-to-Text-Dienst zur automatischen Generierung und Anzeige einer Transkription mit jedem Audio-Post.

  • Option zum Bearbeiten oder Korrigieren von Transkriptionen vor dem Posten.

  • Moderationskontrollen zur Verwaltung und Überprüfung von Audioinhalten.

Abschluss

Diese Funktion würde Discourse als integrative, moderne Plattform hervorheben, die eine Vielzahl von Benutzern und Situationen unterstützt.

Vielen Dank für Ihre Berücksichtigung! Ich (und andere in der Community) würden uns sehr freuen, wenn es in diese Richtung Fortschritte gäbe.

7 „Gefällt mir“

Ich persönlich würde das sehr begrüßen. Ich habe mir letztes Jahr die Hand gebrochen und obwohl die Apple-Diktierfunktion ziemlich gut funktioniert, hätte ich mir gewünscht, dass ich das auch direkt in Discourse hätte tun können. Persönlich neige ich dazu, beim Diktieren zu schwafeln! :laughing:

Ich würde mir das auch für mein Familienforum wünschen, wo wir unter anderem Fotos teilen und darüber sprechen. Eine Nachricht aufnehmen zu können, damit die Stimme erfasst wird, und diese dann transkribiert zu sehen, wäre absolut Gold wert.

Danke, dass Sie die Anfrage so prägnant gepostet haben.

3 „Gefällt mir“

Das scheint etwas zu sein, das auf der Computerseite gehandhabt werden sollte. Sich in ein Diktatsystem einzuarbeiten und es zum Laufen zu bringen, scheint schon schwer genug zu sein. Ein anderes für jede verwendete Software zu haben, scheint schrecklich zu sein. Der Versuch, Diktate auf mehreren Plattformen über den Browser zu unterstützen, erscheint ebenfalls nicht praktikabel.

Möchten Sie nicht lieber sehen, dass die Sprach-zu-Text-Funktion tatsächlich funktioniert, bevor sie in ein Forum hochgeladen wird? Funktioniert Sprach-zu-Text nicht besser auf Ihrem eigenen Computer, wo es auf Ihre eigene Stimme trainiert werden kann?

Ich bin dafür, alle Arten von Benutzern zu unterstützen, aber ich sehe nicht ein, warum jede einzelne Webanwendung für die Transkription verantwortlich sein sollte. Wir erwarten nicht, dass Discourse Blinde vorliest, Discourse stellt HTML bereit, mit dem die vom Benutzer gewählte Anwendung arbeiten kann.

6 „Gefällt mir“

Barrierefreiheit ist ein Anwendungsfall (wahrscheinlich der wichtigste), aber nicht der einzige.

Da ein Forum dazu dienen soll, sinnvolle Interaktionen zu ermöglichen und eine Gemeinschaft aufzubauen, scheint es wertvoll, mehr als eine Möglichkeit zum Teilen eines Gedankens anzubieten. Ich weiß nicht, wie komplex dies aus Entwicklungssicht wäre oder ob es sich lohnen würde, aber ich denke immer wieder darüber nach, wie einfach sich Menschen in WhatsApp-Gruppen ausdrücken, nur weil die Option, eine Sprachnotiz aufzunehmen, direkt verfügbar ist. Es wäre wunderbar, etwas Ähnliches in einem Forum zu haben, wo Gespräche besser nach Themen und Kategorien geordnet werden können.

Ich selbst nutze oft die Funktion von Instagram, die Sprachnotizen transkribiert, anstatt sie abzuspielen. Das ist praktisch, wenn ich keine Kopfhörer benutzen, das Telefon ans Ohr halten oder Audio laut abspielen möchte. Eine ähnliche Option in einem Forum würde Sprachnotizen weitaus praktischer machen. Und persönlicher.

Natürlich sind Foren nicht gerade für Leute konzipiert, die nicht gerne lesen oder schreiben oder die es zu umständlich finden, zwischen Apps zu wechseln, nur um transkribierten Text zu kopieren und einzufügen. Aber in meinem Fall greifen die meisten Leute im Forum, das ich verwalte, eher von ihren Mobilgeräten als von Computern auf Discourse zu. Ich stelle mir vor, dass dies beeinflusst, wie und wann sie teilnehmen. Viele geben vielleicht auf, weil sie im Moment nicht viel tippen können. Die Möglichkeit, zu sprechen und eine Sprachnotiz zu posten, oder noch besser, Sprache in Text zu transkribieren und später zu bearbeiten, würde einen großen Unterschied machen.

Andererseits erschweren Sprachnotizen die Moderation, daher müssen wir dies gemeinsam durchdenken und dabei so viele verschiedene Benutzerszenarien wie möglich berücksichtigen.

2 „Gefällt mir“

OOOOOOOh. Du hast recht.

Ich verstehe. Das liegt daran, dass ich alt bin. Ich hasse es einfach, mit einem Computer zu sprechen. Selbst wenn es offensichtlich schneller wäre, als darauf zu bestehen, auf der Tastatur meines Handys herumzukritzeln.

Eine Benutzeroberfläche, die es erlauben würde, eine Audiodatei aufzunehmen oder hochzuladen und sie dann zu transkribieren, sollte nicht so schwer sein. Ich denke, eine Theme-Komponente könnte den Upload-Teil übernehmen und vielleicht könnte das bestehende KI-Plugin die Transkription übernehmen. (Und das Lustige ist, dass ich die letzten zwei oder drei Wochen an einem Open-Source-Transkriptionstool gearbeitet habe!)

5 „Gefällt mir“

Nun, die Aufnahme ist eigentlich keine neue Anfrage, und es war früher vernünftig schwierig, sie richtig zum Laufen zu bringen. Aber – ein Forum nimmt keine Bilder oder Videos auf, warum sollte Audio anders sein? Wir alle haben Geräte, die das können, und der Rest ist nur ein schöner Player :thinking:

2 „Gefällt mir“

Nun, ich verstehe Ihren Punkt, aber es ist nicht ganz die gleiche Art von Medium.

In einem Forum teilen wir im Allgemeinen Bilder, die von jemand anderem erstellt wurden, aber Sprachnotizen enthalten normalerweise Ihre eigene Stimme auf persönlichere Weise. Zumindest ist das das Ziel.

Der Aufwand, eigene Fotos, Videos und Sprachnotizen zu erstellen, ist ganz anders – und Sprachnotizen sind normalerweise der schnellste und direkteste Weg, einen Gedanken zu teilen. Ein Foto aufzunehmen oder auszuwählen oder ein Video aufzunehmen und hochzuladen, erfordert oft mehr Schritte.

Aber mit Audio, insbesondere wenn die Funktion in das Werkzeug eingebettet ist, das Sie bereits verwenden, können Sie einfach sprechen und senden. Es ist eine geringere Hürde für Beiträge, weshalb ich den Wert darin sehe, diese Option in einem Forensetting zu haben.

Ich sehe sogar mehr Wert in der Fähigkeit, beides, Audio und Text, zu transkribieren, da die Moderation und die Suche Herausforderungen mit sich bringen könnten, die nur Audio mit sich bringt.

6 „Gefällt mir“

Ich möchte Suelens Idee mit „+1“ unterstützen. Meine Frau und ihre Schwester haben Parkinson und nutzen Siri, um jede Nachricht und E-Mail zu versenden. Ich beobachte und reflektiere täglich die Details ihrer Nutzung und denke darüber nach, wie auch Menschen ohne Behinderungen besser über Sprache mit ihrer Software interagieren könnten.

Während Discourse in vielerlei Hinsicht großartig ist, ist sein Hauptunterscheidungsmerkmal zu alten BBS-Systemen, dass es sowohl auf Telefonen und Tablets als auch im Browser gut funktioniert. Und Telefone sind hauptsächlich Sprachgeräte.

Wenn ich eine Testsuite für das erstellen würde, was Discourse im Zeitraum 2030-35 sein muss, würde sie die Fähigkeit beinhalten, mit einem Telefon auf eine Discourse-Seite zu gehen und einfach auditiv durch die Community zu navigieren. Idealerweise könnte man über Sprache und Audio durch Kategorien und Threads navigieren und den Inhalt per Text-to-Speech vorlesen lassen, wenn gewünscht.

Weitaus wichtiger als KI und viel einfacher zu machen. Und während jedes Gerät seine eigene Methode zur Transkription von Sprache in Text und zur Korrektur von Fehlern haben wird, möchte man sich nicht auf diese Systeme verlassen, wenn sie gut, kostenlos oder konsistent sind, wenn man es vermeiden kann.

Es wäre ein riesiges Feature, weil Discourse so viel zu bieten hat, und ich bin neugierig, wie hoch die Kosten für die Transkriptionen wären, aber ich denke, es ist wirklich ein sehr lohnenswerter Vorschlag, sich damit zu befassen.

1 „Gefällt mir“

Wir haben im Grunde und in der Praxis bereits die notwendigen Werkzeuge, wenn sie nur benutzt werden. Ich habe diesen Text auf Finnisch gesprochen. Danach hat Ai ihn ins Englische übersetzt und alles ist in Ordnung.

1 „Gefällt mir“