AI-Bildbeschriftungsfunktion im Discourse AI-Plugin

Wir haben eine Funktion zur KI-gestützten Bildunterschriftenerstellung im Discourse AI-Plugin eingeführt, die die automatische Generierung von Bildunterschriften für Bilder in Beiträgen ermöglicht. Diese Funktionalität zielt darauf ab, die Barrierefreiheit von Inhalten zu verbessern und visuelle Elemente in Ihrer Community anzureichern.

Funktionen und Verwendung

  • Automatische KI-Bildunterschriften: Beim Hochladen eines Bildes im Editor können Sie automatisch eine Bildunterschrift mit KI generieren.
  • Bearbeitbare Bildunterschriften: Die generierte Bildunterschrift kann bearbeitet werden, um sie besser an den Kontext und Ton Ihres Inhalts anzupassen.
  • Verbesserte Barrierefreiheit: Die Funktion unterstützt die Erstellung von barrierefreieren Inhalten für Benutzer, die auf Screenreader angewiesen sind.

Verwendung

  1. Laden Sie ein Bild im Discourse-Editor hoch.
  2. Klicken Sie in der Nähe des Bildes auf die Schaltfläche „Mit KI beschriften“.
  3. Eine generierte Bildunterschrift wird angezeigt, die Sie ändern können.
  4. Akzeptieren Sie die Bildunterschrift, um sie in Ihren Beitrag aufzunehmen.

Feedback

Ihr Feedback ist entscheidend für die Verbesserung dieser Funktion. Sie ist hier auf Meta aktiviert. Bitte teilen Sie Ihre Erfahrungen, Probleme oder Vorschläge hier in diesem Thema mit.

KI-Modell

Diese Funktion unterstützt sowohl das Open-Source-Modell LLaVa 1.6 als auch die OpenAI API.

28 „Gefällt mir“

Lustig, ich habe es früher in diesem Beitrag verwendet. Ich war sehr beeindruckt. Es konnte das Bild lesen und sagen, worum es in diesem Beitrag ging

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

6 „Gefällt mir“

Dies ist mir im OpenAI-Forum aufgefallen

5 „Gefällt mir“

Ich weiß nicht, wie wir mobile Nutzer dazu bringen, das zu nutzen, da sie den Editor verlassen müssen.

Wird diese Bildunterschrift auch als Alternativtext verwendet?

4 „Gefällt mir“

Ja.

Wir planen, in naher Zukunft JIT-Erinnerungen hinzuzufügen, wenn die Resonanz gut ist.

7 „Gefällt mir“

2 Beiträge wurden in ein neues Thema aufgeteilt: Unterstützung für die Eingabeaufforderungsanpassung in DiscourseAI

Es kann das karierte Hemd sehen, aber es kann George Costanza nicht erkennen. :rofl:

Aber im Ernst, das ist großartig, besonders für #Barrierefreiheit. In früheren A11Y-Berichten war fehlender Alternativtext für Bilder eines der Hauptprobleme, und wir haben das bisher alles abgetan, da Bilder benutzergenerierte Inhalte sind. Dies ebnet nun den Weg zu einer viel, viel besseren Barrierefreiheit.

13 „Gefällt mir“

Gibt es bei Fehlermeldungen eine Möglichkeit, die Hervorhebung des Hauptteils des Fehlers zu fördern, damit die Suchmaschine ihn erkennt?

Einige andere Ergebnisse

Es identifiziert das dritte korrekt als das IBM EWM-Tool, erkennt aber nicht, dass 2 Rhapsody und 1 Vector Davinci ist. Dennoch sind diese Bildunterschriften ziemlich vernünftig.

5 „Gefällt mir“

Das ist eine großartige Funktion!

Aber sie ist sehr schwer zu finden. Der Benutzer muss mit der Maus über das Bild fahren, um den Button zu sehen, und ihn dann anklicken (und die meisten Leute werden davon nichts wissen).
Obwohl ich die Funktion kannte und danach gesucht habe, musste ich mir das Video ansehen, um zu erfahren, dass ich mit der Maus darüber fahren muss.
Meiner Meinung nach sollte sie “ins Gesicht springen”, um am Anfang genutzt zu werden. Ich würde sie sogar standardmäßig Untertitel erstellen lassen, ohne dass der Benutzer etwas anklicken muss :drevil:

7 „Gefällt mir“

Wir werden diese Eingabeaufforderungen schließlich anpassbar machen, sodass dies dann möglich sein wird.

Als neues Feature ist unsere Idee, es auf sehr unaufdringliche Weise einzuführen, um Feedback zu sammeln, und es dann leichter auffindbar und sogar automatisch zu machen.

10 „Gefällt mir“

6 Beiträge wurden in ein neues Thema aufgeteilt: Probleme bei der Konfiguration von KI-Bildunterschriften

Wird der (Internet-)Bildlink an den KI-Dienst gesendet, wird der Bildinhalt hochgeladen oder wird lokal in Discourse ein “Hashing” durchgeführt? Erfolgt dies serverseitig oder über JavaScript (d. h. wird die Client-IP einem externen Dienst offengelegt)?

3 „Gefällt mir“

Es sendet einen Link zum Bild an den von Ihnen ausgewählten Dienst für die Bildunterschriftenerstellung. Dies geschieht serverseitig, da Anmeldeinformationen beteiligt sind.

Wenn Sie die Funktion nutzen möchten, aber keine Drittanbieter einbeziehen möchten, können Sie LLaVa jederzeit auf Ihrem eigenen Server ausführen.

3 „Gefällt mir“

Zustimmung, jedoch könnte die Qualität aufgrund von Hardwarebeschränkungen leiden. Vielleicht könntest du einige Empfehlungen bezüglich Modellgrößen und Quantisierung oder minimalem VRAM aus deiner Erfahrung teilen. (Bin mir nicht sicher, ob sie überhaupt quantisierte Modelle haben, ihr „Zoo“ scheint nur vollständige Modelle zu enthalten).

2 „Gefällt mir“

Wir führen das vollständige Modell aus, aber die kleinste Version davon mit Mistral 7B. Es benötigt 21 GB VRAM auf unseren einzelnen A100-Servern und wird über das Container-Image ghcr.io/xfalcox/llava:latest ausgeführt.

Leider ist das Ökosystem für multimodale Modelle noch nicht so ausgereift wie das für Text-zu-Text-Modelle, sodass wir noch keine Inferenzserver wie vLLM oder TGI nutzen können und auf diese einmaligen Microservices angewiesen sind. Dies könnte sich dieses Jahr ändern, multimodale Modelle stehen auf der vLLM-Roadmap, aber bis dahin können wir zumindest mit diesen Diensten die Möglichkeiten testen.

5 „Gefällt mir“

Ich habe ein kleines UX-Feedback dazu. Bei kleinen Bildern blockiert die Schaltfläche „Mit KI erfassen“ nicht nur das Bild selbst, sondern auch anderen Text im Beitrag, was die Überprüfung des Beitrags während der Bearbeitung erschwert.

3 „Gefällt mir“
4 „Gefällt mir“

Ich sehe, dass alle generierten Bildunterschriften (sowohl hier als auch auf meiner Website) mit „Das Bild enthält“ oder „Ein Bild von“ oder ähnlichem beginnen. Das scheint unnötig und redundant zu sein. Könnte die Aufforderung aktualisiert werden, um ihr mitzuteilen, dass sie nicht erklären muss, dass das Bild ein Bild ist?

3 „Gefällt mir“

Es ist so schwierig, dies zu verfeinern, da verschiedene Modelle unterschiedliche Toleranzen haben, aber ein Plan, den wir haben, ist es, Community-Besitzern die Kontrolle über die Eingabeaufforderungen zu ermöglichen, damit sie experimentieren können.

5 „Gefällt mir“

@mattdm Sie können dies einfach erreichen, indem Sie die generierte Antwort mit „Ein Bild von“ vorab füllen. Auf diese Weise denkt die LLM, dass sie die Einleitung bereits generiert hat und generiert nur den Rest.

2 „Gefällt mir“