AI-Bildbeschriftungsfunktion im Discourse AI-Plugin

Falco · 20. Februar 2024 um 17:53

Wir haben eine Funktion zur KI-gestützten Bildunterschriftenerstellung im Discourse AI-Plugin eingeführt, die die automatische Generierung von Bildunterschriften für Bilder in Beiträgen ermöglicht. Diese Funktionalität zielt darauf ab, die Barrierefreiheit von Inhalten zu verbessern und visuelle Elemente in Ihrer Community anzureichern.

Funktionen und Verwendung

Automatische KI-Bildunterschriften: Beim Hochladen eines Bildes im Editor können Sie automatisch eine Bildunterschrift mit KI generieren.
Bearbeitbare Bildunterschriften: Die generierte Bildunterschrift kann bearbeitet werden, um sie besser an den Kontext und Ton Ihres Inhalts anzupassen.
Verbesserte Barrierefreiheit: Die Funktion unterstützt die Erstellung von barrierefreieren Inhalten für Benutzer, die auf Screenreader angewiesen sind.

Verwendung

Laden Sie ein Bild im Discourse-Editor hoch.
Klicken Sie in der Nähe des Bildes auf die Schaltfläche „Mit KI beschriften“.
Eine generierte Bildunterschrift wird angezeigt, die Sie ändern können.
Akzeptieren Sie die Bildunterschrift, um sie in Ihren Beitrag aufzunehmen.

Feedback

Ihr Feedback ist entscheidend für die Verbesserung dieser Funktion. Sie ist hier auf Meta aktiviert. Bitte teilen Sie Ihre Erfahrungen, Probleme oder Vorschläge hier in diesem Thema mit.

KI-Modell

Diese Funktion unterstützt sowohl das Open-Source-Modell LLaVa 1.6 als auch die OpenAI API.

frold · 20. Februar 2024 um 17:56

Lustig, ich habe es früher in diesem Beitrag verwendet. Ich war sehr beeindruckt. Es konnte das Bild lesen und sagen, worum es in diesem Beitrag ging

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

EricGT · 20. Februar 2024 um 18:10

Dies ist mir im OpenAI-Forum aufgefallen

Jagster · 20. Februar 2024 um 18:18

Ich weiß nicht, wie wir mobile Nutzer dazu bringen, das zu nutzen, da sie den Editor verlassen müssen.

Wird diese Bildunterschrift auch als Alternativtext verwendet?

Falco · 20. Februar 2024 um 18:21

Ja.

Wir planen, in naher Zukunft JIT-Erinnerungen hinzuzufügen, wenn die Resonanz gut ist.

Falco · 21. Februar 2024 um 17:00

2 Beiträge wurden in ein neues Thema aufgeteilt: Unterstützung für die Eingabeaufforderungsanpassung in DiscourseAI

pmusaraj · 20. Februar 2024 um 22:15

Es kann das karierte Hemd sehen, aber es kann George Costanza nicht erkennen.

Aber im Ernst, das ist großartig, besonders für #Barrierefreiheit. In früheren A11Y-Berichten war fehlender Alternativtext für Bilder eines der Hauptprobleme, und wir haben das bisher alles abgetan, da Bilder benutzergenerierte Inhalte sind. Dies ebnet nun den Weg zu einer viel, viel besseren Barrierefreiheit.

Tris20 · 21. Februar 2024 um 08:23

Gibt es bei Fehlermeldungen eine Möglichkeit, die Hervorhebung des Hauptteils des Fehlers zu fördern, damit die Suchmaschine ihn erkennt?

Einige andere Ergebnisse

Es identifiziert das dritte korrekt als das IBM EWM-Tool, erkennt aber nicht, dass 2 Rhapsody und 1 Vector Davinci ist. Dennoch sind diese Bildunterschriften ziemlich vernünftig.

tpetrov · 21. Februar 2024 um 09:55

Das ist eine großartige Funktion!

Aber sie ist sehr schwer zu finden. Der Benutzer muss mit der Maus über das Bild fahren, um den Button zu sehen, und ihn dann anklicken (und die meisten Leute werden davon nichts wissen).
Obwohl ich die Funktion kannte und danach gesucht habe, musste ich mir das Video ansehen, um zu erfahren, dass ich mit der Maus darüber fahren muss.
Meiner Meinung nach sollte sie “ins Gesicht springen”, um am Anfang genutzt zu werden. Ich würde sie sogar standardmäßig Untertitel erstellen lassen, ohne dass der Benutzer etwas anklicken muss

Falco · 21. Februar 2024 um 17:04

Wir werden diese Eingabeaufforderungen schließlich anpassbar machen, sodass dies dann möglich sein wird.

Als neues Feature ist unsere Idee, es auf sehr unaufdringliche Weise einzuführen, um Feedback zu sammeln, und es dann leichter auffindbar und sogar automatisch zu machen.

JammyDodger · 12. März 2024 um 09:36

6 Beiträge wurden in ein neues Thema aufgeteilt: Probleme bei der Konfiguration von KI-Bildunterschriften

ecki · 15. März 2024 um 12:41

Wird der (Internet-)Bildlink an den KI-Dienst gesendet, wird der Bildinhalt hochgeladen oder wird lokal in Discourse ein “Hashing” durchgeführt? Erfolgt dies serverseitig oder über JavaScript (d. h. wird die Client-IP einem externen Dienst offengelegt)?

Falco · 15. März 2024 um 13:12

Es sendet einen Link zum Bild an den von Ihnen ausgewählten Dienst für die Bildunterschriftenerstellung. Dies geschieht serverseitig, da Anmeldeinformationen beteiligt sind.

Wenn Sie die Funktion nutzen möchten, aber keine Drittanbieter einbeziehen möchten, können Sie LLaVa jederzeit auf Ihrem eigenen Server ausführen.

ecki · 15. März 2024 um 15:33

Zustimmung, jedoch könnte die Qualität aufgrund von Hardwarebeschränkungen leiden. Vielleicht könntest du einige Empfehlungen bezüglich Modellgrößen und Quantisierung oder minimalem VRAM aus deiner Erfahrung teilen. (Bin mir nicht sicher, ob sie überhaupt quantisierte Modelle haben, ihr „Zoo“ scheint nur vollständige Modelle zu enthalten).

Falco · 15. März 2024 um 15:46

Wir führen das vollständige Modell aus, aber die kleinste Version davon mit Mistral 7B. Es benötigt 21 GB VRAM auf unseren einzelnen A100-Servern und wird über das Container-Image ghcr.io/xfalcox/llava:latest ausgeführt.

Leider ist das Ökosystem für multimodale Modelle noch nicht so ausgereift wie das für Text-zu-Text-Modelle, sodass wir noch keine Inferenzserver wie vLLM oder TGI nutzen können und auf diese einmaligen Microservices angewiesen sind. Dies könnte sich dieses Jahr ändern, multimodale Modelle stehen auf der vLLM-Roadmap, aber bis dahin können wir zumindest mit diesen Diensten die Möglichkeiten testen.

seanblue · 21. März 2024 um 22:34

Ich habe ein kleines UX-Feedback dazu. Bei kleinen Bildern blockiert die Schaltfläche „Mit KI erfassen“ nicht nur das Bild selbst, sondern auch anderen Text im Beitrag, was die Überprüfung des Beitrags während der Bearbeitung erschwert.

Moin · 21. März 2024 um 22:55

mattdm · 12. April 2024 um 13:59

Ich sehe, dass alle generierten Bildunterschriften (sowohl hier als auch auf meiner Website) mit „Das Bild enthält“ oder „Ein Bild von“ oder ähnlichem beginnen. Das scheint unnötig und redundant zu sein. Könnte die Aufforderung aktualisiert werden, um ihr mitzuteilen, dass sie nicht erklären muss, dass das Bild ein Bild ist?

sam · 17. April 2024 um 03:20

Es ist so schwierig, dies zu verfeinern, da verschiedene Modelle unterschiedliche Toleranzen haben, aber ein Plan, den wir haben, ist es, Community-Besitzern die Kontrolle über die Eingabeaufforderungen zu ermöglichen, damit sie experimentieren können.

Isambard · 3. Juni 2024 um 17:11

@mattdm Sie können dies einfach erreichen, indem Sie die generierte Antwort mit „Ein Bild von“ vorab füllen. Auf diese Weise denkt die LLM, dass sie die Einleitung bereits generiert hat und generiert nur den Rest.

Thema		Antworten	Aufrufe
Helper - Auto caption Site Management how-to , ai , ai-captions	9	256	2. September 2025
A forum forgets automatic AI caption Bug ai , ai-helper , fixed	6	225	12. August 2024
Issues configuring AI image captions Support ai , ai-helper	21	693	12. April 2024
Non-AI method of captioning images Support	3	166	21. Juni 2024
Lets see your best AI Image Caption! General ai , ai-helper , ai-captions	38	2223	29. Juni 2024

AI-Bildbeschriftungsfunktion im Discourse AI-Plugin

Funktionen und Verwendung

Verwendung

Feedback

KI-Modell

Verwandte Themen