Wir haben eine Funktion zur KI-gestützten Bildunterschriftenerstellung im Discourse AI-Plugin eingeführt, die die automatische Generierung von Bildunterschriften für Bilder in Beiträgen ermöglicht. Diese Funktionalität zielt darauf ab, die Barrierefreiheit von Inhalten zu verbessern und visuelle Elemente in Ihrer Community anzureichern.
Funktionen und Verwendung
Automatische KI-Bildunterschriften: Beim Hochladen eines Bildes im Editor können Sie automatisch eine Bildunterschrift mit KI generieren.
Bearbeitbare Bildunterschriften: Die generierte Bildunterschrift kann bearbeitet werden, um sie besser an den Kontext und Ton Ihres Inhalts anzupassen.
Verbesserte Barrierefreiheit: Die Funktion unterstützt die Erstellung von barrierefreieren Inhalten für Benutzer, die auf Screenreader angewiesen sind.
Verwendung
Laden Sie ein Bild im Discourse-Editor hoch.
Klicken Sie in der Nähe des Bildes auf die Schaltfläche „Mit KI beschriften“.
Eine generierte Bildunterschrift wird angezeigt, die Sie ändern können.
Akzeptieren Sie die Bildunterschrift, um sie in Ihren Beitrag aufzunehmen.
Feedback
Ihr Feedback ist entscheidend für die Verbesserung dieser Funktion. Sie ist hier auf Meta aktiviert. Bitte teilen Sie Ihre Erfahrungen, Probleme oder Vorschläge hier in diesem Thema mit.
KI-Modell
Diese Funktion unterstützt sowohl das Open-Source-Modell LLaVa 1.6 als auch die OpenAI API.
Es kann das karierte Hemd sehen, aber es kann George Costanza nicht erkennen.
Aber im Ernst, das ist großartig, besonders für #Barrierefreiheit. In früheren A11Y-Berichten war fehlender Alternativtext für Bilder eines der Hauptprobleme, und wir haben das bisher alles abgetan, da Bilder benutzergenerierte Inhalte sind. Dies ebnet nun den Weg zu einer viel, viel besseren Barrierefreiheit.
Gibt es bei Fehlermeldungen eine Möglichkeit, die Hervorhebung des Hauptteils des Fehlers zu fördern, damit die Suchmaschine ihn erkennt?
Einige andere Ergebnisse
Es identifiziert das dritte korrekt als das IBM EWM-Tool, erkennt aber nicht, dass 2 Rhapsody und 1 Vector Davinci ist. Dennoch sind diese Bildunterschriften ziemlich vernünftig.
Aber sie ist sehr schwer zu finden. Der Benutzer muss mit der Maus über das Bild fahren, um den Button zu sehen, und ihn dann anklicken (und die meisten Leute werden davon nichts wissen).
Obwohl ich die Funktion kannte und danach gesucht habe, musste ich mir das Video ansehen, um zu erfahren, dass ich mit der Maus darüber fahren muss.
Meiner Meinung nach sollte sie “ins Gesicht springen”, um am Anfang genutzt zu werden. Ich würde sie sogar standardmäßig Untertitel erstellen lassen, ohne dass der Benutzer etwas anklicken muss
Wir werden diese Eingabeaufforderungen schließlich anpassbar machen, sodass dies dann möglich sein wird.
Als neues Feature ist unsere Idee, es auf sehr unaufdringliche Weise einzuführen, um Feedback zu sammeln, und es dann leichter auffindbar und sogar automatisch zu machen.
Wird der (Internet-)Bildlink an den KI-Dienst gesendet, wird der Bildinhalt hochgeladen oder wird lokal in Discourse ein “Hashing” durchgeführt? Erfolgt dies serverseitig oder über JavaScript (d. h. wird die Client-IP einem externen Dienst offengelegt)?
Es sendet einen Link zum Bild an den von Ihnen ausgewählten Dienst für die Bildunterschriftenerstellung. Dies geschieht serverseitig, da Anmeldeinformationen beteiligt sind.
Wenn Sie die Funktion nutzen möchten, aber keine Drittanbieter einbeziehen möchten, können Sie LLaVa jederzeit auf Ihrem eigenen Server ausführen.
Zustimmung, jedoch könnte die Qualität aufgrund von Hardwarebeschränkungen leiden. Vielleicht könntest du einige Empfehlungen bezüglich Modellgrößen und Quantisierung oder minimalem VRAM aus deiner Erfahrung teilen. (Bin mir nicht sicher, ob sie überhaupt quantisierte Modelle haben, ihr „Zoo“ scheint nur vollständige Modelle zu enthalten).
Wir führen das vollständige Modell aus, aber die kleinste Version davon mit Mistral 7B. Es benötigt 21 GB VRAM auf unseren einzelnen A100-Servern und wird über das Container-Image ghcr.io/xfalcox/llava:latest ausgeführt.
Leider ist das Ökosystem für multimodale Modelle noch nicht so ausgereift wie das für Text-zu-Text-Modelle, sodass wir noch keine Inferenzserver wie vLLM oder TGI nutzen können und auf diese einmaligen Microservices angewiesen sind. Dies könnte sich dieses Jahr ändern, multimodale Modelle stehen auf der vLLM-Roadmap, aber bis dahin können wir zumindest mit diesen Diensten die Möglichkeiten testen.
Ich habe ein kleines UX-Feedback dazu. Bei kleinen Bildern blockiert die Schaltfläche „Mit KI erfassen“ nicht nur das Bild selbst, sondern auch anderen Text im Beitrag, was die Überprüfung des Beitrags während der Bearbeitung erschwert.
Ich sehe, dass alle generierten Bildunterschriften (sowohl hier als auch auf meiner Website) mit „Das Bild enthält“ oder „Ein Bild von“ oder ähnlichem beginnen. Das scheint unnötig und redundant zu sein. Könnte die Aufforderung aktualisiert werden, um ihr mitzuteilen, dass sie nicht erklären muss, dass das Bild ein Bild ist?
Es ist so schwierig, dies zu verfeinern, da verschiedene Modelle unterschiedliche Toleranzen haben, aber ein Plan, den wir haben, ist es, Community-Besitzern die Kontrolle über die Eingabeaufforderungen zu ermöglichen, damit sie experimentieren können.
@mattdm Sie können dies einfach erreichen, indem Sie die generierte Antwort mit „Ein Bild von“ vorab füllen. Auf diese Weise denkt die LLM, dass sie die Einleitung bereits generiert hat und generiert nur den Rest.