Verwaltung von Bildern im KI-Kontext

Wir hatten einige interne Fragen zur Bildverwaltung in KI-Kontexten, daher wollte ich einige der Überlegungen in einem öffentlichen Problem behandeln.

Das Problem

LLMs unterstützen heute mehrere Modalitäten. Alle großen Anbieter unterstützen mittlerweile die Eingabe von Bildern, einige Anbieter (insbesondere Google) unterstützen die Ausgabe von Bildern.

Dies stellt Discourse AI vor ein Problem: Wie präsentieren wir „Bilder“ den LLMs?

Insbesondere, wenn wir dieses Beispiel-Posting haben:

Hallo, hier ist ein Bild von mir:

![Bild|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)

Und hier ist noch eins

![Sam steht neben einem Fenster|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)

Das Ende

Wie präsentieren wir das dem LLM:

Option 1: Markdown beibehalten, Bilder angehängt

Ansatz: Alle Texte zusammenhalten, Bilder am Ende anhängen.

[
  "Hallo, hier ist ein Bild von mir: \n\n![Bild|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)\n\nUnd hier ist noch eins\n\n![Sam steht neben einem Fenster|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)\n\nDas Ende",
  image1,
  image2
]

Option 2: Markdown beibehalten, Bilder inline eingebettet

Ansatz: Texte und Bilder verschachteln, um Kontext und Reihenfolge zu erhalten.

[
  "Hallo, hier ist ein Bild von mir: \n\n![Bild|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)",
  image1,
  "Und hier ist noch eins\n\n![Sam steht neben einem Fenster|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)",
  image2,
  "Das Ende"
]

Option 3: Markdown entfernt, Bilder angehängt

Ansatz: Markdown-Bildsyntax vollständig entfernen, tatsächliche Bilder am Ende anhängen.

[
  "Hallo, hier ist ein Bild von mir: \n\nUnd hier ist noch eins\n\nDas Ende",
  image1,
  image2
]

Option 4: Beschreibungen beibehalten, Markdown vereinfacht

Ansatz: Discourse-spezifisches Format entfernen, aber Bildbeschreibungen für den Kontext beibehalten.

[
  "Hallo, hier ist ein Bild von mir: \n\nUnd hier ist noch eins\nSam steht neben einem Fenster\n\nDas Ende",
  image1,
  image2
]

Option 5: Beschreibungen inline, Bilder eingebettet

Ansatz: Markdown durch Beschreibungen inline ersetzen, dann entsprechende Bilder einbetten.

[
  "Hallo, hier ist ein Bild von mir:",
  image1,
  "Und hier ist noch eins\nSam steht neben einem Fenster",
  image2,
  "Das Ende"
]

Derzeit ist unsere Implementierung (1). Ein Teil der Antwort, warum, ist, dass „Legacy“-alte Modelle uns nicht erlaubten, die Bilder zu positionieren. Der andere Grund ist, dass Leute Discourse oft zur Neuformatierung von Beiträgen verwenden. Wenn wir Upload-Marker entfernen, denkt das LLM, wir hätten etwas anderes gesagt, und kann einen Beitrag mit Bildern nicht neu formatieren.

Zusätzlich empfehlen LLM-Anbieter wie Anthropic, Bilder immer am Ende zu platzieren. Das macht es für das LLM am einfachsten zu interpretieren.

Dieser Ansatz ist jedoch sehr problematisch für ein LLM wie Nano Banana: Image editing in Google Gemini gets a major upgrade.

Als ich dies versuchte, begann das LLM, Upload-Marker zu halluzinieren, anstatt Bilder zu rendern.

Im Nachhinein ergibt das Sinn.

Wenn wir einem LLM sagen, dass es gerade Folgendes gesagt hat: upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png, sollten wir uns nicht wundern, wenn es wieder etwas Seltsames sagt.

Ich bin unschlüssig, ob wir zu (2) wechseln sollen, und es sieht so aus, als ob (3) der einzig sinnvolle Weg ist, um „zu wiederholen, was das LLM gerade gesagt hat, um Halluzinationen zu vermeiden“… Unsere Lösung für dieses knifflige Problem ist also gemischt.

Während ich an dieser Arbeit arbeitete, habe ich auch untersucht, ob ich eine noch bessere Lösung schaffen kann, bei der Ausgabe und Eingabe gleich behandelt werden, aber ich glaube nicht, dass dies praktikabel ist. (Ich habe auch versucht, Upload-Beschreibungen beizubehalten, wenn sie lang genug sind und so weiter)

Vorerst jedoch

(1) für Eingaben in das LLM
(3) für Ausgaben aus dem LLM

Langfristig:

(2) für Eingaben ist eine Erkundung wert

und das Entfernen, aber Beibehalten der kontextuellen Position bei Ausgaben ist ebenfalls eine Erkundung wert.


Es ist schade, dass kein LLM-Anbieter es uns jetzt erlaubt, zusätzliche Metadaten für ein Bild zusammen mit dem Bild bereitzustellen.

3 „Gefällt mir“