إدارة الصور في سياق الذكاء الاصطناعي

كان لدينا بعض الأسئلة الداخلية حول إدارة الصور في سياقات الذكاء الاصطناعي، لذا أردت تغطية بعض الاعتبارات في مشكلة عامة.

المشكلة

تدعم نماذج اللغة الكبيرة (LLMs) اليوم وسائط متعددة. جميع البائعين الرئيسيين يدعمون الآن الإدخال كصور، وبعض البائعين (أبرزهم جوجل) يدعمون الإخراج كصور.

هذا يترك لـ Discourse AI مشكلة صغيرة، كيف نقدم “الصور” لنماذج اللغة الكبيرة.

على وجه التحديد، إذا كان لدينا هذا المثال للمنشور:

مرحباً، هذه صورة لي:

![صورة|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)

وهذه صورة أخرى

![سام يقف بجوار نافذة|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)

النهاية

كيف نقدم هذا لنموذج اللغة الكبير:

الخيار 1: الاحتفاظ بـ Markdown، وإلحاق الصور

النهج: الاحتفاظ بكل النص معًا، وإلحاق الصور في النهاية.

[
  "مرحباً، هذه صورة لي:

![صورة|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)

وهذه صورة أخرى

![سام يقف بجوار نافذة|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)

النهاية",
  image1,
  image2
]

الخيار 2: الاحتفاظ بـ Markdown، وتضمين الصور في سطر

النهج: تشابك النص والصور للحفاظ على السياق والترتيب.

[
  "مرحباً، هذه صورة لي:

![صورة|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)",
  image1,
  "وهذه صورة أخرى

![سام يقف بجوار نافذة|531x401](upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png)",
  image2,
  "النهاية"
]

الخيار 3: إزالة Markdown، وإلحاق الصور

النهج: إزالة صيغة Markdown للصور تمامًا، وإلحاق الصور الفعلية في النهاية.

[
  "مرحباً، هذه صورة لي:

وهذه صورة أخرى

النهاية",
  image1,
  image2
]

الخيار 4: الاحتفاظ بالأوصاف، وتبسيط Markdown

النهج: إزالة تنسيق Discourse الخاص ولكن الاحتفاظ بأوصاف الصور للسياق.

[
  "مرحباً، هذه صورة لي:

وهذه صورة أخرى
سام يقف بجوار نافذة

النهاية",
  image1,
  image2
]

الخيار 5: الأوصاف في سطر، والصور مضمنة

النهج: استبدال Markdown بالأوصاف في سطر، ثم تضمين الصور المقابلة.

[
  "مرحباً، هذه صورة لي:",
  image1,
  "وهذه صورة أخرى
سام يقف بجوار نافذة",
  image2,
  "النهاية"
]

في الوقت الحالي، تطبيقنا هو (1)، وجزء من سبب ذلك هو أن النماذج القديمة “القديمة” لم تسمح لنا بوضع الصور، والسبب الآخر هو أن الناس غالبًا ما يستخدمون Discourse لإعادة تنسيق منشور، إذا قمنا بإزالة علامات التحميل، فسيعتقد نموذج اللغة الكبير أننا قلنا شيئًا آخر ولن نتمكن من إعادة تنسيق منشور بالصور.

بالإضافة إلى ذلك، توصيات بائعي نماذج اللغة الكبيرة مثل Anthropic هي دائمًا وضع الصور في النهاية. هذا يبقي الأمور أبسط لنموذج اللغة الكبير لتفسيرها.

هذا النهج مع ذلك إشكالي للغاية لنموذج لغة كبير مثل Nano Banana: Image editing in Google Gemini gets a major upgrade.

عندما حاولت ذلك، بدأ نموذج اللغة الكبير في اختلاق علامات تحميل بدلاً من عرض الصور.

هذا منطقي بأثر رجعي.

إذا أخبرنا نموذج لغة كبير أنه قال للتو: upload://xd5Pv36uPIVKBqya8N5BzZGsJrN.png فلا تتفاجأ إذا قال شيئًا غريبًا مثل ذلك مرة أخرى.

أنا متردد في تحويلنا إلى (2) ويبدو أن (3) هي الطريقة الوحيدة المعقولة لـ “ترديد ما قاله نموذج اللغة الكبير للتو، لتجنب الهلوسة”… لذا فإن حلنا لهذه المشكلة الصعبة مختلط إلى حد ما.

أثناء القيام بهذا العمل، استكشفت ما إذا كان بإمكاني إنشاء حل متساوٍ حيث يتم التعامل مع الإخراج والإدخال بنفس الطريقة، لكنني لا أعتقد أن هذا عملي. (حاولت أيضًا الاحتفاظ بأوصاف التحميل عندما تكون طويلة بما فيه الكفاية وما إلى ذلك)

ولكن في الوقت الحالي

(1) للمدخلات في نموذج اللغة الكبير
(3) للمخرجات من نموذج اللغة الكبير

على المدى الطويل:

(2) للمدخلات تستحق الاستكشاف

وإزالة ولكن الاحتفاظ بالموضع السياقي للمخرجات تستحق الاستكشاف أيضًا.


من المؤسف أن أي بائع لنماذج اللغة الكبيرة لا يسمح لنا الآن بتوفير بيانات وصفية إضافية لصورة مع الصورة.

3 إعجابات