شخصية Discourse AI، دعم التحميل

sam · 16 أبريل 2024، 7:21ص

يمكنك الآن تضمين أجزاء كبيرة من النصوص في شخصيات الذكاء الاصطناعي الخاصة بك!

يقدم هذا فوائد متعددة:

يمكنك تقديم أجزاء كبيرة من النصوص إلى روبوتات الذكاء الاصطناعي المخصصة الخاصة بك والتي لا توجد في تدريب النماذج. (على سبيل المثال: وثائق التدريب الداخلية، التقارير الداخلية)
يمكنك تأريض الشخصية بشكل أفضل ببيانات ملموسة (حتى لو كانت موجودة في مجموعة تدريب النموذج) مما يمكن أن يساعد النموذج في الاستشهاد بالمعلومات المحددة بشكل صحيح وزيادة جودة النتائج.

لإضافة تحميلات:

قم بإنشاء شخصية جديدة باستخدام الواجهة /admin/plugins/discourse-ai/ai-personas/.
قم بتحميل ملفات النصوص التي ترغب في تضمينها في شخصيتك

قبل تحميل الملفات، يرجى إضافة الامتدادات ذات الصلة ( .md و .txt) عبر إعداد الموقع authorized extensions حتى يمكن استخدامها بواسطة الشخصية

قم بضبط خيارات الفهرسة حسب ما تراه مناسبًا

المتطلبات الأساسية

لكي تعمل الميزة، ستحتاج إلى تمكين ai_embeddings_enabled وتكوين ai_embeddings_model.

يدعم Discourse AI عددًا كبيرًا جدًا من نماذج التضمين.

يحصل عملاؤنا المستضافون على وصول مجاني إلى نموذج bge-large-en المتطور.

يمكن للمستضيفين الذاتيين أو الأشخاص الذين يرغبون في المزيد من الخيارات استضافة نموذج تضمين ذاتيًا أو استخدام نماذج من OpenAI و Google (Gemini) والمزيد.

هل هذا RAG؟

إن تنفيذ دعم التحميل الخاص بنا هو بالفعل توليد معزز بالاسترجاع.

بشكل عام، في كل مرة نكون على وشك أن نطلب من LLM الإجابة على سؤال مستخدم، نبحث عن معلومات ذات صلة عالية بناءً على النص الذي أدخلته ونحقنها في موجه النظام.

شرح خيارات الفهرسة المختلفة

ما هو الرمز المميز (token)؟ الرموز المميزة هي وحدات أولية تستخدمها نماذج اللغة الكبيرة لتقسيم النص. شرح مرئي رائع متاح على: https://platform.openai.com/tokenizer

يأتي تنفيذ تحميل Discourse AI مع المفاتيح التالية:

Upload Chunk Tokens: بعد تحميل الملفات، نقوم بتقسيمها إلى أجزاء. يتيح لك هذا التحكم في حجم الأجزاء. إذا كان الجزء كبيرًا جدًا بالنسبة لنموذج التضمين الخاص بك، فسيتم اقتطاع التضمين (سيتم التعامل مع جزء فقط من الرموز المميزة).

Upload Chunk Overlap Tokens: هذا هو عدد الرموز المميزة المضمنة من الجزء السابق في الجزء الحالي. كلما زاد هذا العدد، زادت المعلومات المكررة التي سيتم تخزينها في الفهرس الخاص بك.

Search Conversation Chunks: يتحكم هذا في عدد “الأجزاء” من الرموز المميزة التي سيتم تضمينها بشكل غير مشروط بناءً على الصلة في موجه الإكمال. كلما زاد العدد، زاد السياق الذي سيتم توفيره لـ LLM (وزادت تكلفة الاستدعاءات). على سبيل المثال: إذا تم تعيين هذا على 10 وكان Upload Chunk Tokens معينًا على 200، فسيكون لكل إكمال عبء إضافي قدره 2000 رمز مميز.

كيف يقوم Discourse AI بتقسيم أجزاء النصوص؟

يستخدم Discourse أداة تقسيم النصوص بالحروف التكرارية، والتي تحاول الاحتفاظ بالفقرات، ثم الأسطر، وأخيرًا الكلمات معًا عند التقسيم.

بالإضافة إلى ذلك، يمنحك Discourse تحكمًا إضافيًا في كيفية تقسيم النص الخاص بك.

يمكن استخدام الفاصل [[metadata YOUR METADATA HERE]] لتقسيم أجزاء كبيرة من النصوص وتمييز ما تغطيه كل قسم بشكل صحيح.

على سبيل المثال:

[[metadata about cats]]
a long story about cats
[[metadata about dogs]]
a long story about dogs

هذا يسمح لمستند نصي واحد بتغطية مجموعة واسعة من المحتوى ويحميك من “تلوث الأجزاء”. أنت تضمن أن البيانات المتعلقة بالقطط فقط سيتم تضمينها في أجزاء القطط والكلاب في أجزاء الكلاب.

يبدو الأمر معقدًا، كيف يمكنني تصحيح الأخطاء؟

يأتي Discourse AI مع إعداد الموقع ai bot debugging enabled groups، والمستخدمون في هذه المجموعة لديهم وصول إلى تصحيح أخطاء الذكاء الاصطناعي:

يمكن لشاشات تصحيح أخطاء الذكاء الاصطناعي مساعدتك في الحصول على نافذة على المعلومات التي نرسلها إلى الذكاء الاصطناعي.

مدخلات سيئة - مخرجات سيئة إذا قدمت معلومات غير مفيدة أو غامضة لنموذج لغوي كبير، فلا يمكنه تحويلها بشكل سحري إلى معلومات مفيدة

يمكن أن تساعدك هذه الشاشة في تحديد حجم الأجزاء التي يجب أن تكون عليها بشكل أفضل أو ما إذا كنت تقوم بتضمين عدد كبير جدًا أو قليل جدًا من الأجزاء.

هل هذا يعمل حقًا؟

مثال واقعي هو تقسيم وثائق HAProxy وتغذيتها في شخصية:

System Prompt:

أنت روبوت متخصص في الإجابة على الأسئلة حول HAProxy.

أنت تعيش على منتدى Discourse و تعرض تنسيق Markdown الخاص بـ Discourse.

عند تقديم الإجابات، حاول دائمًا تضمين روابط مرة أخرى إلى وثائق HAProxy.

على سبيل المثال، هذه هي الطريقة التي ستربط بها بالقسم 10.1.1. ضع في اعتبارك أنه يمكنك الارتباط بقسم أو خيار داخله.

[fcgi-app](https://www.haproxy.com/documentation/haproxy-configuration-manual/latest/#10.1.1-fcgi-app)

كن كريمًا في الروابط، فهي مفيدة جدًا.

محتويات التحميل:
processed-haproxy-2.txt (1.2 ميجابايت)

والذي تم إنشاؤه باستخدام البرنامج النصي التالي:

file_content = File.read("configuration.txt")

title = nil
body = nil
last_line = nil

sections = []

file_content.each_line do |line|
  if line.strip.match?(/^[-]+$/)
    section_number, title = title.to_s.split(" ", 2)
    sections << {
      section_number: section_number,
      title: title,
      body: body.to_s.strip
    }

    title = last_line
    body = nil
    last_line = nil
  else
    body = body.to_s + last_line.to_s
    last_line = line
  end
end

section_number, title = title.to_s.split(" ", 2)
sections << { section_number: section_number, title: title, body: body }

section_names =
  sections.map { |section| [section[:section_number], section[:title]] }.to_h

sections[4..-1].each do |section|
  title = []
  current = +" "
  section_number = section[:section_number]
  section_number
    .split(".")
    .each do |number|
      current << number
      current << "."
      title << section_names[current].to_s.strip
    end
  title = title.join(" - ")

  body = section[:body]

  next if body.strip.empty?
  puts "[[metadata section=\"#{section_number}\" title=\"#{title.strip}\"]]"
  puts body
end

يمكن لكل من Claude Opus و GPT-4 أن يفشلا بشكل كبير مع الأسئلة المعقدة. هذا أمر مفهوم لأنهما يتغذيان على جميع الرموز المميزة على الإنترنت، لذا فإن 50 نسخة مختلفة من وثائق HAProxy وجميع المناقشات حولها تدخل في الدماغ، مما قد يجعله مرتبكًا جدًا:

أمثلة على GPT-4 و Claude 3 Opus مرتبكين

كلاهما ليسا جيدين تقريبًا مثل الإجابة المضبوطة التي يوفرها Discourse RAG:

أمثلة على GPT-4 و Claude Opus أقل ارتباكًا

المستقبل

نتطلع إلى تلقي ملاحظات حول بعض الأفكار للمستقبل والتي يمكن أن تشمل:

دعم PDF/DOCX/XLS وما إلى ذلك، حتى لا تحتاج إلى التحويل إلى نص
تقسيم أكثر ذكاءً للكود المصدري / HTML
تحويلات ذكية للبيانات الواردة قبل الفهرسة

أخبرنا برأيك!

شكر كبير لـ @Roman على إطلاق هذه الميزة

mattdm · 17 أبريل 2024، 11:28ص

هل سيكون من الممكن، بالإضافة إلى النصوص التي تم تحميلها يدويًا، تضمين منشورات المنتدى التي تتطابق مع معايير محددة؟

مثل:

في فئة معينة
لها علامة معينة (أو، ليس لها)
جزء من موضوع تم وضع علامة عليه كحل (بدلاً من ذلك، هو منشور حل على وجه التحديد)
هو الموضوع الأصلي، وليس ردًا
تم نشره بواسطة مستخدم في مجموعة معينة
قبل أو بعد تاريخ معين

أو ربما بدلاً من مربعات الاختيار بهذه الأشياء، ببساطة “هو أحد أفضل N موضوعات للبحث في منتدى معين”؟

sam · 17 أبريل 2024، 11:07م

كل هذا قابل للتنفيذ اليوم باستخدام أمر بحث مخصص:

يمكن تحديد الفئة المعطاة في المرشح
الوسم
تم الحل
المشغل فقط (أعتقد أنه قابل للتنفيذ)
المجموعة المعطاة
قبل وبعد التاريخ

mattdm · 18 أبريل 2024، 6:51م

هممم، ربما أساء فهمي. هل إتاحة ذلك للشخصية تفعل الشيء نفسه؟

لقد حاولت، وفي الغالب أحصل فقط على ميسترال لتختلق عناوين مواضيع وتربط بأرقام مشاركات عشوائية تمامًا.

MarcP · 18 أبريل 2024، 6:53م

هل Mistral جيدة بما يكفي لهذه المهام؟ أعتقد أن هذا قد يسبب الهلوسة. سام على حق، من خلال تغيير الاستعلام الأساسي يمكنك القيام بكل الأشياء التي ذكرتها في المنشور الأصلي.

mattdm · 18 أبريل 2024، 6:56م

وأيضًا، لقد نشرت قبل أن أكمل أفكاري. كان السؤال: هل توفير أمر البحث والمعلمات يقوم بنفس الشيء بشكل فعال مثل توفير الملفات التي تم تحميلها؟

لكن نعم، قد لا تكون ميسترال جيدة بما يكفي.

sam · 18 أبريل 2024، 10:07م

للتوسع هنا قليلاً:

https://chat.lmsys.org/?leaderboard

يأتي ميسترال بنكهات عديدة… هناك ميسترال 7b، وميكسترال 8x7b (الذي لديك)، والجديد تمامًا mistralai/Mixtral-8x22B-Instruct-v0.1 · Hugging Face - هذا وخمسة/ستة نماذج أخرى يطلقونها بما في ذلك بعض النماذج المغلقة المصدر.

يجب توخي الحذر مع عبارة “ميسترال ليس جيدًا بما فيه الكفاية” وتوضيحها دائمًا.

أود أن أقول إن ميكسترال-8x7b ببساطة ليس مناسبًا لدعم الأدوات، فهو ينحرف كثيرًا.

أود أن أقول إنه:

جيد جدًا لدعم “التحميل”
جيد جدًا في دعم الشخصيات المخصصة
ضعيف في دعم الأدوات

نحن نحاول معرفة ما إذا كان بإمكاننا الترقية إلى 8x22b (فهو يأتي مع دعم جيد للأدوات)، المشكلة هي أن متطلبات الذاكرة عالية جدًا وسنحتاج إلى تكميم النموذج ليناسب خوادمنا بشكل جيد.

ولكن حقًا… إذا كان لديك اتفاقية خصوصية بيانات مع أمازون، فسأوصي بشدة بـ Bedrock الذي سيتيح لك الوصول إلى Claude 3 Opus و Haiku.

أتفهم التوتر بين النماذج مفتوحة المصدر مقابل النماذج مغلقة المصدر. الأمر صعب، فالنماذج مغلقة المصدر متقدمة جدًا في الوقت الحالي.

MarcP · 18 أبريل 2024، 10:10م

أنت على حق، كان يجب أن أصيغ الأمر بشكل أفضل. كنت بالفعل أشير إلى أن النماذج ذات المصادر المغلقة أفضل بشكل عام.

MarcP · 23 أبريل 2024، 4:01ص

تتعطل عملية تحميل ملفات .txt متعددة دفعة واحدة: تظهر بسرعة، ولكن بعد ذلك يظهر ملف واحد فقط، وبعد ذلك لا يستجيب زر إضافة ملف بعد ذلك.

أعتقد أيضًا أن دعم ملفات .md سيكون إضافة رائعة.

sam · 23 أبريل 2024، 4:53ص

يا إلهي … صيد جيد يا @Roman سألقي نظرة.

يجب أن يعمل هذا بشكل جيد، فهو مدعوم بالفعل وتحتاج فقط إلى تمكين الامتداد.

Roman · 25 أبريل 2024، 1:50م

لقد دفعت إصلاحًا لخلل الملفات المتعددة:

github.com/discourse/discourse-ai

FIX: RAG uploader must support multi-file indexing.

main ← rag_fixes

opened 01:32PM - 25 Apr 24 UTC

romanrizzi

+56 -22

Updating the editing model's rag_uploads in the editor component broke multi-fil…e uploading. Instead, we'll keep the uploads in the uploader and update the model when we finish. This PR also fast-tracks the initial update so we can show feedback to the user quickly, and allows uploading MD files. Bug reported on https://meta.discourse.org/t/discourse-ai-persona-upload-support/304049/11

sam · 11 يونيو 2024، 3:41ص

تم تقسيم منشورين إلى موضوع جديد: تحسين جودة عوامل تصفية البحث في Discourse AI

tpetrov · 20 يونيو 2024، 9:07ص

Sam Saffron:

بالإضافة إلى ذلك، يمنحك Discourse تحكمًا إضافيًا في كيفية تقسيم النص الخاص بك.

يمكن استخدام الفاصل [[metadata YOUR METADATA HERE]] لتقسيم أجزاء كبيرة من النص وإبراز ما تغطيه كل قسم بشكل صحيح.

على سبيل المثال:
[[metadata about cats]]
a long story about cats
[[metadata about dogs]]
a long story about dogs
هذا يسمح لمستند نصي واحد بتغطية مجموعة واسعة من المحتوى ويحميك من “تلوث الأجزاء”. أنت مضمون أن البيانات المتعلقة بالقطط فقط سيتم تضمينها في أجزاء القطط والكلاب في أجزاء الكلاب.

مرحباً سام، أتساءل كيف يعمل هذا بالضبط. سيخبر الذكاء الاصطناعي أن هذه بيانات عن القطط أو الكلاب، ولكن كيف سيؤثر ذلك على الأجزاء إذا تم تعيينها بالفعل لعدد محدد من الرموز (لنقل 2000). هل سيقطع جزءًا عندما يرى سطرًا مثل [[metadata about dogs]] ويبدأ جزءًا جديدًا؟

sam · 20 يونيو 2024، 9:28ص

نعم، سينقطع مبكرًا

MarcP · 6 يوليو 2024، 4:14ص

أوه يا إلهي، كنت أستخدم تنسيق <meta content=meta> الذي يعمل مع معظم نماذج LLM، هل هناك سبب لاختيارك طريقة [[الأقواس]]؟ هل لا تزال <tags> تعمل أم من الأفضل استخدام طريقة الأقواس في Discourse؟

sam · 8 يوليو 2024، 8:01ص

لم يتم استهلاك هذا على الإطلاق بواسطة نموذج اللغة الكبير (نقوم بتحليل واستهلاك البيانات الوصفية) أردنا فاصلًا من غير المرجح ظهوره في البيانات المفهرسة

Saif · 27 أغسطس 2024، 2:54ص

تمت إضافة هذا الجزء إلى النسخة

MachineScholar · 17 سبتمبر 2024، 6:52ص

هل هذه التضمينات التي تم إنشاؤها لشخصيات الذكاء الاصطناعي موجودة في نفس قاعدة بيانات المتجهات؟ وفي الواقع، هل تم إنشاء جميع التضمينات الخاصة بالخطاب وتخزينها في نفس قاعدة بيانات المتجهات؟

sam · 17 سبتمبر 2024، 6:59ص

كل شيء في Postgres باستخدام نفس قاعدة البيانات

BrianC · 30 يناير 2025، 3:03ص

هل يمكن لأحد أن يخبرني ماذا يحدث لملفات النص التي تم تحميلها في الشخصيات إذا تم حذفها من قائمة الملفات التي تم تحميلها؟ أفهم أنها تُستخدم لـ RAG ولكن إذا قمت بحذف الملف، فهل سيتم حذفه مما تمت فهرسته؟ أتساءل عما إذا كان من الممكن تعديل ما تمت فهرسته عن طريق حذف ملف نصي، وإجراء التعديل الخاص بك وإعادة تحميله؟

الموضوع		الردود	مرات العرض
AI bot - Personas Site Management how-to , ai-bot , ai	23	2423	10 أكتوبر 2025
[Ai Bot] Add user token tracking, custom AI personas, max context posts, document loading, custom API URLs, and localized chat titles Feature ai-bot , ai	2	486	22 مارس 2024
Improving quality of search filters in Discourse AI Support ai	14	590	28 يونيو 2024
Discourse AI Plugin included-in-core , ai , official	89	37447	14 أكتوبر 2025
Engineering a persona to lean on chat history Support ai	8	124	11 أغسطس 2025