يُظهر نص التدقيق الإملائي النص مرتين

Moin · 29 نوفمبر 2024، 9:42ص

ليس لدي أي فكرة عن السبب، ولا يحدث هذا في جميع المشاركات، ولكنه قابل للتكرار في مشاركة معينة حيث، كلما استخدمت التدقيق الإملائي، يتم تكرار المحتوى.

Lilly · 30 نوفمبر 2024، 4:41م

حسنًا، يمكنني تكراره في المنشور الذي أشرت إليه، لكنني لم أتمكن من العثور عليه في أي مكان آخر حتى الآن. غريب جدًا بالفعل

حتى أنني جربت هذا

لكن الآخر الذي تمكنت من تكراره بنص رد مختلف وحتى مع حقل التاريخ خارج الاقتباس. لاحظت أنه إذا لم يكن هناك خطأ إملائي في نص الرد، فقد حاول تصحيح الاقتباس.

Arkshine · 30 نوفمبر 2024، 5:20م

هذا غريب جدًا.

عندما لا تحدد أي نص، يكون هناك شيء لإصلاحه في الاقتباس، وتكون مستخدمًا غير موظف، فإنه يتضاعف.

عندما يبدو محتوى الاقتباس جيدًا، فإنه لا يتضاعف:

sam · 3 ديسمبر 2024، 3:44ص

هذه مشكلة يتم تشغيلها بواسطة Qwen @Falco

{
  "model": "meta-llama/Llama-3.2-11B-Vision-Instruct",
  "temperature": 0,
  "stop": [
    "\n</output>"
  ],
  "messages": [
    {
      "role": "system",
      "content": "أنت مدقق لغوي لـ markdown. تقوم بتصحيح الأخطاء المطبعية الفادحة ومشكلات الصياغة ولكنك تحتفظ بصوت المستخدم الأصلي.\nأنت لا تلمس كتل التعليمات البرمجية. سأقدم لك نصًا للتدقيق. إذا لم يكن هناك شيء يحتاج إلى إصلاح، فسوف تعكس النص مرة أخرى.\nستجد النص بين علامتي XML <input></input>.\nستعيد دائمًا النص المصحح بين علامتي XML <output></output>.\n\n"
    },
    {
      "role": "user",
      "content": "<input>[quote=\"Arkshine, post:1, topic:339163\"]\n:information_source: يتطلب هذا المكون أن يكون Discourse محدثًا اعتبارًا من [date=2024-11-27 timezone=\"Europe/Paris\"]. \n[/quote]\nهل قمت بتحديث Discourse؟ تتلقى إشعارًا بالتحديث فقط عند إصدار إصدار تجريبي جديد، ولكن يتم إضافة التزامات جديدة كل يوم.</input>"
    }
  ]
}

{
  "id": "chatcmpl-752c6aacdc7f496b951592e88d485eb3",
  "object": "chat.completion",
  "created": 1733196730,
  "model": "Qwen/Qwen2.5-32B-Instruct-AWQ",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "<input>[quote=\"Arkshine, post:1, topic:339163\"]\n:information_source: يتطلب هذا المكون أن يكون Discourse محدثًا اعتبارًا من [date=2024-11-27 timezone=\"Europe/Paris\"]. \n[/quote]\nهل قمت بتحديث Discourse؟ تتلقى إشعارًا بالتحديث فقط عند إصدار إصدار تجريبي جديد، ولكن يتم إضافة التزامات جديدة كل يوم.</input>\n\n<output>[quote=\"Arkshine, post:1, topic:339163\"]\n:information_source: يتطلب هذا المكون أن يكون Discourse محدثًا اعتبارًا من [date=2024-11-27 timezone=\"Europe/Paris\"]. \n[/quote]\nهل قمت بتحديث Discourse؟ تتلقى إشعارًا بالتحديث فقط عند إصدار إصدار تجريبي جديد، ولكن يتم إضافة التزامات جديدة كل يوم.</output>",
        "tool_calls": []
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 184,
    "total_tokens": 358,
    "completion_tokens": 174,
    "prompt_tokens_details": null
  },
  "prompt_logprobs": null
}

لاحظ كيف يعيد كلاً من علامتي <input> و </output>، لذا لدينا مشكلة هنا.

github.com/discourse/discourse-ai

lib/ai_helper/assistant.rb

e3f5e86dc


      
          SANITIZE_REGEX_STR =
            %w[term context topic replyTo input output result]
              .map { |tag| "<#{tag}>\\n?|\\n?</#{tag}>" }
              .join("|")
          
          SANITIZE_REGEX = Regexp.new(SANITIZE_REGEX_STR, Regexp::IGNORECASE | Regexp::MULTILINE)
          
          def sanitize_result(result)
            result.gsub(SANITIZE_REGEX, "")
          end

تنظيم التعبيرات العادية يحتفظ بكل من المدخلات والمخرجات.

أعتقد أنه يجب أن نكون أكثر تعمدًا مع واجهة برمجة التطبيقات الخاصة بنا وإذا كنت تقوم بالتدقيق فقط اطلب المخرجات أو قم بهندسة موجهات أفضل.

ومن المثير للاهتمام أيضًا أننا توقفنا عن إرسال الأمثلة على الرغم من أن لدينا أمثلة @Roman

sam · 3 ديسمبر 2024، 4:34ص

سيؤدي هذا إلى إصلاح جوهر التراجع:

يأتي ذلك مع تأثير جانبي @Jagster، لقد توقفنا عن إرسال الأمثلة باللغة الإنجليزية منذ فترة، والآن سنرسلها مرة أخرى. أخبرنا إذا كان هذا يؤثر عليك.

ومع ذلك، @Roman، هذا لا معنى له بالنسبة لي:

SANITIZE_REGEX_STR =
            %w[term context topic replyTo input output result]
              .map { |tag| "<#{tag}>\n?|\n?<\/#{tag}>" }
              .join("|")

ألا ينبغي أن يكون:

(العنصر مخصص لاقتراحات العناوين، ولكن ربما يسلك مسارًا مختلفًا)

SANITIZE_REGEX_STR =
            %w[output item]
              .map { |tag| "<#{tag}>\n?|\n?<\/#{tag}>" }
              .join("|")

Roman · 3 ديسمبر 2024، 12:39م

تستخدم بعض المطالبات المساعدة تلك العلامات لتوفير السياق. على سبيل المثال:

github.com/discourse/discourse-ai

app/jobs/regular/stream_post_helper.rb

main


      
          reply_to = post.reply_to_post
          
          return unless user.guardian.can_see?(post)
          
          helper_mode = args[:prompt]
          
          if helper_mode == DiscourseAi::AiHelper::Assistant::EXPLAIN
            input = <<~TEXT.strip
              <term>#{args[:text]}</term>
              <context>#{post.raw}</context>
              <topic>#{topic.title}</topic>
              #{reply_to ? "<replyTo>#{reply_to.raw}</replyTo>" : nil}
            TEXT
          else
            input = args[:text]
          end
          
          DiscourseAi::AiHelper::Assistant.new.stream_prompt(
            helper_mode,
            input,
            user,

قد تتضمن بعض النماذج هذه العلامات في الرد، لذلك نقوم بإزالتها.

sam · 3 ديسمبر 2024، 7:07م

لست متابعًا، هل يمكنك التوسع بمثال كامل
لماذا نريد الاحتفاظ بالنص في علامات الإدخال في المخرجات، عندما نقوم بتنقية الأشياء التي يقدمها النموذج لنا؟
(يجب أن يعمل المشغل الآن بالمناسبة)

Roman · 3 ديسمبر 2024، 8:31م

كلمة “sanitize” مضللة بعض الشيء هنا. نريد حل مشكلتين مختلفتين:

التأكد من أننا نحصل على المخرجات ولا شيء آخر.
التأكد من إزالة أي علامات تجعل النتيجة تبدو غير طبيعية.

المشكلة هنا هي أننا متساهلون للغاية مع (1). نحتاج إلى التأكد من أن الجزء ذي الصلة محاط دائمًا بـ `` و ، ولا شيء آخر. بمجرد حصولنا على هذا الجزء ذي الصلة، نزيل جميع العلامات الأخرى لضمان أن تبدو النتيجة نظيفة (2).

لتوسيع المثال الذي قدمته أعلاه، وشرح سبب قيامنا حاليًا بتنظيف جميع هذه العلامات، إليك ما يبدو عليه موجه “الشرح” المزروع:

https://github.com/discourse/discourse-ai/blob/main/db/fixtures/ai_helper/603_completion_prompts.rb#L157

يتم استخدام <term> و <replyTo> لتوفير السياق للنموذج، بينما يُستخدم <input> لإخبارنا بأننا نريد منه التركيز على هذا النص المحدد.

كانت المشكلة هي أن بعض النماذج كانت تستخدم نفس العلامات في ردودها، مما جعل النص يبدو غير طبيعي وغريبًا للمستخدمين. الهدف النهائي هنا هو إزالة هذه العلامات وإنتاج نص “نظيف” كنتيجة.

على سبيل المثال، عندما أريد الحصول على شرح لمعنى “عدم المتابعة”، لا أريد أن أرى شيئًا مثل هذا:

<term>عدم المتابعة</term> في هذا السياق يعني أن المستخدم يواجه صعوبة في فهم الشرح أو النقطة التي يتم طرحها. (…)

الموضوع		الردود	مرات العرض
Proofread breaks quotes Bug pr-welcome , ai-helper , ai	7	174	14 أغسطس 2025
Quote not working if I get the whole sentences Bug	3	1025	9 أكتوبر 2017
Quoting not working Support	74	4113	6 أبريل 2021
Unable to quote multiple paragraphs or anything across different HTML tags Support	39	2716	23 أكتوبر 2020
Improving quoting quote accuracy Feature	16	248	4 مارس 2025

يُظهر نص التدقيق الإملائي النص مرتين

الموضوعات ذات الصلة