ليس لدي أي فكرة عن السبب، ولا يحدث هذا في جميع المشاركات، ولكنه قابل للتكرار في مشاركة معينة حيث، كلما استخدمت التدقيق الإملائي، يتم تكرار المحتوى.
حسنًا، يمكنني تكراره في المنشور الذي أشرت إليه، لكنني لم أتمكن من العثور عليه في أي مكان آخر حتى الآن. غريب جدًا بالفعل
![]()
حتى أنني جربت هذا
لكن الآخر الذي تمكنت من تكراره بنص رد مختلف وحتى مع حقل التاريخ خارج الاقتباس. لاحظت أنه إذا لم يكن هناك خطأ إملائي في نص الرد، فقد حاول تصحيح الاقتباس.
هذا غريب جدًا. ![]()
عندما لا تحدد أي نص، يكون هناك شيء لإصلاحه في الاقتباس، وتكون مستخدمًا غير موظف، فإنه يتضاعف. ![]()
عندما يبدو محتوى الاقتباس جيدًا، فإنه لا يتضاعف:
هذه مشكلة يتم تشغيلها بواسطة Qwen @Falco
{
"model": "meta-llama/Llama-3.2-11B-Vision-Instruct",
"temperature": 0,
"stop": [
"\n</output>"
],
"messages": [
{
"role": "system",
"content": "أنت مدقق لغوي لـ markdown. تقوم بتصحيح الأخطاء المطبعية الفادحة ومشكلات الصياغة ولكنك تحتفظ بصوت المستخدم الأصلي.\nأنت لا تلمس كتل التعليمات البرمجية. سأقدم لك نصًا للتدقيق. إذا لم يكن هناك شيء يحتاج إلى إصلاح، فسوف تعكس النص مرة أخرى.\nستجد النص بين علامتي XML <input></input>.\nستعيد دائمًا النص المصحح بين علامتي XML <output></output>.\n\n"
},
{
"role": "user",
"content": "<input>[quote=\"Arkshine, post:1, topic:339163\"]\n:information_source: يتطلب هذا المكون أن يكون Discourse محدثًا اعتبارًا من [date=2024-11-27 timezone=\"Europe/Paris\"]. \n[/quote]\nهل قمت بتحديث Discourse؟ تتلقى إشعارًا بالتحديث فقط عند إصدار إصدار تجريبي جديد، ولكن يتم إضافة التزامات جديدة كل يوم.</input>"
}
]
}
{
"id": "chatcmpl-752c6aacdc7f496b951592e88d485eb3",
"object": "chat.completion",
"created": 1733196730,
"model": "Qwen/Qwen2.5-32B-Instruct-AWQ",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "<input>[quote=\"Arkshine, post:1, topic:339163\"]\n:information_source: يتطلب هذا المكون أن يكون Discourse محدثًا اعتبارًا من [date=2024-11-27 timezone=\"Europe/Paris\"]. \n[/quote]\nهل قمت بتحديث Discourse؟ تتلقى إشعارًا بالتحديث فقط عند إصدار إصدار تجريبي جديد، ولكن يتم إضافة التزامات جديدة كل يوم.</input>\n\n<output>[quote=\"Arkshine, post:1, topic:339163\"]\n:information_source: يتطلب هذا المكون أن يكون Discourse محدثًا اعتبارًا من [date=2024-11-27 timezone=\"Europe/Paris\"]. \n[/quote]\nهل قمت بتحديث Discourse؟ تتلقى إشعارًا بالتحديث فقط عند إصدار إصدار تجريبي جديد، ولكن يتم إضافة التزامات جديدة كل يوم.</output>",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 184,
"total_tokens": 358,
"completion_tokens": 174,
"prompt_tokens_details": null
},
"prompt_logprobs": null
}
لاحظ كيف يعيد كلاً من علامتي <input> و </output>، لذا لدينا مشكلة هنا.
تنظيم التعبيرات العادية يحتفظ بكل من المدخلات والمخرجات.
أعتقد أنه يجب أن نكون أكثر تعمدًا مع واجهة برمجة التطبيقات الخاصة بنا وإذا كنت تقوم بالتدقيق فقط اطلب المخرجات أو قم بهندسة موجهات أفضل.
ومن المثير للاهتمام أيضًا أننا توقفنا عن إرسال الأمثلة على الرغم من أن لدينا أمثلة @Roman
سيؤدي هذا إلى إصلاح جوهر التراجع:
يأتي ذلك مع تأثير جانبي @Jagster، لقد توقفنا عن إرسال الأمثلة باللغة الإنجليزية منذ فترة، والآن سنرسلها مرة أخرى. أخبرنا إذا كان هذا يؤثر عليك.
ومع ذلك، @Roman، هذا لا معنى له بالنسبة لي:
SANITIZE_REGEX_STR =
%w[term context topic replyTo input output result]
.map { |tag| "<#{tag}>\n?|\n?<\/#{tag}>" }
.join("|")
ألا ينبغي أن يكون:
(العنصر مخصص لاقتراحات العناوين، ولكن ربما يسلك مسارًا مختلفًا)
SANITIZE_REGEX_STR =
%w[output item]
.map { |tag| "<#{tag}>\n?|\n?<\/#{tag}>" }
.join("|")
تستخدم بعض المطالبات المساعدة تلك العلامات لتوفير السياق. على سبيل المثال:
قد تتضمن بعض النماذج هذه العلامات في الرد، لذلك نقوم بإزالتها.
لست متابعًا، هل يمكنك التوسع بمثال كامل
لماذا نريد الاحتفاظ بالنص في علامات الإدخال في المخرجات، عندما نقوم بتنقية الأشياء التي يقدمها النموذج لنا؟
(يجب أن يعمل المشغل الآن بالمناسبة)
كلمة “sanitize” مضللة بعض الشيء هنا. نريد حل مشكلتين مختلفتين:
- التأكد من أننا نحصل على المخرجات ولا شيء آخر.
- التأكد من إزالة أي علامات تجعل النتيجة تبدو غير طبيعية.
المشكلة هنا هي أننا متساهلون للغاية مع (1). نحتاج إلى التأكد من أن الجزء ذي الصلة محاط دائمًا بـ `` و ، ولا شيء آخر. بمجرد حصولنا على هذا الجزء ذي الصلة، نزيل جميع العلامات الأخرى لضمان أن تبدو النتيجة نظيفة (2).
لتوسيع المثال الذي قدمته أعلاه، وشرح سبب قيامنا حاليًا بتنظيف جميع هذه العلامات، إليك ما يبدو عليه موجه “الشرح” المزروع:
يتم استخدام <term> و <replyTo> لتوفير السياق للنموذج، بينما يُستخدم <input> لإخبارنا بأننا نريد منه التركيز على هذا النص المحدد.
كانت المشكلة هي أن بعض النماذج كانت تستخدم نفس العلامات في ردودها، مما جعل النص يبدو غير طبيعي وغريبًا للمستخدمين. الهدف النهائي هنا هو إزالة هذه العلامات وإنتاج نص “نظيف” كنتيجة.
على سبيل المثال، عندما أريد الحصول على شرح لمعنى “عدم المتابعة”، لا أريد أن أرى شيئًا مثل هذا:
<term>عدم المتابعة</term>في هذا السياق يعني أن المستخدم يواجه صعوبة في فهم الشرح أو النقطة التي يتم طرحها. (…)





