تقسيم المشاركات الكبيرة لترجمة ناجحة

أستخدم إضافة المترجم مع خدمة مايكروسوفت. إذا كانت المشاركة كبيرة بما يكفي، لا يمكن ترجمتها بالخطأ التالي:

هذه المشاركة طويلة جدًا بحيث لا يمكن ترجمتها بواسطة المترجم.

هل يمكنك تنفيذ ميزة الترجمة لكل فقرة للتغلب على هذه المشكلة؟

إعجابَين (2)

هذا جزء طبيعي من خدمة Google Translate، وأعتقد أن حد الكلمات يبلغ حوالي 500 كلمة.

إذا كنت تتلقى عادةً نصوصًا أكبر من ذلك، فهناك عدة خيارات:

  1. تحليل المحتوى يدويًا إلى كتل نصية أصغر من 500 كلمة (أو أي حد يكون موجودًا).
  2. استخدام واجهة برمجة تطبيقات (API) أخرى من Google مخصصة لترجمة المستندات (لست متأكدًا، لكنني أعتقد أنهم يقدمون واحدة، ويجب الاستفسار منهم مباشرة).
  3. استخدام موقع آخر يترجم المستندات ونأمل أن يوفر واجهات برمجة تطبيقات (APIs).

لا تنسَ إخبارنا بما نجح.

أستخدم واجهة برمجة تطبيقات مايكروسوفت، وليس جوجل.
يبدو أن مايكروسوفت تفرض حدًا أقصى يبلغ 10,000 حرف لكل طلب واحد: Service limits - Translator - Foundry Tools | Microsoft Learn

أعتقد أن أسهل طريقة هي تقسيم المنشور حسب الفقرات (“\r\n\r\n” أو

)، بافتراض أن حجم الفقرة لن يتجاوز 10,000 حرف؟

إعجاب واحد (1)

لم أستخدم مترجم مايكروسوفت من قبل، لذا فأنت متقدم علي في هذا الجانب — رغم أنني أشك في أن الطرق ستكون نفسها نظريًا.

أعجبني فكرتك في تحليل فواصل الفقرات، لكنني لست متأكدًا من افتراض أن كل مستند ينتهي سطره بـ CR/LF. فأنظمة 'nix تستخدم حرف LF فقط، بينما تستخدم أنظمة ماك حرف CR فقط، وتستخدم أنظمة ويندوز كليهما. وقد تستخدم مستندات أخرى بايتًا فارغًا كحرف نهاية السطر.

كما أن ترميز Unicode يطرح مشاكله الخاصة، إذ إن كل حرف فيه طوله بايتان.

حل ممكن: فحص فاصل السطر في الجملة الأولى أو الجملتين الأوليين، وحفظه كقيمة، ثم تحويل جميع فواصل الأسطر إلى “\n” فقط قبل تحليل المستند. وبعد إكمال معالجة المستند، يمكن إعادة ضبط فاصل السطر تلقائيًا إلى الصيغة الصحيحة.

إحدى الطرق هي المسح للأمام حتى الوصول إلى 10,000 كلمة، ثم المسح للخلف بحثًا عن فاصل فقرة. ضع مؤشرًا في بداية الكتلة الحالية، ثم المسح للأمام، وعندما تجد آخر فاصل فقرة قبل الوصول إلى 10,000 كلمة، ضع مؤشرًا في النهاية. قم بقص تلك الكتلة، ترجمها، انقلها إلى مستند النتيجة، ثم حرك المؤشر البادئ إلى موقع المؤشر الختامي واستمر.

==============================

كملاحظة جانبية، يمكن أن تكون برامج الترجمة سيئة للغاية، لأن الترجمة غالبًا ما تعتمد بشكل كبير على السياق، أو تحتوي على مصطلحات عامية، أو تستخدم لغة تخصصية. وبالمثل، فإن المصطلحات التقنية أو الكلمات الخاصة بمهارة أو حرفة معينة — التي لا ينبغي ترجمتها في كثير من الحالات — تُشوّه بشكل فظيع. وتُعد المستندات القانونية والطبية والهندسية/التقنية أمثلة كلاسيكية على ذلك.

أرسلت مستندًا طبيًا معقدًا (تقرير العملية الجراحية لإجراء جراحة دماغية لشخص ما) عبر مترجمين مختلفين: Google وYandex، في محاولة لترجمته إلى الروسية. وكانت نتيجة كلا الترجمتين أشبه باللازانيا الفاسدة أكثر من كونها مستندًا مقروءًا!

@jharris1993، أفترض أنك تقترح عليّ تنفيذ الميزة. للأسف، ليس لدي خبرة في Ruby، وهذا سيستغرق وقتًا أطول بكثير مما سيستغرقه شخص خبير.
بالتأكيد، يمكنني عمل حل سريع، لكنه لن يتم دمجه.

في منتداي، الترجمة الأكثر طلبًا هي من الروسية إلى الإنجليزية، خاصة للمواضيع التقنية. تقوم مايكروسوفت بعمل جيد جدًا في هذا المجال.

إعجاب واحد (1)

أحسنت!

أخبرني، ما هو هذا المنتدى؟ إذا كان بإمكانه الترجمة من الإنجليزية إلى الروسية، فقد أرسل له مستقبلي الطويل والمعقد!

يتم تنفيذ الترجمة باستخدام إضافة discourse-translator. ظننت أنني أنشأت هذا الموضوع ضمن فئة الإضافات، لكنه بقي دون تصنيف.

إعجاب واحد (1)