كيف تفهرس محركات البحث مثل Google مواقع Discourse العامة

:bookmark: يشرح هذا المرجع كيف تعمل مواقع Discourse العامة مع محركات البحث مثل Google وكيف تضمن المنصة فهرسة المحتوى بشكل صحيح حتى كتطبيق JavaScript.

:person_raising_hand: مستوى المستخدم المطلوب: جميع المستخدمين

فهرسة محركات البحث لمواقع Discourse

تم بناء Discourse كتطبيق JavaScript، ولكنه مصمم خصيصًا لضمان قدرة محركات البحث على الزحف إلى جميع المحتويات على المواقع العامة وفهرستها بشكل صحيح.

كيف يدعم Discourse زواحف محركات البحث

بينما يستخدم Discourse JavaScript الحديث لميزاته التفاعلية، فإنه يطبق العديد من التقنيات لضمان أن محركات البحث يمكنها فهرسة جميع المحتويات بشكل صحيح:

تخطيط مخصص للزواحف (Crawler layout)

يكتشف Discourse تلقائيًا روبوتات محركات البحث من خلال وكيل المستخدم الخاص بها باستخدام وحدة CrawlerDetection. عند اكتشاف زاحف، يقدم Discourse تخطيط HTML مُقدَّم من الخادم منفصل تمامًا (crawler.html.erb) بدلاً من تطبيق JavaScript العادي. يتضمن تخطيط الزاحف هذا:

  1. محتوى المواضيع وقوائم المواضيع مُقدَّمة بالكامل بتنسيق HTML - لا حاجة لـ JavaScript
  2. ترميز بيانات Schema.org المنظمة (مثل DiscussionForumPosting، وItemList، وBreadcrumbList) لمساعدة محركات البحث على فهم المحتوى الخاص بك
  3. ترقيم صفحات مناسب مع روابط rel="prev" وrel="next" للسماح بالزحف الكامل
  4. رؤوس Last-Modified في صفحات المواضيع للإشارة إلى حداثة المحتوى

التراجع في حالة عدم وجود JavaScript

بالنسبة للمتصفحات العادية التي تم تعطيل JavaScript فيها، يتضمن Discourse أيضًا علامة <noscript> في تخطيط التطبيق القياسي. يحتوي هذا على قوائم مواضيع ومحتوى مواضيع مُقدَّم، مما يضمن بقاء الموقع متاحًا حتى بدون JavaScript.

Robots.txt وضوابط الفهرسة

يوفر Discourse العديد من الإعدادات للتحكم في كيفية تفاعل محركات البحث مع موقعك:

allow_index_in_robots_txt

يتحكم إعداد الموقع هذا (ممكّن بشكل افتراضي) فيما إذا كان ملف robots.txt الخاص بموقعك يسمح بالزحف. عند تعطيله، سيحظر ملف robots.txt جميع الزواحف، وستتم إضافة رأس X-Robots-Tag: noindex إلى جميع الاستجابات.

القائمة المسموح بها والمحظورة لزواحف البحث

يمكنك التحكم في زواحف البحث المسموح لها بالوصول إلى موقعك باستخدام:

  • allowed_crawler_user_agents - عند تعيينه، يُسمح فقط للزواحف المدرجة بالدخول؛ يتم حظر جميع الزواحف الأخرى عبر robots.txt
  • blocked_crawler_user_agents - عند تعيينه، يتم حظر الزواحف المدرجة بينما يُسمح لجميع الزواحف الأخرى بالدخول

robots.txt مخصص

يمكن للمسؤولين تخصيص ملف robots.txt بالكامل عبر /admin/customize/robots. يقوم ملف robots.txt المخصص بإلغاء الملف الافتراضي المُنشأ بالكامل.

المسارات المحظورة افتراضيًا

بشكل افتراضي، يمنع Discourse الزواحف من الوصول إلى المسارات التي ليست مفيدة للفهرسة، مثل /admin/ و/auth/ و/email/ و/session و/search وغيرها. يحصل Googlebot على تكوين أكثر تساهلاً، حيث يحظر فقط مسارات المسؤول/المصادقة الأساسية.

عرض نسخة الزاحف

يمكنك معرفة كيف ترى محركات البحث موقع Discourse الخاص بك عن طريق:

  • تثبيت إضافة لتعطيل JavaScript في متصفحات Chrome أو Firefox
  • استخدام أدوات المطور في Chrome لتعطيل JavaScript (تعليمات Google)
  • تغيير سلسلة وكيل المستخدم في متصفحك إلى زاحف معروف (مثل Googlebot) لرؤية تخطيط الزاحف المخصص
13 إعجابًا