كيف تفهرس محركات البحث مثل Google مواقع Discourse العامة

Discourse · 6 فبراير 2013، 12:14م

يشرح هذا المرجع كيف تعمل مواقع Discourse العامة مع محركات البحث مثل Google وكيف تضمن المنصة فهرسة المحتوى بشكل صحيح حتى كتطبيق JavaScript.

مستوى المستخدم المطلوب: جميع المستخدمين

فهرسة محركات البحث لمواقع Discourse

تم بناء Discourse كتطبيق JavaScript، ولكنه مصمم خصيصًا لضمان قدرة محركات البحث على الزحف إلى جميع المحتويات على المواقع العامة وفهرستها بشكل صحيح.

كيف يدعم Discourse زواحف محركات البحث

بينما يستخدم Discourse JavaScript الحديث لميزاته التفاعلية، فإنه يطبق العديد من التقنيات لضمان أن محركات البحث يمكنها فهرسة جميع المحتويات بشكل صحيح:

تخطيط مخصص للزواحف (Crawler layout)

يكتشف Discourse تلقائيًا روبوتات محركات البحث من خلال وكيل المستخدم الخاص بها باستخدام وحدة CrawlerDetection. عند اكتشاف زاحف، يقدم Discourse تخطيط HTML مُقدَّم من الخادم منفصل تمامًا (crawler.html.erb) بدلاً من تطبيق JavaScript العادي. يتضمن تخطيط الزاحف هذا:

محتوى المواضيع وقوائم المواضيع مُقدَّمة بالكامل بتنسيق HTML - لا حاجة لـ JavaScript
ترميز بيانات Schema.org المنظمة (مثل DiscussionForumPosting، وItemList، وBreadcrumbList) لمساعدة محركات البحث على فهم المحتوى الخاص بك
ترقيم صفحات مناسب مع روابط rel="prev" وrel="next" للسماح بالزحف الكامل
رؤوس Last-Modified في صفحات المواضيع للإشارة إلى حداثة المحتوى

التراجع في حالة عدم وجود JavaScript

بالنسبة للمتصفحات العادية التي تم تعطيل JavaScript فيها، يتضمن Discourse أيضًا علامة <noscript> في تخطيط التطبيق القياسي. يحتوي هذا على قوائم مواضيع ومحتوى مواضيع مُقدَّم، مما يضمن بقاء الموقع متاحًا حتى بدون JavaScript.

Robots.txt وضوابط الفهرسة

يوفر Discourse العديد من الإعدادات للتحكم في كيفية تفاعل محركات البحث مع موقعك:

`allow_index_in_robots_txt`

يتحكم إعداد الموقع هذا (ممكّن بشكل افتراضي) فيما إذا كان ملف robots.txt الخاص بموقعك يسمح بالزحف. عند تعطيله، سيحظر ملف robots.txt جميع الزواحف، وستتم إضافة رأس X-Robots-Tag: noindex إلى جميع الاستجابات.

القائمة المسموح بها والمحظورة لزواحف البحث

يمكنك التحكم في زواحف البحث المسموح لها بالوصول إلى موقعك باستخدام:

allowed_crawler_user_agents - عند تعيينه، يُسمح فقط للزواحف المدرجة بالدخول؛ يتم حظر جميع الزواحف الأخرى عبر robots.txt
blocked_crawler_user_agents - عند تعيينه، يتم حظر الزواحف المدرجة بينما يُسمح لجميع الزواحف الأخرى بالدخول

robots.txt مخصص

يمكن للمسؤولين تخصيص ملف robots.txt بالكامل عبر /admin/customize/robots. يقوم ملف robots.txt المخصص بإلغاء الملف الافتراضي المُنشأ بالكامل.

المسارات المحظورة افتراضيًا

بشكل افتراضي، يمنع Discourse الزواحف من الوصول إلى المسارات التي ليست مفيدة للفهرسة، مثل /admin/ و/auth/ و/email/ و/session و/search وغيرها. يحصل Googlebot على تكوين أكثر تساهلاً، حيث يحظر فقط مسارات المسؤول/المصادقة الأساسية.

عرض نسخة الزاحف

يمكنك معرفة كيف ترى محركات البحث موقع Discourse الخاص بك عن طريق:

تثبيت إضافة لتعطيل JavaScript في متصفحات Chrome أو Firefox
استخدام أدوات المطور في Chrome لتعطيل JavaScript (تعليمات Google)
تغيير سلسلة وكيل المستخدم في متصفحك إلى زاحف معروف (مثل Googlebot) لرؤية تخطيط الزاحف المخصص

الموضوع		الردود	مرات العرض
The effect of endless scrolling = Bad for Google / SEO Feature	3	3685	24 فبراير 2014
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2262	18 أكتوبر 2023
Ember and SEO challenges regarding discourse.org Site feedback	3	4952	20 يونيو 2013
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5540	1 يونيو 2024
Replace Google search with Discourse search on not found page UX	13	3617	30 أغسطس 2018