هل غيّر Google طريقة معالجة robots.txt في Discourse؟

تم ربط لوحتي بموقعي منذ بضعة أسابيع وقمت بتقديم الرابط إلى Google. لقد تلقيت تحذيرًا بشأن عدم الفهرسة، لكنه يبدو مخصصًا لصفحات الملفات الشخصية، وهو أمر جيد.

ومع ذلك، لم يظهر أي شيء في Google حتى الآن، هل هناك أي شيء عليّ فعله من جانب اللوحة، أم أن الأمر يتعلق فقط بانتظار قيام Google بفهرستها الآن؟

ربما يمكنك تجربة https://search.google.com/search-console/؟

يبدو أن الرسالة تشير إلى أن صفحات المنشورات محظورة بواسطة ملف robots.txt، لكنني لم أقم بذلك. هل هناك إعداد في Discourse يجب تغييره لفتحها؟ شكرًا لك.

هناك إعداد للموقع، ابحث عن allow index in robots txt في إعدادات موقعك، يجب أن يكون مفعّلًا (مفعّل افتراضيًا)

شكرًا لك سام، تم تحديد هذا الإعداد، هل هذا هو الترتيب الصحيح؟

آسف، أنا أخلط الأمور، يبدو أن عناوين الويب المحظورة هي ما يعادل روابط تغذية RSS.

أعتقد أن الأمر مجرد انتظار حتى يقوم جوجل بتحديث الموقع أو زيارته."}

نعم، يستمر هذا التكرار ويسبب مشاكل للدعم.

إن Googlebot مزعج إلى حد ما. لا يمكنك إخباره في ملف robots.txt بعدم فهرسة شيء معين. نحن نعمل على إصلاح لتهدئة Googlebot، لكن سيستغرق الأمر بعض الوقت لانتشار الإصلاح.

  • نخبر Googlebot في ملف robots.txt … “مرحبًا … لا تذهب لفهرسة جميع صفحات .rss على الموقع”

  • يجد Googlebot رابطًا في مكان ما لملف .rss على الموقع

  • ثم يشتكي Googlebot إلى مشغلي الموقع من وجود ملف .rss على الموقع، لكنه لا يستطيع معرفة ما يجب فعله بالرابط لأنه غير مسموح له بفهرسته. وأحيانًا يتضمن حتى هذا المحتوى في نتائج البحث.

  • ثم يشتكي مشغلو الموقع في قسم الميتا

إصلاحنا العام هنا هو ببساطة السماح لـ Googlebot بزيارة كل صفحة على الموقع واستخدام الإشارات المرجعية وتلميحات الفهرسة في رؤوس HTTP لتوجيهه إلى نقطة النجاح.

أعمل مع @jomaxro على هذا الأمر، وقد أحرزنا بالفعل بعض التقدم الجيد.

(معلومة مفيدة @codinghorror)

شكرًا لك على التحديث يا سام، كل هذا منطقي وأشعر بما تمر به. لست خبيرًا في تحسين محركات البحث، لكنني كنت أدير مواقع ويب أكبر وعملت مع فرق تحسين محركات البحث، وفي المنتديات كانت الأمور غالبًا شائكة للغاية!

وللتوضيح، لا علاقة لهذا بالمناقشات في المنتديات. الأمر يتعلق بطريقة … مثيرة للاهتمام … يتعامل بها جوجل مع ملف robots.txt. وفقًا لـ Robots.txt Introduction and Guide | Google Search Central  |  Documentation  |  Google for Developers

يمكن أن تظل الصفحة المحظورة بواسطة robots.txt مفهرسة إذا كانت مرتبطة من مواقع أخرى
في حين أن جوجل لن تقوم بجمع أو فهرسة المحتوى المحظور بواسطة ملف robots.txt، فقد نجد ونفهرس عنوان URL غير مسموح به إذا كان مرتبطًا من أماكن أخرى على الويب. ونتيجة لذلك، قد يظهر عنوان URL ومعلومات عامة أخرى متاحة علنًا، مثل نص الرابط في الروابط المؤدية إلى الصفحة، في نتائج بحث جوجل. لمنع ظهور عنوان URL الخاص بك في نتائج بحث جوجل بشكل صحيح، يجب عليك حماية الملفات على خادمك بكلمة مرور أو استخدام وسم meta noindex أو رأس الاستجابة (أو إزالة الصفحة بالكامل).

لقد قمنا منذ فترة طويلة بتضمين الصفحات التي لا نرغب في فهرستها في ملف robots.txt الافتراضي الذي يحتويه كل موقع Discourse. كان هذا يعمل بشكل جيد سابقًا. في وقت غير معروف في الماضي، لم يعد هذا كافيًا، حيث قررت جوجل فهرسة الصفحات المرتبطة من أماكن أخرى حتى لو كانت ممنوعة عبر ملف robots.txt.

لذلك، في وقت سابق من هذا العام، بدأنا في اختبار تضمين رؤوس noindex على صفحات معينة. كان هذا سيعمل بشكل رائع، باستثناء أننا الآن نواجه تعارضًا بين ملف robots.txt والرأس. وفقًا لـ Block Search Indexing with noindex | Google Search Central  |  Documentation  |  Google for Developers

مهم! لكي يكون توجيه noindex فعالاً، يجب ألا تكون الصفحة محظورة بواسطة ملف robots.txt. إذا كانت الصفحة محظورة بواسطة ملف robots.txt، فلن يرى الزاحف توجيه noindex أبدًا، وقد تظهر الصفحة في نتائج البحث، على سبيل المثال إذا كانت هناك صفحات أخرى تربط بها.

وهو ما يقودنا إلى اليوم. نحن نختبر إزالة صفحات معينة من ملف robots.txt. يجب أن نكون حذرين، حيث نقوم بإجراء جميع هذه التغييرات بناءً على توثيق جوجل، لذا نعلم أننا على ما يرام مع Googlebot، لكننا بحاجة أيضًا إلى التحقق من الزواحف الرئيسية الأخرى للتأكد من أننا لا نتسبب في مشاكل هناك.

نُقل هذا للتأكيد. لقد غيّرت جوجل سلوكها هنا، بينما لم نتغير نحن، لذا سيستغرق الأمر بعض الوقت للتكيف.

مرحبًا جيف، كل هذا منطقي بالنسبة لي وأفهمه. كنت أرغب فقط في التأكد من أنني لم أقم بأي شيء لإخفاء صفحات الموضوعات من إعداداتي في Google. تظهر الصفحة الرئيسية والفئات الرئيسية في Google، لكن لا تظهر أي من صفحات الموضوعات، وقد مرّ بضعة أشهر الآن. هذا موقعي: https://community.jackwallington.com/

أعتقد أننا قمنا بإجراء جميع التعديلات من جانبنا للتكيف مع تغييرات سلوك جوجل الأخيرة.. ربما يمكن لـ @jomaxro التأكيد؟ ستحتاج إلى استخدام أحدث إصدار من Discourse.

لست متأكدًا، سأحتاج إلى التحقق. أعتقد أننا قمنا بإجراء بعض التغييرات اليدوية على ملف robots.txt (على ميتا فقط) أثناء الاختبار…

عند النظر إلى discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub يبدو أن التغييرات محلية (لـ Meta فقط). سأقوم بإصلاح ذلك، لا يزال لدينا عدد قليل من الاختبارات طويلة الأمد قيد التنفيذ، لكنني واثق جدًا من ذلك.

تم إجراء التغييرات اللازمة وفقًا لـ

هل يمكن أن يكون لدي no index في مكان ما لصفحات المنشورات؟ على الرغم من أن جوجل تقول إنها تتجاهل هذا الآن

ما لم تكن قد قمت بتثبيت إضافة لإضافة ذلك، فلا أستطيع التفكير في طريقة لإضافة مثل هذا الرأس. لا تتجاهل جوجل رأس noindex. تتجاهل جوجل ملف robots.txt عندما تشير مواقع أخرى إلى صفحتك. تحترم جوجل ذلك عند الزحف، ولهذا السبب تزيل الإضافة المذكورة أعلاه إدخالات ملف robots.txt لصالح رؤوس noindex المضافة سابقًا.

أقترح عليك التسجيل في Google Search Console حتى تتمكن من رؤية ما تراه جوجل بنفسك. ربما هناك مشكلة أخرى تمنع رؤية المواضيع.

شكرًا لك يا جوشوا، يبدو أن Google Search Console سعيدة وتقول إن جميع المواضيع مدرجة. من الغريب جدًا أنه عند البحث عنها، لا تظهر صفحات المواضيع، بينما تظهر الصفحة الرئيسية وصفحات التصنيفات.

سأقوم بإعادة التغيير وجعل هذا الشرط صريحًا لـ Googlebot.

يعتبر Googlebot زاحفًا ذكيًا للغاية، لكن العديد من الزواحف الأخرى ليست بنفس الذكاء.

هذا معقول. لاحظ أنه يوجد أيضًا التزام لاحق يجب إلغاؤه.

لقد قمت بإنشاء هذا الطلب لسحب التغييرات (PR) لحل هذه المشكلة:

تحتفظ جوجل بقاعدتها الخاصة، بينما نقوم بتوفير حماية أفضل لمختلف الروبوتات التي لا تملك نفس القدرات المتقدمة. يبدو ملف robots الافتراضي الآن كما يلي:

# راجع http://www.robotstxt.org/robotstxt.html للحصول على توثيق حول كيفية استخدام ملف robots.txt
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*