هل غيّر Google طريقة معالجة robots.txt في Discourse؟

jackjjw · 11 مايو 2020، 3:37م

تم ربط لوحتي بموقعي منذ بضعة أسابيع وقمت بتقديم الرابط إلى Google. لقد تلقيت تحذيرًا بشأن عدم الفهرسة، لكنه يبدو مخصصًا لصفحات الملفات الشخصية، وهو أمر جيد.

ومع ذلك، لم يظهر أي شيء في Google حتى الآن، هل هناك أي شيء عليّ فعله من جانب اللوحة، أم أن الأمر يتعلق فقط بانتظار قيام Google بفهرستها الآن؟

satonotdead · 11 مايو 2020، 4:30م

ربما يمكنك تجربة https://search.google.com/search-console/؟

jackjjw · 12 مايو 2020، 7:00ص

يبدو أن الرسالة تشير إلى أن صفحات المنشورات محظورة بواسطة ملف robots.txt، لكنني لم أقم بذلك. هل هناك إعداد في Discourse يجب تغييره لفتحها؟ شكرًا لك.

sam · 12 مايو 2020، 7:11ص

هناك إعداد للموقع، ابحث عن allow index in robots txt في إعدادات موقعك، يجب أن يكون مفعّلًا (مفعّل افتراضيًا)

jackjjw · 12 مايو 2020، 7:13ص

شكرًا لك سام، تم تحديد هذا الإعداد، هل هذا هو الترتيب الصحيح؟

آسف، أنا أخلط الأمور، يبدو أن عناوين الويب المحظورة هي ما يعادل روابط تغذية RSS.

أعتقد أن الأمر مجرد انتظار حتى يقوم جوجل بتحديث الموقع أو زيارته."}

sam · 12 مايو 2020، 7:22ص

نعم، يستمر هذا التكرار ويسبب مشاكل للدعم.

إن Googlebot مزعج إلى حد ما. لا يمكنك إخباره في ملف robots.txt بعدم فهرسة شيء معين. نحن نعمل على إصلاح لتهدئة Googlebot، لكن سيستغرق الأمر بعض الوقت لانتشار الإصلاح.

نخبر Googlebot في ملف robots.txt … “مرحبًا … لا تذهب لفهرسة جميع صفحات .rss على الموقع”
يجد Googlebot رابطًا في مكان ما لملف .rss على الموقع
ثم يشتكي Googlebot إلى مشغلي الموقع من وجود ملف .rss على الموقع، لكنه لا يستطيع معرفة ما يجب فعله بالرابط لأنه غير مسموح له بفهرسته. وأحيانًا يتضمن حتى هذا المحتوى في نتائج البحث.
ثم يشتكي مشغلو الموقع في قسم الميتا

إصلاحنا العام هنا هو ببساطة السماح لـ Googlebot بزيارة كل صفحة على الموقع واستخدام الإشارات المرجعية وتلميحات الفهرسة في رؤوس HTTP لتوجيهه إلى نقطة النجاح.

أعمل مع @jomaxro على هذا الأمر، وقد أحرزنا بالفعل بعض التقدم الجيد.

(معلومة مفيدة @codinghorror)

jackjjw · 12 مايو 2020، 7:29ص

شكرًا لك على التحديث يا سام، كل هذا منطقي وأشعر بما تمر به. لست خبيرًا في تحسين محركات البحث، لكنني كنت أدير مواقع ويب أكبر وعملت مع فرق تحسين محركات البحث، وفي المنتديات كانت الأمور غالبًا شائكة للغاية!

jomaxro · 12 مايو 2020، 4:59م

وللتوضيح، لا علاقة لهذا بالمناقشات في المنتديات. الأمر يتعلق بطريقة … مثيرة للاهتمام … يتعامل بها جوجل مع ملف robots.txt. وفقًا لـ Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers

يمكن أن تظل الصفحة المحظورة بواسطة robots.txt مفهرسة إذا كانت مرتبطة من مواقع أخرى
في حين أن جوجل لن تقوم بجمع أو فهرسة المحتوى المحظور بواسطة ملف robots.txt، فقد نجد ونفهرس عنوان URL غير مسموح به إذا كان مرتبطًا من أماكن أخرى على الويب. ونتيجة لذلك، قد يظهر عنوان URL ومعلومات عامة أخرى متاحة علنًا، مثل نص الرابط في الروابط المؤدية إلى الصفحة، في نتائج بحث جوجل. لمنع ظهور عنوان URL الخاص بك في نتائج بحث جوجل بشكل صحيح، يجب عليك حماية الملفات على خادمك بكلمة مرور أو استخدام وسم meta noindex أو رأس الاستجابة (أو إزالة الصفحة بالكامل).

لقد قمنا منذ فترة طويلة بتضمين الصفحات التي لا نرغب في فهرستها في ملف robots.txt الافتراضي الذي يحتويه كل موقع Discourse. كان هذا يعمل بشكل جيد سابقًا. في وقت غير معروف في الماضي، لم يعد هذا كافيًا، حيث قررت جوجل فهرسة الصفحات المرتبطة من أماكن أخرى حتى لو كانت ممنوعة عبر ملف robots.txt.

لذلك، في وقت سابق من هذا العام، بدأنا في اختبار تضمين رؤوس noindex على صفحات معينة. كان هذا سيعمل بشكل رائع، باستثناء أننا الآن نواجه تعارضًا بين ملف robots.txt والرأس. وفقًا لـ Block Search Indexing with noindex | Google Search Central | Documentation | Google for Developers

مهم! لكي يكون توجيه noindex فعالاً، يجب ألا تكون الصفحة محظورة بواسطة ملف robots.txt. إذا كانت الصفحة محظورة بواسطة ملف robots.txt، فلن يرى الزاحف توجيه noindex أبدًا، وقد تظهر الصفحة في نتائج البحث، على سبيل المثال إذا كانت هناك صفحات أخرى تربط بها.

وهو ما يقودنا إلى اليوم. نحن نختبر إزالة صفحات معينة من ملف robots.txt. يجب أن نكون حذرين، حيث نقوم بإجراء جميع هذه التغييرات بناءً على توثيق جوجل، لذا نعلم أننا على ما يرام مع Googlebot، لكننا بحاجة أيضًا إلى التحقق من الزواحف الرئيسية الأخرى للتأكد من أننا لا نتسبب في مشاكل هناك.

codinghorror · 13 مايو 2020، 7:04ص

نُقل هذا للتأكيد. لقد غيّرت جوجل سلوكها هنا، بينما لم نتغير نحن، لذا سيستغرق الأمر بعض الوقت للتكيف.

jackjjw · 25 يونيو 2020، 1:28م

مرحبًا جيف، كل هذا منطقي بالنسبة لي وأفهمه. كنت أرغب فقط في التأكد من أنني لم أقم بأي شيء لإخفاء صفحات الموضوعات من إعداداتي في Google. تظهر الصفحة الرئيسية والفئات الرئيسية في Google، لكن لا تظهر أي من صفحات الموضوعات، وقد مرّ بضعة أشهر الآن. هذا موقعي: https://community.jackwallington.com/

codinghorror · 25 يونيو 2020، 5:20م

أعتقد أننا قمنا بإجراء جميع التعديلات من جانبنا للتكيف مع تغييرات سلوك جوجل الأخيرة.. ربما يمكن لـ @jomaxro التأكيد؟ ستحتاج إلى استخدام أحدث إصدار من Discourse.

jomaxro · 25 يونيو 2020، 5:27م

لست متأكدًا، سأحتاج إلى التحقق. أعتقد أننا قمنا بإجراء بعض التغييرات اليدوية على ملف robots.txt (على ميتا فقط) أثناء الاختبار…

jomaxro · 25 يونيو 2020، 5:32م

عند النظر إلى discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub يبدو أن التغييرات محلية (لـ Meta فقط). سأقوم بإصلاح ذلك، لا يزال لدينا عدد قليل من الاختبارات طويلة الأمد قيد التنفيذ، لكنني واثق جدًا من ذلك.

jomaxro · 25 يونيو 2020، 7:15م

تم إجراء التغييرات اللازمة وفقًا لـ

github.com/discourse/discourse

FIX: Remove paths from robots.txt in favor of noindex header

committed 05:55PM - 25 Jun 20 UTC

jomaxro

+0 -13

Google no longer supports the use of robots.txt to block indexing. See https://s…upport.google.com/webmasters/answer/6062608 and https://support.google.com/webmasters/answer/93710 Previous commits have added the `noindex` header to appropriate pages, now we need to remove the paths from robots.txt so the pages can be crawled. Follow up to: 13f229808a22db9e1032832a313ab701b66614c8 b6765aac4b532c026418a7ffd9effd0741ab8a37 676be3a853454a33cf627c3d570feb37d3bb0bfd 07b728c5e557c9aae91c51f3eaac5c32d479f2a2 c94e6a9a66757ea48d99e3ee8d880523871cb6f4

jackjjw · 25 يونيو 2020، 7:31م

هل يمكن أن يكون لدي no index في مكان ما لصفحات المنشورات؟ على الرغم من أن جوجل تقول إنها تتجاهل هذا الآن

jomaxro · 25 يونيو 2020، 7:40م

ما لم تكن قد قمت بتثبيت إضافة لإضافة ذلك، فلا أستطيع التفكير في طريقة لإضافة مثل هذا الرأس. لا تتجاهل جوجل رأس noindex. تتجاهل جوجل ملف robots.txt عندما تشير مواقع أخرى إلى صفحتك. تحترم جوجل ذلك عند الزحف، ولهذا السبب تزيل الإضافة المذكورة أعلاه إدخالات ملف robots.txt لصالح رؤوس noindex المضافة سابقًا.

أقترح عليك التسجيل في Google Search Console حتى تتمكن من رؤية ما تراه جوجل بنفسك. ربما هناك مشكلة أخرى تمنع رؤية المواضيع.

jackjjw · 25 يونيو 2020، 7:54م

شكرًا لك يا جوشوا، يبدو أن Google Search Console سعيدة وتقول إن جميع المواضيع مدرجة. من الغريب جدًا أنه عند البحث عنها، لا تظهر صفحات المواضيع، بينما تظهر الصفحة الرئيسية وصفحات التصنيفات.

sam · 22 ديسمبر 2020، 5:17ص

سأقوم بإعادة التغيير وجعل هذا الشرط صريحًا لـ Googlebot.

يعتبر Googlebot زاحفًا ذكيًا للغاية، لكن العديد من الزواحف الأخرى ليست بنفس الذكاء.

jomaxro · 22 ديسمبر 2020، 5:22ص

هذا معقول. لاحظ أنه يوجد أيضًا التزام لاحق يجب إلغاؤه.

sam · 22 ديسمبر 2020، 6:01ص

لقد قمت بإنشاء هذا الطلب لسحب التغييرات (PR) لحل هذه المشكلة:

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

master ← crawl-less

merged 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

تحتفظ جوجل بقاعدتها الخاصة، بينما نقوم بتوفير حماية أفضل لمختلف الروبوتات التي لا تملك نفس القدرات المتقدمة. يبدو ملف robots الافتراضي الآن كما يلي:

# راجع http://www.robotstxt.org/robotstxt.html للحصول على توثيق حول كيفية استخدام ملف robots.txt
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*

الموضوع		الردود	مرات العرض
Pages listed in the robots.txt are crawled and indexed by Google Support	18	3401	30 يوليو 2019
Google notification to remove "noindex" statements from robots.txt Support	7	2510	30 يوليو 2019
Google complaining – Indexed, though blocked by robots.txt Support	22	2622	13 ديسمبر 2019
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	278	18 ديسمبر 2024
Generic rules in "robots.txt" not picked up by Googlebot Support	5	1052	3 مارس 2022

هل غيّر Google طريقة معالجة robots.txt في Discourse؟

الموضوعات ذات الصلة