القواعد العامة في "robots.txt" لا يتم التقاطها بواسطة Googlebot

عزيزي فريق Discourse،

أولاً وقبل كل شيء: نود أن نحييكم على الروح والمثابرة في ابتكار وصيانة Discourse. إنه لمن دواعي سرورنا دائمًا استخدامه لنا ولأعضاء مجتمعنا.

لقد لخصنا بعض الملاحظات الطفيفة التي تم إجراؤها اليوم ونأمل أن تجدوها مفيدة. من ناحية أخرى، سنكون سعداء أيضًا بسماع أي سوء فهم من جانبنا.

مع خالص التقدير،
أندرياس.


مقدمة

أثناء التحقيق في سلوك مثيل Discourse المستضاف لدينا على https://community.crate.io/ فيما يتعلق بملف تعريف robots.txt الخاص به [1]، اكتشفنا أن Googlebot قد لا يحترم الإعدادات كما هو مقصود.

تقييم

دعنا نمارسها نيابة عن robots.txt على Meta [2]، مع عنوان URL لملفي الشخصي https://meta.discourse.org/u/amotl/.

يمكن ملاحظة الفرق بسرعة من خلال مقارنة النتائج من هذا المدقق المجاني لـ robots.txt:


التقييم باستخدام Googlebot


التقييم باستخدام MSNBot

بحث

في هذا الموضوع بالذات، نعتقد أننا وجدنا الإجابة بالفعل:

أفكار

لذلك، نميل إلى الاعتقاد بأن Googlebot قد يتجاهل حاليًا القواعد المحددة ضمن قسم User-agent: * [3] تمامًا ويكرم فقط القواعد الموجودة ضمن قسم User-agent: Googlebot [4].


  1. https://community.crate.io/robots.txt ↩︎

  2. https://meta.discourse.org/robots.txt ↩︎

  3. robots.txt، قسم User-agent: *

    User-agent: *
    Disallow: /admin/
    Disallow: /auth/
    Disallow: /assets/browser-update*.js
    Disallow: /email/
    Disallow: /session
    Disallow: /user-api-key
    Disallow: /*?api_key*
    Disallow: /*?*api_key*
    Disallow: /badges
    Disallow: /u
    Disallow: /my
    Disallow: /search
    Disallow: /tag
    Disallow: /g
    Disallow: /t/*/*.rss
    Disallow: /c/*.rss
    
    ↩︎
  4. robots.txt، قسم User-agent: Googlebot

    User-agent: Googlebot
    Disallow: /auth/
    Disallow: /assets/browser-update*.js
    Disallow: /email/
    Disallow: /session
    Disallow: /*?api_key*
    Disallow: /*?*api_key*
    
    ↩︎
4 إعجابات

إذا فهمت بشكل صحيح، فالإجابة ليست بهذه السهولة. إذا أرسل مستخدم واحد رابطًا باستخدام Gmail، فإن googlebot لا يحترم ملف robots.txt. نفس الشيء إذا تمت مشاركة رابط في مكان ما (روابط خلفية) حيث يبدو لـ googlebot كرابط عادي يومي.

مرة أخرى - ملف robots.txt هو مجرد طلب.

هناك طريقة أخرى ولكنها أكثر… العديد من الروبوتات تعرف عن نفسها باسم googlebot ولا يمكن العثور على الحقيقة إلا عبر عنوان IP.

3 إعجابات

هذا صحيح وتم تنفيذه عن قصد بهذه الطريقة.

لذلك يتلقى Googlebot ترويسة http إضافية X-Robots-Tag: noindex للصفحات التي لا ينبغي فهرستها حقًا. انظر:


لنطاقاتك الخاصة، يمكنك استخدام Google Search Console → Inspect URL

ثم حاول إضافة عنوان URL لملف تعريف المستخدم للفهرسة - على سبيل المثال https://www.example.com/u/jacob

4 إعجابات

عزيزي آيك،

تم التأكيد.

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

شكراً جزيلاً لك على ردك السريع وشرحك وعلى الإشارة إلى التصحيح المقابل.

مع خالص التقدير،
أندرياس.

إعجابَين (2)

لقد نقلت هذا إلى #support، شكرًا لك على تقرير الخطأ المكتوب بشكل رائع هنا.

لقد استغرق الأمر منا الكثير من الوقت لضبط قواعدنا بدقة لإرضاء جوجل، ودعم علامة x-robots-tag noindex بشكل غير متساوٍ ولكنه معيار صناعي. كانت المشكلة مع حظر الزحف ببساطة هي أنه لسبب ما، تحت ظروف معينة، يمكن أن تجد الصفحات نفسها في فهرس جوجل وبعد ذلك لم تكن هناك طريقة سهلة لإزالتها لأن الزحف كان محظورًا، وهي مشكلة تشبه الدجاجة والبيضة.

4 إعجابات

عزيزي سام،

شكراً جزيلاً لك على مشاركة المزيد من التفاصيل حول هذا الأمر. كما هو الحال دائماً، أنا منبهر بمستوى الروعة الذي تبذله في كل تفصيل من تفاصيل Discourse.

يجب أن أعترف بأنني لم أكن على علم بهذا حتى الآن. لذا، شكراً مرة أخرى!

image

عظيم. شكراً. إذا أصبح هذا معياراً مقبولاً على نطاق واسع الآن، فهل سيكون هناك أمل في أن تبدأ بعض أدوات التحقق المجانية من robots.txt في احترام ذلك في المستقبل؟

هل أنت على علم بأي أدوات تنفذ بالفعل فحوصات إضافية للرؤوس المقابلة بالإضافة إلى قراءة robots.txt اليوم، مثل ميزة Inspect URL في Google Search Console؟ قد يساعد ذلك الناس على تجنب نفس الارتباك الذي واجهناه.

مع خالص التقدير،
أندرياس.

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.