أولاً وقبل كل شيء: نود أن نحييكم على الروح والمثابرة في ابتكار وصيانة Discourse. إنه لمن دواعي سرورنا دائمًا استخدامه لنا ولأعضاء مجتمعنا.
لقد لخصنا بعض الملاحظات الطفيفة التي تم إجراؤها اليوم ونأمل أن تجدوها مفيدة. من ناحية أخرى، سنكون سعداء أيضًا بسماع أي سوء فهم من جانبنا.
مع خالص التقدير،
أندرياس.
مقدمة
أثناء التحقيق في سلوك مثيل Discourse المستضاف لدينا على https://community.crate.io/ فيما يتعلق بملف تعريف robots.txt الخاص به [1]، اكتشفنا أن Googlebot قد لا يحترم الإعدادات كما هو مقصود.
تقييم
دعنا نمارسها نيابة عن robots.txt على Meta [2]، مع عنوان URL لملفي الشخصي https://meta.discourse.org/u/amotl/.
يمكن ملاحظة الفرق بسرعة من خلال مقارنة النتائج من هذا المدقق المجاني لـ robots.txt:
في هذا الموضوع بالذات، نعتقد أننا وجدنا الإجابة بالفعل:
أفكار
لذلك، نميل إلى الاعتقاد بأن Googlebot قد يتجاهل حاليًا القواعد المحددة ضمن قسم User-agent: *[3] تمامًا ويكرم فقط القواعد الموجودة ضمن قسم User-agent: Googlebot[4].
إذا فهمت بشكل صحيح، فالإجابة ليست بهذه السهولة. إذا أرسل مستخدم واحد رابطًا باستخدام Gmail، فإن googlebot لا يحترم ملف robots.txt. نفس الشيء إذا تمت مشاركة رابط في مكان ما (روابط خلفية) حيث يبدو لـ googlebot كرابط عادي يومي.
مرة أخرى - ملف robots.txt هو مجرد طلب.
هناك طريقة أخرى ولكنها أكثر… العديد من الروبوتات تعرف عن نفسها باسم googlebot ولا يمكن العثور على الحقيقة إلا عبر عنوان IP.
لقد نقلت هذا إلى #support، شكرًا لك على تقرير الخطأ المكتوب بشكل رائع هنا.
لقد استغرق الأمر منا الكثير من الوقت لضبط قواعدنا بدقة لإرضاء جوجل، ودعم علامة x-robots-tag noindex بشكل غير متساوٍ ولكنه معيار صناعي. كانت المشكلة مع حظر الزحف ببساطة هي أنه لسبب ما، تحت ظروف معينة، يمكن أن تجد الصفحات نفسها في فهرس جوجل وبعد ذلك لم تكن هناك طريقة سهلة لإزالتها لأن الزحف كان محظورًا، وهي مشكلة تشبه الدجاجة والبيضة.
شكراً جزيلاً لك على مشاركة المزيد من التفاصيل حول هذا الأمر. كما هو الحال دائماً، أنا منبهر بمستوى الروعة الذي تبذله في كل تفصيل من تفاصيل Discourse.
يجب أن أعترف بأنني لم أكن على علم بهذا حتى الآن. لذا، شكراً مرة أخرى!
عظيم. شكراً. إذا أصبح هذا معياراً مقبولاً على نطاق واسع الآن، فهل سيكون هناك أمل في أن تبدأ بعض أدوات التحقق المجانية من robots.txt في احترام ذلك في المستقبل؟
هل أنت على علم بأي أدوات تنفذ بالفعل فحوصات إضافية للرؤوس المقابلة بالإضافة إلى قراءة robots.txtاليوم، مثل ميزة Inspect URL في Google Search Console؟ قد يساعد ذلك الناس على تجنب نفس الارتباك الذي واجهناه.