القواعد العامة في "robots.txt" لا يتم التقاطها بواسطة Googlebot

amotl · 1 مارس 2022، 2:07م

عزيزي فريق Discourse،

أولاً وقبل كل شيء: نود أن نحييكم على الروح والمثابرة في ابتكار وصيانة Discourse. إنه لمن دواعي سرورنا دائمًا استخدامه لنا ولأعضاء مجتمعنا.

لقد لخصنا بعض الملاحظات الطفيفة التي تم إجراؤها اليوم ونأمل أن تجدوها مفيدة. من ناحية أخرى، سنكون سعداء أيضًا بسماع أي سوء فهم من جانبنا.

مع خالص التقدير،
أندرياس.

مقدمة

أثناء التحقيق في سلوك مثيل Discourse المستضاف لدينا على https://community.crate.io/ فيما يتعلق بملف تعريف robots.txt الخاص به ^[1]، اكتشفنا أن Googlebot قد لا يحترم الإعدادات كما هو مقصود.

تقييم

دعنا نمارسها نيابة عن robots.txt على Meta ^[2]، مع عنوان URL لملفي الشخصي https://meta.discourse.org/u/amotl/.

يمكن ملاحظة الفرق بسرعة من خلال مقارنة النتائج من هذا المدقق المجاني لـ robots.txt:

– التقييم باستخدام Googlebot

– التقييم باستخدام MSNBot

بحث

في هذا الموضوع بالذات، نعتقد أننا وجدنا الإجابة بالفعل:

أفكار

لذلك، نميل إلى الاعتقاد بأن Googlebot قد يتجاهل حاليًا القواعد المحددة ضمن قسم User-agent: * ^[3] تمامًا ويكرم فقط القواعد الموجودة ضمن قسم User-agent: Googlebot ^[4].

https://community.crate.io/robots.txt ↩︎
https://meta.discourse.org/robots.txt ↩︎

robots.txt، قسم User-agent: *

User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tag
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /c/*.rss

↩︎

robots.txt، قسم User-agent: Googlebot

User-agent: Googlebot
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /*?api_key*
Disallow: /*?*api_key*

↩︎

Jagster · 1 مارس 2022، 2:13م

إذا فهمت بشكل صحيح، فالإجابة ليست بهذه السهولة. إذا أرسل مستخدم واحد رابطًا باستخدام Gmail، فإن googlebot لا يحترم ملف robots.txt. نفس الشيء إذا تمت مشاركة رابط في مكان ما (روابط خلفية) حيث يبدو لـ googlebot كرابط عادي يومي.

مرة أخرى - ملف robots.txt هو مجرد طلب.

هناك طريقة أخرى ولكنها أكثر… العديد من الروبوتات تعرف عن نفسها باسم googlebot ولا يمكن العثور على الحقيقة إلا عبر عنوان IP.

rrit · 1 مارس 2022، 3:43م

هذا صحيح وتم تنفيذه عن قصد بهذه الطريقة.

لذلك يتلقى Googlebot ترويسة http إضافية X-Robots-Tag: noindex للصفحات التي لا ينبغي فهرستها حقًا. انظر:

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

committed 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

لنطاقاتك الخاصة، يمكنك استخدام Google Search Console → Inspect URL

ثم حاول إضافة عنوان URL لملف تعريف المستخدم للفهرسة - على سبيل المثال https://www.example.com/u/jacob

amotl · 1 مارس 2022، 3:50م

عزيزي آيك،

تم التأكيد.

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

شكراً جزيلاً لك على ردك السريع وشرحك وعلى الإشارة إلى التصحيح المقابل.

مع خالص التقدير،
أندرياس.

sam · 2 مارس 2022، 10:11م

لقد نقلت هذا إلى #support، شكرًا لك على تقرير الخطأ المكتوب بشكل رائع هنا.

لقد استغرق الأمر منا الكثير من الوقت لضبط قواعدنا بدقة لإرضاء جوجل، ودعم علامة x-robots-tag noindex بشكل غير متساوٍ ولكنه معيار صناعي. كانت المشكلة مع حظر الزحف ببساطة هي أنه لسبب ما، تحت ظروف معينة، يمكن أن تجد الصفحات نفسها في فهرس جوجل وبعد ذلك لم تكن هناك طريقة سهلة لإزالتها لأن الزحف كان محظورًا، وهي مشكلة تشبه الدجاجة والبيضة.

amotl · 3 مارس 2022، 8:45ص

عزيزي سام،

شكراً جزيلاً لك على مشاركة المزيد من التفاصيل حول هذا الأمر. كما هو الحال دائماً، أنا منبهر بمستوى الروعة الذي تبذله في كل تفصيل من تفاصيل Discourse.

يجب أن أعترف بأنني لم أكن على علم بهذا حتى الآن. لذا، شكراً مرة أخرى!

عظيم. شكراً. إذا أصبح هذا معياراً مقبولاً على نطاق واسع الآن، فهل سيكون هناك أمل في أن تبدأ بعض أدوات التحقق المجانية من robots.txt في احترام ذلك في المستقبل؟

هل أنت على علم بأي أدوات تنفذ بالفعل فحوصات إضافية للرؤوس المقابلة بالإضافة إلى قراءة robots.txt اليوم، مثل ميزة Inspect URL في Google Search Console؟ قد يساعد ذلك الناس على تجنب نفس الارتباك الذي واجهناه.

مع خالص التقدير،
أندرياس.

system · 2 أبريل 2022، 8:46ص

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

الموضوع		الردود	مرات العرض
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3277	30 يوليو 2019
Excluding user profiles in robots.txt (or allow edit of file) Feature	5	2501	24 مايو 2014
Google changed how they process robots.txt in Discourse? Support	20	1684	22 ديسمبر 2020
Malformed robots.txt causing issues with indexing Support	9	1848	21 أبريل 2023
Indexing User Profiles Support	2	65	4 سبتمبر 2025

القواعد العامة في "robots.txt" لا يتم التقاطها بواسطة Googlebot

مقدمة

تقييم

بحث

أفكار

الموضوعات ذات الصلة