ما يراه Googlebot عند زحف Discourse

networkaaron · 20 ديسمبر 2021، 8:05م

باختصار، من الممكن للبشر تكرار زحف Googlebot إلى Discourse. إليك كيفية البدء…

كن واحدًا مع Googlebot

افتح نافذة متصفح متخفٍ (ابدأ دائمًا من جديد)
افتح DevTools
افتح Network Conditions في DevTools
ألغِ تحديد “استخدام إعدادات المتصفح الافتراضية”
في قائمة التحديد، اختر Googlebot Smartphone
ثم انتقل إلى https://meta.discourse.org (يبدو مختلفًا تمامًا؛ لا تقلق لأن Googlebot الخاص بك والروبوتات لا تهتم)
انتقل إلى View > Developer > View Source
انسخها والصقها في ملف .html

عمل جيد! لقد أنشأت الملف الذي يشير إليه البشر لرؤية ما قام Googlebot بـ زحفه و تخزينه مؤقتًا.
انتهت مهمة Googlebot. حان الوقت الآن لعرض الملف المخزن مؤقتًا في المتصفح.

كن واحدًا مع Chrome

افتح الطرفية وشغّل npx http-server
انتقل إلى الملف
افتح Chrome DevTools
في لوحة Elements، انقر بزر الماوس الأيمن على <html>... وحدد Copy outerHTML.
هذا هو المحتوى الذي سيتم فهرسته، وليس تخزينه مؤقتًا، بل فهرسته.

باختصار، يسترد Googlebot ملف HTML ويعرضه Chrome. ملف HTML المعروض هو الذهب. تأكد من ظهور المحتوى والروابط القيمة الخاصة بك هناك.

david · 20 ديسمبر 2021، 8:35م

ما الغرض من الخطوات الموجودة تحت “كن واحدًا مع كروم”؟

ألا يمكنك القيام بخطوة “نسخ outerHTML” بدلاً من الخطوة 7 في القائمة الأولى؟

j127 · 22 ديسمبر 2021، 1:50ص

أعتقد أنه يمكنك أيضًا جلبه باستخدام curl:

curl -s https://meta.discourse.org/ > page.html

(سيحتوي على فئات \"crawler\".)

ثم افتح ملف page.html في المتصفح.

أو لفحص الكود في محرر:

curl -s https://meta.discourse.org/ | vim -

networkaaron · 13 يناير 2022، 2:22م

يتم عرض HTML المخزن مؤقتًا في Chrome (بدون واجهة رسومية). عند العرض، قد يتم إدخال نصوص وروابط إضافية عبر JavaScript، في نموذج الكائن للمستند (DOM). ستأخذ Google المعلومات التي تعرضها في الاعتبار للفهرسة.

هذه هي الطريقة التي يحصل بها Googlebot على المحتوى من التطبيقات التي تعتمد بشكل كبير على JavaScript. انتقل إلى Google وابحث عن شيء تعرف أنه يعرض المحتوى باستخدام JavaScript فقط > انقر فوق الأيقونة المكونة من 3 نقاط > انقر فوق الزر المخزن مؤقتًا > انقر فوق عرض المصدر > انسخه وقم بعرضه في Chrome لمعرفة المحتوى الذي يظهر في نموذج الكائن للمستند (DOM).

ملاحظة: قم بتحديث أي مسارات نسبية (موارد CSS و JS) إلى مسارات مطلقة قبل عرضها في Chrome ^^

networkaaron · 13 يناير 2022، 2:39م

يجعل استخدام curl الأمر أسهل، رائع!

تأكد من تضمين سلسلة وكيل مستخدم Googlebot، على سبيل المثال، Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). قد يرسل الخادم لـ Googlebot ترميز HTML مختلفًا.

j127 · 13 يناير 2022، 9:13م

أعتقد أن هذا هو نفس الإخراج، لكن لا يضر إضافة وكيل المستخدم. لست متأكدًا من Chrome، ولكن في Firefox يمكنك النقر بزر الماوس الأيمن على الطلب في علامة التبويب “الشبكة” واختيار “نسخ كـ curl” للحصول على مجموعة كاملة من الرؤوس التي ستحاكي طلب المتصفح.

الموضوع		الردود	مرات العرض
Googlebot is getting non-javascript version of the site Development	16	1655	9 مارس 2024
How public Discourse sites are indexed by search engines like Google Site Management reference	0	12858	6 فبراير 2013
Disable or bypass feature detect for Googlebot (while serving JS app to crawlers) Support unsupported-install	7	3435	14 يونيو 2022
Can we have a conversation about SEO? Development	2	864	4 أبريل 2022
No content on homepage for Googlebot Bug	6	1930	16 مارس 2016

ما يراه Googlebot عند زحف Discourse

الموضوعات ذات الصلة