ما يراه Googlebot عند زحف Discourse

باختصار، من الممكن للبشر تكرار زحف Googlebot إلى Discourse. إليك كيفية البدء…

كن واحدًا مع Googlebot

  1. افتح نافذة متصفح متخفٍ (ابدأ دائمًا من جديد)
  2. افتح DevTools
  3. افتح Network Conditions في DevTools
  4. ألغِ تحديد “استخدام إعدادات المتصفح الافتراضية”
  5. في قائمة التحديد، اختر Googlebot Smartphone
  6. ثم انتقل إلى https://meta.discourse.org (يبدو مختلفًا تمامًا؛ لا تقلق لأن Googlebot الخاص بك والروبوتات لا تهتم)
  7. انتقل إلى View > Developer > View Source
  8. انسخها والصقها في ملف .html

عمل جيد! لقد أنشأت الملف الذي يشير إليه البشر لرؤية ما قام Googlebot بـ زحفه و تخزينه مؤقتًا.
انتهت مهمة Googlebot. حان الوقت الآن لعرض الملف المخزن مؤقتًا في المتصفح.

كن واحدًا مع Chrome

  1. افتح الطرفية وشغّل npx http-server
  2. انتقل إلى الملف
  3. افتح Chrome DevTools
  4. في لوحة Elements، انقر بزر الماوس الأيمن على <html>... وحدد Copy outerHTML.
  5. هذا هو المحتوى الذي سيتم فهرسته، وليس تخزينه مؤقتًا، بل فهرسته.

باختصار، يسترد Googlebot ملف HTML ويعرضه Chrome. ملف HTML المعروض هو الذهب. تأكد من ظهور المحتوى والروابط القيمة الخاصة بك هناك.

إعجابَين (2)

ما الغرض من الخطوات الموجودة تحت “كن واحدًا مع كروم”؟

ألا يمكنك القيام بخطوة “نسخ outerHTML” بدلاً من الخطوة 7 في القائمة الأولى؟

أعتقد أنه يمكنك أيضًا جلبه باستخدام curl:

curl -s https://meta.discourse.org/ > page.html

(سيحتوي على فئات \"crawler\".)

ثم افتح ملف page.html في المتصفح.

أو لفحص الكود في محرر:

curl -s https://meta.discourse.org/ | vim -
إعجابَين (2)

يتم عرض HTML المخزن مؤقتًا في Chrome (بدون واجهة رسومية). عند العرض، قد يتم إدخال نصوص وروابط إضافية عبر JavaScript، في نموذج الكائن للمستند (DOM). ستأخذ Google المعلومات التي تعرضها في الاعتبار للفهرسة.

هذه هي الطريقة التي يحصل بها Googlebot على المحتوى من التطبيقات التي تعتمد بشكل كبير على JavaScript. انتقل إلى Google وابحث عن شيء تعرف أنه يعرض المحتوى باستخدام JavaScript فقط > انقر فوق الأيقونة المكونة من 3 نقاط > انقر فوق الزر المخزن مؤقتًا > انقر فوق عرض المصدر > انسخه وقم بعرضه في Chrome لمعرفة المحتوى الذي يظهر في نموذج الكائن للمستند (DOM).

ملاحظة: قم بتحديث أي مسارات نسبية (موارد CSS و JS) إلى مسارات مطلقة قبل عرضها في Chrome ^^

يجعل استخدام curl الأمر أسهل، رائع!

تأكد من تضمين سلسلة وكيل مستخدم Googlebot، على سبيل المثال، Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). قد يرسل الخادم لـ Googlebot ترميز HTML مختلفًا.

أعتقد أن هذا هو نفس الإخراج، لكن لا يضر إضافة وكيل المستخدم. لست متأكدًا من Chrome، ولكن في Firefox يمكنك النقر بزر الماوس الأيمن على الطلب في علامة التبويب “الشبكة” واختيار “نسخ كـ curl” للحصول على مجموعة كاملة من الرؤوس التي ستحاكي طلب المتصفح.