محركات البحث ممنوعة الآن من فهرسة الصفحات غير القياسية

\u003e :warning: هام
\u003e
\u003e بعد مزيد من التحقيق، قررنا ترك الفهرسة غير القياسية ممكّنة، انظر المزيد من التفاصيل على: Search engines now blocked from indexing non-canonical pages - #30 by sam

الإعلان الأصلي

سيقوم Discourse الآن بالرد برأس X-Robots-Tag: noindex عندما لا تكون الصفحة المطلوبة هي الصفحة القياسية لمورد ما.

بينما يستخدم Discourse تصميمًا تلقائيًا للتمرير لكل من قوائم المواضيع والمواضيع، فإن هذا ليس ما نعرضه لزواحف محركات البحث، مثل GoogleBot. ترى محركات البحث مواضيع مرقمة الصفحات، مع 20 مشاركة في كل صفحة. ومع ذلك، نظرًا لأنه يمكن للمستخدمين الارتباط بمشاركات محددة في مشاركاتهم الخاصة وسيفعلون ذلك باستخدام تنسيق عنوان URL /t/title/topic_id/post_id، فسيتم التقاط هذه بواسطة الزواحف وإضافة محتوى مكرر إلى نتائج البحث الخاصة بموقعك وإهدار ميزانية الزحف الثمينة والمحدودة التي يمتلكها نطاقك.

لتخفيف هذه المشكلة، اقترح مجتمع المستخدمين لدينا إضافة X-Robots-Tag: noindex إلى عناوين URL مثل عناوين URL الخاصة بالمشاركات، والتي تمكنا من توسيعها إلى جميع عناوين URL غير القياسية في Discourse. تم إصدار هذا كإعداد موقع مخفي وتعطيله افتراضيًا قبل 3 أشهر، وخلالها قمنا بتجربة تمكين هذا الرأس في مواقع المجتمع وكذلك في meta.discourse.org.

نظرًا لأن نتائج هذه الفترة تبدو جيدة حتى الآن، فقد قمنا للتو بتبديل هذا الإعداد ليصبح ساري المفعول افتراضيًا.

إذا كنت لسبب ما لا ترغب في هذا السلوك في نسختك، فلا يزال بإمكانك تمكين فهرسة الصفحات غير القياسية عن طريق تشغيل docker exec -i app rails runner \"SiteSetting.allow_indexing_non_canonical_urls = true\" على الخادم الخاص بك.

لا تتوقع أي تغييرات جذرية على الزحف ونتائج البحث بين عشية وضحاها، ولكن على مدار الأشهر القليلة القادمة يجب أن ترى انخفاضًا في الزحف ونتائج البحث في الصفحات الخاصة بالمشاركات، مما سيؤدي إلى قضاء المزيد من وقت الزحف على المواضيع الجديدة لموقعك وعلى المحتوى الذي لم تتم فهرسته بعد بسبب قيود ميزانية الزحف على نطاقك.

32 إعجابًا

TL؛DR: لا تقم بحظر الصفحات غير القياسية - فقط قم بتوجيهها إلى عنوان URL صحيح عبر \u003clink rel=\"canonical\" … \u003e - هذا هو الغرض منها.

قد تضر هذه الميزة ببناء الروابط لتحسين محركات البحث على المدى الطويل:
جميع الروابط العميقة للإجابات داخل المواضيع موجودة الآن على صفحات noindex! هل يحب جوجل هذا؟

في الواقع، علامة canonical التي تشير دائمًا إلى عنوان URL للموضوع - حتى بالنسبة للصفحات التي تربط بعمق بإجابة - يجب أن تؤدي المهمة بشكل مثالي - دون إضافة X-Robots-Tag: noindex:
عند الزحف الأول لصفحة إجابة ذات رابط عميق، يدرك جوجل أن عنوان URL للصفحة (الإجابة داخل الموضوع) لا يتناسب مع عنوان URL القياسي ويقرر بعد ذلك الزحف إلى عنوان URL القياسي (الموضوع) فقط.


هل يمكننا إضافة \u003ca rel=\"nofollow\" …\u003e إلى جميع الروابط التي تقوم بهذا الربط العميق بين الموضوع والإجابة؟ تعديل: لا، انظر Search engines now blocked from indexing non-canonical pages - #9 by j127
وبذلك، قد نوفر المزيد من ميزانية الزحف الثمينة والمحدودة لمحركات البحث:
لن يقوم محرك البحث باستخراج الرابط في المقام الأول ولن يقوم بإجراء استدعاء إلى عنوان URL. نظرًا لأن استدعاء عنوان URL يؤدي إلى استجابة مع ترويسة HTTP X-Robots-Tag: noindex مما يتسبب في “تجاهل” الاستجابة عن طريق إضافة عنوان URL إلى قائمة “noindex” الداخلية لمحركات البحث.

بعض المدخرات الإضافية في ميزانية الزحف مع إضافة nofollow إلى عناوين URL لـ RSS:

5 إعجابات

أتفق تمامًا مع اقتراحات @rrit.

سيكون من الأفضل توجيه الصفحات الفرعية/المشاركات داخل الموضوع إلى صفحتها الأصلية الأساسية بدلاً من حظرها.

بدلاً من إضافة noindex، هل يمكننا إضافة علامة nofollow لكل رد تحت الموضوع.

إعجاب واحد (1)

هذا بالضبط كيف يعمل بالفعل، لذلك لست متأكدًا مما إذا كنت أفهم.

إذن أنت تقترح أننا بحاجة إلى تحديث عنوان URL هنا

لاستخدام عنوان URL أساسي مع رقم الصفحة ومرساة المشاركة؟

تم حظر هذه بالفعل عبر robots.txt، ولكن هذه فكرة جيدة!

يبدو أنها فكرة جيدة أيضًا!

4 إعجابات

أنت على حق، اعتذاري. أضيع في أفكاري الخاصة أحيانًا. :slight_smile:

سؤال سريع، أفترض أن هذه الميزة متاحة بالفعل افتراضيًا طالما قمنا بتحديث Discourse إلى الإصدار 2.9؟

4 إعجابات

أعتقد أنه لا ينبغي تفعيل الميزة افتراضيًا. إنها خطيرة من وجهة نظر حركة المرور، حتى لو كانت تعمل لفترة قصيرة فقط، لذلك قد يتلقى أي شخص يقوم بالتحديث الآن مفاجأة غير مرحب بها.

علامة canonical هي الطريقة التي توصي بها جوجل للتعامل مع هذه المشكلة، ويبدو أنها تعمل بالفعل. القيام بأشياء غريبة مع علامات canonical يمكن أن يؤدي إلى مشاكل غريبة مع جوجل، وقد يكون خطأ noindex صعب التعافي منه.

إعجابَين (2)

أتفق مع الجزء الأول من مشاركتك، لكنني لا أعتقد أن nofollow الداخلي مثالي. تساعد الروابط الداخلية في إخبار محركات البحث عن الصفحات المهمة في الموقع. لن يقوم Google باتباع كل رابط يراه، لأنه يعرف أنه رآه من قبل. إذا رأوا عنوان URL مثل example.com/t/1234/5 ولكنهم قاموا بالفعل بالزحف إليه ويعرفون أن عنوان URL الأساسي الخاص به هو example.com/t/1234، فمن المحتمل ألا يهدروا موارد الحوسبة الخاصة بهم لزيارة الإصدار غير الأساسي عدة مرات.

3 إعجابات

إزالة ‘noindex’ للروابط التي تشير إليها مواقع خارجية

عذرًا، بقصد “الإجابات” أعني “المشاركات” في موضوع:
جميع الروابط العميقة من نطاقات خارجية إلى المشاركات (مثل forum.example.com/t/example-topic/5/11) لديها الآن ترويسة http X-Robots-Tag: noindex! أقترح إزالة ترويسة http هذه مرة أخرى.

أقترح لـ <link rel="canonical" … > عدم استخدام رابط يحتوي على مرساة مشاركة (الرقم الأخير في …/t/example-topic/1234/5) في أي مكان. يجب أن تشير الروابط الأساسية دائمًا إلى رابط الموضوع نفسه (…/t/example-topic/1234). أعتقد أنه تم تنفيذه بالفعل بهذه الطريقة.


إعادة كتابة الروابط لمحركات البحث إذا تم “إعادة توجيه” الرابط الهدف بواسطة <link rel="canonical" … >

نقطة جيدة جدًا، من الأفضل عدم إضافة rel="nofollow" هنا.

يحتوي Discourse على عرض خاص للزواحف. اقتراح جديد لعرض الزواحف فقط:
قم بتحويل جميع الروابط الداخلية التي تشير إلى رابط مشاركة (example.com/t/1234/5) للإشارة إلى رابط الموضوع المقابل (example.com/t/1234) بدلاً من ذلك.
النية: عدم الإعلان عن عناوين URL إضافية لمحركات البحث عندما يتم “إعادة توجيه” عناوين URL الإضافية هذه بواسطة <link rel="canonical" … > على أي حال.

الأماكن التي توجد فيها مثل هذه الروابط إلى المشاركات:

  • روابط مضافة يدويًا في محتوى المستخدم
  • روابط تم إنشاؤها تلقائيًا في
  • الاقتباسات
  • المشاركة الأولى للموضوع: “روابط التتبع الواردة” من مواضيع أخرى
  • المشاركة الأولى للموضوع: “الإجابة المختارة”
  • المشاركة الأولى للموضوع - خريطة الموضوع مفتوحة: “روابط الموضوع” / “الروابط المفضلة”

استطراد: من أين تجد جوجل كل هذه الروابط؟


“روابط التتبع الواردة” لمحركات البحث

لهذا السبب بالضبط، يجب أن تكون “روابط التتبع الواردة تلقائيًا من مواضيع أخرى” في المشاركة الأولى للموضوع مرئية أيضًا لمحركات البحث.
حالياً هذه “الروابط الواردة” مفقودة في عرض الزواحف. تعديل: إنها موجودة بالفعل في عرض الزواحف.

ولكنها تشير إلى رابط المشاركة بدلاً من رابط الموضوع (انظر مصدر html)
<div class="crawler-linkback-list" itemscope="" itemtype="http://schema.org/ItemList">
      <div itemprop="itemListElement" itemscope="" itemtype="http://schema.org/ListItem">
        <a href="https://meta.discourse.org/t/removing-the-2-3-4-etc-links-for-each-reply-within-a-topic-url/209648/26" itemscope="" itemtype="http://schema.org/DiscussionForumPosting" itemprop="item">
          <meta itemprop="url" content="https://meta.discourse.org/t/removing-the-2-3-4-etc-links-for-each-reply-within-a-topic-url/209648/26">
          <span itemprop="name">إزالة الروابط /2، /3، /4، إلخ لكل رد داخل رابط الموضوع</span>
        </a>
        <meta itemprop="position" content="2">
      </div>
</div>
3 إعجابات

هذه نقطة حاسمة. من ناحية، يمكنك فهرسة جميع صفحاتك، ومن ناحية أخرى، الحصول على ترتيب ذي صلة بها. بناءً على خبرتي (مع مواقع الناشرين الكبيرة)، فإن الربط الداخلي الذكي هو المفتاح لتحقيق ذلك.

إعجاب واحد (1)

لقد قمت بالتحديث هذا الصباح، هل توصي بتمكين فهرسة الصفحات غير القياسية بهذا؟

لا أرغب في جعل الفهرسة الخاصة بي أسوأ.

إعجاب واحد (1)

لأي شخص يقوم بتحديث موقعه منذ تاريخ نشر الموضوع.

لدينا بيانات تُظهر أن الرأس الجديد يقلل من وقت الزحف في تلك الصفحات، وكانت دائمًا تحتوي على الإعداد القياسي.

لكن تلك الصفحات ليست مخصصة للزحف على أي حال. يتم تعيين البيانات الوصفية بعنوان URL على مستوى الموضوع، ولا نريد أن يقوم Google بالزحف إلى مستوى المشاركة لأنه محتوى مكرر.

رائع، لذا لا يلزم تغيير أي شيء هنا.

قد يكون القيام بذلك في وقت التشغيل مكلفًا جدًا لوحدة المعالجة المركزية، وحفظ نسختين من كل مشاركة سيكون مكلفًا للتخزين.

افتراضياتنا هي دائمًا ما نوصي به. ومع ذلك، فإننا نحافظ على إعدادات الموقع ونعلن عنها حتى يتمكن الأشخاص من اختيار خلاف ذلك إذا شعروا أن الافتراضي ليس مثاليًا لموقعهم.

5 إعجابات

ممتاز، إذن سأتركها كما أوصيت.
شكرًا لك

إعجابَين (2)

آخر شيء ولن أزعجك بعد ذلك :sweat_smile:

إذن، هل يمكن أن تكون هناك مشاكل مع sitemap_recent.xml الذي يحتوي على مثل هذه الروابط؟
https://meta.discourse.org/t/category-moderator-improvements/158628?page=2

إعجاب واحد (1)

هذا المثال عبارة عن صفحة قياسية، لذا فإنه لا يتأثر بأي شكل من الأشكال بالتغييرات الموضحة في المنشور الأصلي.

إعجابَين (2)

أرى فرقًا كبيرًا عندما يكون هناك رابط خارجي إلى عنوان URL للمشاركة.

# أ:
نطاق خارجي
|
|--(عصير الرابط)---> عنوان URL للمشاركة
                   |
                   |__/ الزحف:      \---> عنوان URL للمشاركة غير مفهرس
                      \ رأس noindex /     وعصير الرابط معظمها ضائع

# ب:
نطاق خارجي
|
|--(عصير الرابط)---> عنوان URL للمشاركة
                   |
                   |__/ الزحف:        \__|---> عنوان URL للمشاركة غير مفهرس
                      \ إجابة canonical /  |---> عنوان URL للموضوع مفهرس (على أي حال)
                                                 مع نقل عصير الرابط

يجب أن نثير هذا الأمر في

إعجاب واحد (1)

بالنسبة للمبتدئين مثلي فيما يتعلق بتحسين محركات البحث (SEO)، هل هذا يعني أنه تحسين لتحسين محركات البحث يمكن أن يؤدي إلى زيادة/فائدة طفيفة في نتائج بحث Google؟

3 إعجابات

نعم، هذا هو الهدف!

لقد اختبرنا التغيير في مجتمع أخبار تقنية على مدار بضعة أشهر، وشهدنا زيادة كبيرة في عدد المشاهدات المجهولة للصفحات. هدفنا النهائي هو دائمًا جعل جميع مجتمعات Discourse أكثر صحة على جميع الجبهات.

6 إعجابات

هل هذا التأثير مرئي في تقرير "الإعدادات" -\u003e "الزحف" -\u003e "إحصائيات الزحف" في "وحدة تحكم بحث Google"؟

إعجاب واحد (1)

مع الأخذ في الاعتبار …

A. تقليل الزحف

B. لا يوجد نسختان من المحتوى

C. استخدام علامة canonical

D. لا يوجد nofollow

E. لا يوجد noindex

… ووجود روابط داخلية في …

… أقترح التنفيذ التالي للحصول على أفضل حل وسط:

  1. لا تقم بإضافة رأس http X-Robots-Tag: noindex.
    – مع الأخذ في الاعتبار [E] –
  2. احتفظ بعلامات canonical تشير دائمًا إلى عنوان URL للموضوع.
    – تقليل الزحف [A] مع مراعاة [C] –
  3. لعرض الزاحف فقط: قم بتحويل الروابط التي تم إنشاؤها تلقائيًا لترتبط دائمًا بعنوان URL للموضوع بدلاً من عنوان URL للمنشور - لجميع الروابط في المنشور الأول للموضوع “روابط تتبع الوارد من مواضيع أخرى” و “خريطة الموضوع مفتوحة: رابط الموضوع / الروابط المفضلة”.
    – تقليل الزحف [A] مع مراعاة [D]، ولكن مع تجاهل متعمد لـ [B] –
    بخصوص [B]: نفقات وحدة المعالجة المركزية مخصصة لزيارات الزاحف فقط وتتكون من إجراء استبدال تعبير عادي لقطع الرقم الأخير من عناوين URL الداخلية التي تنتهي برقمين، على سبيل المثال …/t/example-topic/1234/5…/t/example-topic/1234 في الحدود المحصورة للمنشور الأول للموضوع “روابط تتبع الوارد من مواضيع أخرى” و “خريطة الموضوع مفتوحة” فقط.
  4. لجميع طرق العرض: أضف nofollow داخليًا إلى الاقتباسات والروابط المضافة يدويًا في محتوى المستخدم.
    – تقليل الزحف [A] مع مراعاة [B]، ولكن مع تجاهل طفيف لـ [D] –
    بخصوص [D]: يتم بالفعل تكرار الروابط المهمة تلقائيًا إلى الموضوع الأول في قسم “خريطة الموضوع مفتوحة: رابط الموضوع / الروابط المفضلة” [انظر 3.] ومعظم الاقتباسات تبقى داخل الموضوع نفسه على أي حال.

بعض الأفكار حول الروابط الداخلية

تقول جوجل How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

وتقول جوجل SEO Link Best Practices for Google | Google Search Central  |  Documentation  |  Google for Developers

لذلك قد يقوم Discourse بتعيين الروابط الداخلية على هذا النحو:

<a>…</a>

بالنسبة لجوجل، يذهب الرابط مباشرة إلى عنوان URL الموحد للموضوع …/1234 - ولا تعرف جوجل بعنوان URL للمنشور …/1234/5 من صيغة الرابط هذه.

بالنسبة لتنقل المستخدم، ستقوم بعض جافا سكريبت إضافية في تطبيق Ember بالعمل:
على سبيل المثال، استبدل href بـ routerLink.

إعجابَين (2)

تبدو تحسينًا رائعًا! شكرًا لكم على تحقيق ذلك يا @Falco وفريق Discourse!

3 إعجابات