محركات البحث ممنوعة الآن من فهرسة الصفحات غير القياسية

rrit · 4 مارس 2022، 5:02م

مزيد من المعلومات حول noindex من مستندات Google:

انظر Crawl Budget Management For Large Sites | Google Search Central | Documentation | Google for Developers

توحيد المحتوى المكرر. قم بإزالة المحتوى المكرر للتركيز على الزحف على المحتوى الفريد بدلاً من عناوين URL الفريدة.

منع الزحف إلى عناوين URL التي لا تريد فهرستها. قد تكون بعض الصفحات مهمة للمستخدمين، ولكنك لا تريد ظهورها في نتائج البحث. على سبيل المثال، الصفحات ذات التمرير اللانهائي التي تكرر المعلومات في الصفحات المرتبطة، أو إصدارات مختلفة من نفس الصفحة بترتيب مختلف. إذا لم تتمكن من توحيدها كما هو موضح في النقطة الأولى، فقم بحظر هذه الصفحات غير المهمة (للبحث) باستخدام robots.txt أو أداة معلمات عناوين URL (للمحتوى المكرر الذي يتم الوصول إليه عبر معلمات عناوين URL).

لا تستخدم noindex ، حيث سيظل Google يطلب الصفحة، ثم يسقطها عندما يرى علامة noindex، مما يهدر وقت الزحف. لا تستخدم robots.txt لإعادة تخصيص ميزانية الزحف مؤقتًا للصفحات الأخرى؛ استخدم robots.txt لحظر الصفحات أو الموارد التي لا تريد أن يقوم Google بالزحف إليها على الإطلاق. لن يقوم Google بتحويل ميزانية الزحف المتاحة حديثًا هذه إلى صفحات أخرى ما لم يصل Google بالفعل إلى حد تقديم موقعك.

انظر How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers

j127 · 8 مارس 2022، 7:06م

يبدو أن هذا الأمر لا يعمل. لقد قمت بتحديث موقع Discourse أصغر اليوم لاختباره، وقمت بتشغيل الأمر، وما زلت أرى رؤوس noindex.

تعديل: لست متأكدًا من كيفية عمل هذا الإعداد، ولكني لا أراه في SiteSettings، على الأقل من الواجهة الأمامية (كمسؤول) في وحدة تحكم المتصفح:

var d = Discourse.SiteSettings;
document.body.innerHTML = `<pre>${JSON.stringify(d, null, 4)}</pre>`;

يبدو أن هذا الإعداد مخصص لـ robots.txt، وليس لـ noindex. ألن يكون هذا بالفعل true في معظم مواقع Discourse؟

Falco · 8 مارس 2022، 7:27م

أوه، آسف، الصحيح هو SiteSetting.allow_indexing_non_canonical_urls. لقد قمت بتصحيحه في المنشور الأصلي.

sam · 15 مارس 2022، 10:33م

واصلنا تحليل المشكلات بعد هذا التغيير وقررنا التراجع عنه وفقًا لـ:

github.com/discourse/discourse

FEATURE: enable canonical url indexing

main ← enable_indexing_canonical

opened 10:30PM - 15 Mar 22 UTC

SamSaffron

+1 -1

We rolled out a change to disable canonical indexing. The goal behind it was to… limit crawl budget by Google being spent scanning non canonical topic links. Since this change was applied we rolled out 2 fixes that made the change no longer needed. 1. Topic RSS feeds are no longer followed, links in the RSS feeds are not followed. 2. Post RSS feeds now contain canonical links. Combined these two changes mean crawlers no longer discover a large amount on non-canonical links on Discourse sites.

كان الهدف من ذلك هو الحد من ميزانية الزحف التي تنفقها Google على مسح الروابط غير القياسية للمواضيع.

منذ تطبيق هذا التغيير، قمنا بطرح إصلاحين جعلا التغيير غير ضروري.

لم تعد خلاصات RSS للمواضيع تُتبع، ولا تُتبع الروابط في خلاصات RSS. مثال: https://meta.discourse.org/t/search-engines-now-blocked-from-indexing-non-canonical-pages/218985.rss
تحتوي خلاصات RSS للمشاركات الآن على روابط قياسية. مثال: https://meta.discourse.org/posts.rss

هذان التغييران مجتمعان يعنيان أن الزواحف لم تعد تكتشف قدرًا كبيرًا من الروابط غير القياسية على مواقع Discourse.

هذا يحرر ميزانية البحث ويجعل إعداد الموقع غير مطلوب. لا يزال بإمكان مشغلي الموقع التجربة بحرية، ومع ذلك فهو معطل افتراضيًا.

الموضوع		الردود	مرات العرض
Removing the /2, /3, /4, etc links for each reply within a topic URL Development seo	33	4457	13 أكتوبر 2024
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5790	1 يونيو 2024
Adding Canonical Redirects for SEO Optimization Support	23	7510	1 أكتوبر 2015
Sitelinks in Google disappearing Community Building	26	1609	27 يناير 2023
Google Search Indexing and Discourse Data & reporting	9	3877	9 يونيو 2020

محركات البحث ممنوعة الآن من فهرسة الصفحات غير القياسية

الموضوعات ذات الصلة