لماذا يتم حظر semrushbot و ahrefsbot افتراضيًا؟

Jamie_Liu1 · 14 يوليو 2020، 8:57ص

كنت أتحقق من تقرير التغطية في Google Search Console ووجدت أن العديد من صفحات المنتدى لدينا محجوبة بواسطة ملف robots.txt. لذا قمت بالتحقق من ملف robots.txt، فوجدت أن عناكب semrushbot و ahrefsbot محجوبة افتراضيًا:

أعلم أن هاتين أداتين شائعتين الاستخدام في تحسين محركات البحث، فلماذا حجب عناكبهما؟

neounix · 14 يوليو 2020، 9:03ص

لأن هذه الروبوتات تُعدّ «مستهلكات مفرطة للموارد» وتوفر قيمة ضئيلة جدًا للمواقع مقارنة بالكم الهائل من الموارد التي تستهلكها.

بالطبع، يمكنك تخصيص ملف robots.txt في Discourse والسماح لها إذا رغبت؛ لكننا نحجب هذه الروبوتات على مواقعنا منذ فترة طويلة قبل إصدار Discourse، ولا نزال نحجبها.

ملاحظة (تم التعديل):

نسيت أن أذكر أن العديد من هذه «المستهلكات المفرطة للموارد» لا تحترم ملف robots.txt، ويجب حجبها على مستوى وكيل المستخدم (HTTP User Agent). نحن نحجب هذه «المستهلكات غير المحترمة للموارد» باستخدام mod_rewrite على مستوى وكيل العكس (reverse proxy)، بشكل عام (وهو أحد الأسباب العديدة الجيدة لتشغيل المواقع خلف وكيل عكسي، بالمناسبة).

Jamie_Liu1 · 14 يوليو 2020، 9:29ص

شكرًا جزيلاً لك على المعلومات!

لقد عثرت على مشكلة أخرى، وربما يمكنك مشاركة رؤيتك فيها أيضًا.

أعلم أن Discourse قد قامت بحظر صفحات المستخدمين افتراضيًا، لكن في تقرير التغطية الخاص بـ Google Search Console، لا تزال هناك بعض صفحات المستخدمين مفهرسة، وهي مشكلة في عيون Google لأن هذه الصفحات لا ينبغي فهرستها:

شكرًا لك!

osioke · 14 يوليو 2020، 12:35م

تم إصلاح هذا مؤخرًا عبر

هل يمكنك تحديث Discourse الخاص بك وإعادة التحقق؟

Jamie_Liu1 · 15 يوليو 2020، 2:14ص

@osioke شكرًا على ردك! أعتقد أن نسختنا المثبتة تتضمن هذه الميزة بالفعل؟ لأنني لاحظت أن الإصلاح قد تم الالتزام به في يناير.

هل يمكنك التحقق مما إذا كنت بحاجة إلى الترقية إلى أحدث إصدار للحصول على هذه الميزة؟

osioke · 15 يوليو 2020، 7:03ص

لا بأس بالتحديث من وجهة نظري، لكن نعم، يجب أن يكون هذا الإصلاح موجودًا في نسختك المثبتة. أنصحك بمحاولة التحديث وإعادة التحقق، ما لم يكن لديك سبب آخر لعدم الرغبة في التحديث.

codinghorror · 15 يوليو 2020، 9:41م

لأنهما سيئتان؟ فهما تُسببان عبئًا كبيرًا على الخادم دون فائدة واضحة، وعملاؤنا لديهم حدود لعدد مرات عرض الصفحة في خطتهم.

Jamie_Liu1 · 16 يوليو 2020، 2:13ص

يبدو الأمر جيدًا. نحن نقوم بالتحديث الآن. نأمل أن تسير الأمور بشكل جيد بعد التحديث. سأعود وأبقيكم على اطلاع. شكرًا!

trying2survive · 2 ديسمبر 2020، 3:30م

فقط للتوضيح، هل لا توجد طريقة لإلغاء حظر Semrushbot و SEO Spider؟ نحن بحاجة إليهما لأغراض التدقيق في تحسين محركات البحث (SEO). جربنا إزالة كليهما من /admin/customize/robots (كما جربنا Allow: )، لكننا نحصل على خطأ 429 في Screaming Frog. أو هل خطأ 429 هذا مشكلة منفصلة؟ نقدر جدًا رؤيتكم.

Johani · 2 ديسمبر 2020، 4:34م

أخطاء 429 تعني أن هذه الزواحف تخضع لحدود معدل الطلبات. تم تمكين بعض آليات الحد من السرعة في Discourse افتراضيًا لمنع إساءة الاستخدام. يمكنك قراءة المزيد حول هذا الأمر هنا.

neounix · 3 ديسمبر 2020، 9:35ص

هل جربت هذا (لكن استخدم اسم الحاوية الخاص بك)؟

ملاحظة: يمكنك أيضًا تكوين ذلك من خلال واجهة المستخدم الخاصة بالمسؤول:

# docker exec -it socket-only bash
root@socket-only:/# rails c
[1] pry(main)> SiteSetting.blocked_crawler_user_agents
=> "mauibot|semrushbot|ahrefsbot|blexbot|seo spider"
[2] pry(main)> SiteSetting.blocked_crawler_user_agents = ""
=> ""
[3] pry(main)> SiteSetting.blocked_crawler_user_agents
=> ""
[4] pry(main)>

انظر أيضًا:

github.com/discourse/discourse

config/site_settings.yml

d1d87b6fa

# Available options:
#
# default            - The default value of the setting. For upload site settings, use the id of the upload seeded in db/fixtures/010_uploads.rb.
# client             - Set to true if the javascript should have access to this setting's value.
# refresh            - Set to true if clients should refresh when the setting is changed.
# min                - For a string setting, the minimum length. For an integer setting, the minimum value.
# max                - For a string setting, the maximum length. For an integer setting, the maximum value.
# regex              - A regex that the value must match.
# validator          - The name of the class that will be use to validate the value of the setting.
# allow_any          - For choice settings allow items not specified in the choice list (default true)
# secret             - Set to true if input type should be password and value needs to be scrubbed from logs (default false).
# enum               - The setting has a fixed set of allowed values, and only one can be chosen.
#                      Set to the class name that defines the set.
# locale_default     - A hash which overrides according to `SiteSetting.default_locale`.
#                      The key should be as the same as possible value of default_locale.
#
#
# type: email    - Must be a valid email address.
# type: username - Must match the username of an existing user.
# type: list     - A list of values, chosen from a set of valid values defined in the choices option.

This file has been truncated. show original

انظر أيضًا:

  def self.allow_crawler?(user_agent)
    return true if SiteSetting.allowed_crawler_user_agents.blank? &&
      SiteSetting.blocked_crawler_user_agents.blank?
...
...

github.com/discourse/discourse

lib/crawler_detection.rb

e0d923225

# frozen_string_literal: true

module CrawlerDetection
  WAYBACK_MACHINE_URL = "archive.org"

  def self.to_matcher(string, type: nil)
    escaped = string.split('|').map { |agent| Regexp.escape(agent) }.join('|')

    if type == :real && Rails.env == "test"
      # we need this bypass so we properly render views
      escaped << "|Rails Testing"
    end

    Regexp.new(escaped, Regexp::IGNORECASE)
  end

  def self.crawler?(user_agent, via_header = nil)
    return true if user_agent.nil? || user_agent&.include?(WAYBACK_MACHINE_URL) || via_header&.include?(WAYBACK_MACHINE_URL)

    # this is done to avoid regenerating regexes

This file has been truncated. show original

يمكنك أن ترى من الكود أنه إذا قمت بتعيين إعدادتي الموقع هاتين إلى “فارغ”، فلن يكون هناك أي حظر:

SiteSetting.allowed_crawler_user_agents
SiteSetting.blocked_crawler_user_agents

أوصي ألا تقوم بتغيير هذا لأن هذه الروبوتات التي يحظرها نواة Discourse افتراضيًا لا تحترم ملف robots.txt؛ ومع ذلك، فهذا موقعك ويمكنك فعل ما تشاء. هناك سبب وجيه يجعلها محظورة في النواة.

مع ذلك، يمنحك Discourse خيار “إلغاء الحظر” لهذه الروبوتات باستخدام إعدادات الموقع الخاصة بك في واجهة المستخدم.

الموضوع		الردود	مرات العرض
Handling Bingbot Feature	29	7516	20 نوفمبر 2020
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4702	2 ديسمبر 2023
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	253	18 ديسمبر 2024
Why there are lots of Disallow rule in robots.txt? Support	34	4666	22 ديسمبر 2020
How to protect myself from bots crawling my Discourse instance? Support	6	1638	17 يناير 2022

لماذا يتم حظر semrushbot و ahrefsbot افتراضيًا؟

الموضوعات ذات الصلة