تتبع نشاط عناكب الذكاء الاصطناعي: هل يمكننا تحديد الموضوعات التي يتم فهرستها أو زيارتها بشكل متكرر؟

noahl · 20 أبريل 2026، 9:41م

نبحث عن تحديد الموضوعات المحددة التي يتم فهرستها/استكشافها بشكل متكرر من قبل عناكب الذكاء الاصطناعي، لضمان عدم تغذية المحتوى الأكثر “استشهادًا” لهلوسات نماذج اللغات الكبيرة. هل توجد طريقة عبر مستكشف البيانات (Data Explorer) لربط عمليات الاستكشاف من العناكب بمعرفات الموضوعات الفردية؟

Lilly · 20 أبريل 2026، 9:59م

قد أكون مخطئًا، لكنني لا أعتقد أن Discourse يتتبع حركة مرور محركات البحث على مستوى الفئة أو الموضوع. (ربما يمكن تطبيق بعض العمليات الحسابية على الاستعلامات لاستنتاج الأرقام؟ )

github.com/discourse/discourse

app/models/web_crawler_request.rb

e9f4e0dca


      
          # == Schema Information
          #
          # Table name: web_crawler_requests
          #
          #  id         :bigint           not null, primary key
          #  date       :date             not null
          #  user_agent :string           not null
          #  count      :integer          default(0), not null
          #
          # Indexes
          #
          #  index_web_crawler_requests_on_date_and_user_agent  (date,user_agent) UNIQUE
          #

elmuerte · 21 أبريل 2026، 5:09ص

معظم نشاطات عناكب الويب (Crawlers) التي تعمل بالذكاء الاصطناعي لا تُعرّف نفسها عبر وكيل المستخدم (User Agent). فهي عادةً ما تدّعي أنها إصدارات قديمة من متصفح كروم. الطريقة الوحيدة لتحديدها هي من خلال حقيقة أنها تزور صفحة واحدة فقط ولا تبقى في الموقع لزيارة صفحة ثانية. وغالبًا ما تعمل من مراكز بيانات، لكنني لاحظت أيضًا الكثير من حركة المرور ذات الصفحة الواحدة من عناوين IP للهواتف المحمولة والسكنية، وأعتقد أنها ناتجة عن أجهزة مخترقة.

Jagster · 21 أبريل 2026، 5:26ص

معظم عناكب الذكاء الاصطناعي تعلن عن وكيل المستخدم. تلك التي تشير إليها هي روبوتات/عناكب تحسين محركات البحث ووكلاء غير بشريين آخرين ضارين/مسيئين/غير مرغوب فيهم.

الموضوع		الردود	مرات العرض
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4798	2 ديسمبر 2023
Discourse is Agent Ready: Here’s How Blog	9	628	24 مايو 2026
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2369	18 أكتوبر 2023
User-agent: lfc-discourse-public-crawler Bug	3	126	9 يوليو 2026
Have AI identify and flag web crawlers Feature ai	1	264	11 يوليو 2023

تتبع نشاط عناكب الذكاء الاصطناعي: هل يمكننا تحديد الموضوعات التي يتم فهرستها أو زيارتها بشكل متكرر؟

الموضوعات ذات الصلة