تتبع نشاط عناكب الذكاء الاصطناعي: هل يمكننا تحديد الموضوعات التي يتم فهرستها أو زيارتها بشكل متكرر؟

نبحث عن تحديد الموضوعات المحددة التي يتم فهرستها/استكشافها بشكل متكرر من قبل عناكب الذكاء الاصطناعي، لضمان عدم تغذية المحتوى الأكثر “استشهادًا” لهلوسات نماذج اللغات الكبيرة. هل توجد طريقة عبر مستكشف البيانات (Data Explorer) لربط عمليات الاستكشاف من العناكب بمعرفات الموضوعات الفردية؟

قد أكون مخطئًا، لكنني لا أعتقد أن Discourse يتتبع حركة مرور محركات البحث على مستوى الفئة أو الموضوع. (ربما يمكن تطبيق بعض العمليات الحسابية على الاستعلامات لاستنتاج الأرقام؟ :thinking:)

معظم نشاطات عناكب الويب (Crawlers) التي تعمل بالذكاء الاصطناعي لا تُعرّف نفسها عبر وكيل المستخدم (User Agent). فهي عادةً ما تدّعي أنها إصدارات قديمة من متصفح كروم. الطريقة الوحيدة لتحديدها هي من خلال حقيقة أنها تزور صفحة واحدة فقط ولا تبقى في الموقع لزيارة صفحة ثانية. وغالبًا ما تعمل من مراكز بيانات، لكنني لاحظت أيضًا الكثير من حركة المرور ذات الصفحة الواحدة من عناوين IP للهواتف المحمولة والسكنية، وأعتقد أنها ناتجة عن أجهزة مخترقة.

معظم عناكب الذكاء الاصطناعي تعلن عن وكيل المستخدم. تلك التي تشير إليها هي روبوتات/عناكب تحسين محركات البحث ووكلاء غير بشريين آخرين ضارين/مسيئين/غير مرغوب فيهم.