هل رأى أحد زاحف الويب GPTBot من OpenAI يزور موقعهم؟

لقد أنشأت OpenAI زاحف ويب يسمى GPTBot.

بصفتي مسؤولًا في Discourse، قمت بالتحقق من تقرير /admin/reports/web_crawlers ولم أره بعد.

أتساءل عما إذا كان الآخرون قد رأوه في الاستخدام.

3 إعجابات

لقد قمت بحظره (وقمت بحظره للتو).

إعجابَين (2)

ملاحظة… لقد رأيت شعورًا مضللًا مفاده:

فقط قم بحظره

هذه علاقة أحادية الاتجاه

أعتقد أن هذا يفتقد نقطة مهمة واحدة. لقد كان زحف OpenAI إلى meta.discourse.org مفيدًا للغاية لـ CDCK. عندما تطرح أسئلة على GPT 4 Discourse، فإنه يتمتع بفرصة جيدة للإجابة عليها.

إنها علاقة ثنائية الاتجاه:
تمنح OpenAI حق الوصول إلى البيانات
تحرق OpenAI الغابات لتدريب LLM على بياناتك، مما قد يؤدي إلى قيمة لك.

ذات صلة أيضًا: How to prevent community content from being used to train LLMs like ChatGPT?

نرى بعض الوصول إلى GPTBot عبر أساطيلنا، ربما أقل بـ 20-40 مرة من حركة المرور التي نراها من Googlebot.

يمكن لأي شخص غير مرتاح لذلك حظره في واجهة Discourse مباشرة، ولكن يبدو أن الروبوت يتصرف بشكل جيد للغاية مقارنة ببعض الروبوتات السيئة التي رأيناها.

8 إعجابات

بالنسبة لأولئك الذين يرغبون في تحديد بعض السيئين، وبينما نجدهم، نلاحظهم في هذا المنشور.

إعجاب واحد (1)

نعم، هذه هي المرة الأولى التي أستخدم فيها تقرير الزاحف أيضًا، وفجأة. كان هناك.
رأيي هو أنه ظهر في أغسطس، وهو أكبر زاحف بينهم جميعًا.
إليك مثال لفترة 24 ساعة ونوع النسبة
#1 ChatGPT 18 ألف مشاهدة صفحة
#2 mj12bot 1.8 ألف مشاهدة صفحة

#4 Google 1.7 ألف مشاهدة صفحة

تم نشر هذا التوزيع للمناقشة خصيصًا لإيقاف الزاحف الذي يصل إلى المحتوى، لذلك يجب أن يصل فقط إلى صفحة تسجيل الدخول لتجميع هذه الزيارات، أليس كذلك؟
هل يمكن استخدامه كمستخدم؟
أفترض أن هذا ممكن تقنيًا ولكنه غير مرجح، وإذا كان الأمر كذلك، أتوقع أن يكون لدى هذا المستخدم عدد منشورات مقروءة مرتفع جدًا فجأة.
في الوقت الحالي، يبدو أنه يقترب من 100 ألف مشاهدة صفحة، وهو ما يتجاوز بكثير أعلى نسبة تالية، وهي أقل من النصف تقريبًا.
زاحف chapgpt هو وحش

إعجاب واحد (1)

هل الرقم 3 الخاص بك غير محدد؟ لدي واحد من هؤلاء أيضًا. يظهر فقط كـ “—” في القائمة. إنه أيضًا الرقم 3 في قائمتي، ولكن عدد مرات مشاهدة الصفحة بواسطة الروبوتات أقل بكثير في منتداي الخاص الذي يتطلب تسجيل الدخول. :sweat_smile:

إعجاب واحد (1)

لا، حسنًا نعم نوعًا ما، انظر لم أتمكن من قراءته لأنه تم اقتطاعه ولكني أعتقد أنه زاحف AppleWebKit. سأحتاج إلى تصدير البيانات لقراءة الإدخال الكامل.

منذ ذلك الحين، قمت بحظر جميع الزواحف تقريبًا على الرغم من أنه مثل حالتك في منتدى خاص يتطلب تسجيل الدخول. انخفض عدد الزواحف إلى 20 حتى الآن اليوم، مقارنة بما يقرب من 14000 قبل بضعة أيام!

إعجابَين (2)

على لوحة التحكم الخاصة بك: admin/reports/web_crawlers ستعرض برامج زحف الويب للأيام الـ 30 الماضية. سيؤدي تمرير مؤشر الماوس فوق كل زاحف إلى عرض الوصف الكامل لكل منها مؤقتًا دون الحاجة إلى تصدير القائمة. قم بالتغيير لعرض اليوم الماضي باستخدام التقويم الموجود في أعلى اليمين وانقر فوق تحديث.
حتى الآن في الـ 24 ساعة الماضية كان لدي 3 زواحف (الأول هو الأسوأ):
PetalBot - petalsearch.com/bot/petalbot - 4 مرات مشاهدة
GPTBot - openai.com/gptbot - 3 مرات مشاهدة
— - (لا يوجد وصف) - مرة مشاهدة واحدة

على مدار 30 يومًا، يقوم PetalBot بالزحف أكثر، يليه Yandex.

إعجاب واحد (1)

أراها الآن، إنها حوالي 15 سطراً للأسفل. لقد أضفت “—” كـ زاحف إلى القائمة المحظورة، إنها منخفضة جدًا مقارنة بالأكثر فظاعة، ولكن دعنا نرى ما سيحدث :wink:

لدي ما يقرب من 50 إدراجًا منذ يناير، ولكن بشكل مدهش، ChatGPT في أقل من أسبوعين تقريبًا هو أكثر من ضعف البوت الأعلى التالي طوال الفترة من يناير حتى اليوم، بهذا المعدل، فإن ChatGPT يعادل ما يقرب من 3 ملايين مشاهدة للصفحة لمدة عام كامل إذا ظل المعدل، 7/8 آلاف يوميًا.

لقد أضفت للتو Grammarly إلى القائمة المحظورة!

إعجاب واحد (1)

إذا كان أي شخص مهتمًا، فإليك نطاق عناوين IP التي يستخدمها GPTBot (OpenAI) كما هو منشور على موقعهم على الويب. لديهم 9 عناوين IP مدرجة.

https://openai.com/gptbot-ranges.txt

3 إعجابات

نفس الشعور هنا. الشهر الماضي، سمحت لـ GPTBot/DeepSeek/Perplexity مع تأخير، وقد رأيت هذه المصادر تنمو ببطء وتجذب أعضاء جدد.

نصيحة: قد تساعدك حدود معدل Cloudflare على تجنب الطلبات الكثيرة وحمل النطاق الترددي الزائد.

أوبن إيه آي لا تلتزم بالتأخير، على حد علمي. لهذا السبب حظرت بوتهم التعليمي؛ لقد كان شديد الاجتهاد (حسنًا، كانت هناك أسباب أخرى أيضًا، مثلما أحظر كل بوت تسويق/تحسين محركات البحث (SEO) أراه: أنا لا أموّل أعمال الآخرين).

إعجاب واحد (1)