لقد أنشأت OpenAI زاحف ويب يسمى GPTBot.
بصفتي مسؤولًا في Discourse، قمت بالتحقق من تقرير /admin/reports/web_crawlers ولم أره بعد.
أتساءل عما إذا كان الآخرون قد رأوه في الاستخدام.
لقد أنشأت OpenAI زاحف ويب يسمى GPTBot.
بصفتي مسؤولًا في Discourse، قمت بالتحقق من تقرير /admin/reports/web_crawlers ولم أره بعد.
أتساءل عما إذا كان الآخرون قد رأوه في الاستخدام.
لقد قمت بحظره (وقمت بحظره للتو).
ملاحظة… لقد رأيت شعورًا مضللًا مفاده:
فقط قم بحظره
هذه علاقة أحادية الاتجاه
أعتقد أن هذا يفتقد نقطة مهمة واحدة. لقد كان زحف OpenAI إلى meta.discourse.org مفيدًا للغاية لـ CDCK. عندما تطرح أسئلة على GPT 4 Discourse، فإنه يتمتع بفرصة جيدة للإجابة عليها.
إنها علاقة ثنائية الاتجاه:
تمنح OpenAI حق الوصول إلى البيانات
تحرق OpenAI الغابات لتدريب LLM على بياناتك، مما قد يؤدي إلى قيمة لك.
ذات صلة أيضًا: How to prevent community content from being used to train LLMs like ChatGPT?
نرى بعض الوصول إلى GPTBot عبر أساطيلنا، ربما أقل بـ 20-40 مرة من حركة المرور التي نراها من Googlebot.
يمكن لأي شخص غير مرتاح لذلك حظره في واجهة Discourse مباشرة، ولكن يبدو أن الروبوت يتصرف بشكل جيد للغاية مقارنة ببعض الروبوتات السيئة التي رأيناها.
بالنسبة لأولئك الذين يرغبون في تحديد بعض السيئين، وبينما نجدهم، نلاحظهم في هذا المنشور.
نعم، هذه هي المرة الأولى التي أستخدم فيها تقرير الزاحف أيضًا، وفجأة. كان هناك.
رأيي هو أنه ظهر في أغسطس، وهو أكبر زاحف بينهم جميعًا.
إليك مثال لفترة 24 ساعة ونوع النسبة
#1 ChatGPT 18 ألف مشاهدة صفحة
#2 mj12bot 1.8 ألف مشاهدة صفحة
…
#4 Google 1.7 ألف مشاهدة صفحة
تم نشر هذا التوزيع للمناقشة خصيصًا لإيقاف الزاحف الذي يصل إلى المحتوى، لذلك يجب أن يصل فقط إلى صفحة تسجيل الدخول لتجميع هذه الزيارات، أليس كذلك؟
هل يمكن استخدامه كمستخدم؟
أفترض أن هذا ممكن تقنيًا ولكنه غير مرجح، وإذا كان الأمر كذلك، أتوقع أن يكون لدى هذا المستخدم عدد منشورات مقروءة مرتفع جدًا فجأة.
في الوقت الحالي، يبدو أنه يقترب من 100 ألف مشاهدة صفحة، وهو ما يتجاوز بكثير أعلى نسبة تالية، وهي أقل من النصف تقريبًا.
زاحف chapgpt هو وحش
هل الرقم 3 الخاص بك غير محدد؟ لدي واحد من هؤلاء أيضًا. يظهر فقط كـ “—” في القائمة. إنه أيضًا الرقم 3 في قائمتي، ولكن عدد مرات مشاهدة الصفحة بواسطة الروبوتات أقل بكثير في منتداي الخاص الذي يتطلب تسجيل الدخول. ![]()
لا، حسنًا نعم نوعًا ما، انظر لم أتمكن من قراءته لأنه تم اقتطاعه ولكني أعتقد أنه زاحف AppleWebKit. سأحتاج إلى تصدير البيانات لقراءة الإدخال الكامل.
منذ ذلك الحين، قمت بحظر جميع الزواحف تقريبًا على الرغم من أنه مثل حالتك في منتدى خاص يتطلب تسجيل الدخول. انخفض عدد الزواحف إلى 20 حتى الآن اليوم، مقارنة بما يقرب من 14000 قبل بضعة أيام!
على لوحة التحكم الخاصة بك: admin/reports/web_crawlers ستعرض برامج زحف الويب للأيام الـ 30 الماضية. سيؤدي تمرير مؤشر الماوس فوق كل زاحف إلى عرض الوصف الكامل لكل منها مؤقتًا دون الحاجة إلى تصدير القائمة. قم بالتغيير لعرض اليوم الماضي باستخدام التقويم الموجود في أعلى اليمين وانقر فوق تحديث.
حتى الآن في الـ 24 ساعة الماضية كان لدي 3 زواحف (الأول هو الأسوأ):
PetalBot - petalsearch.com/bot/petalbot - 4 مرات مشاهدة
GPTBot - openai.com/gptbot - 3 مرات مشاهدة
— - (لا يوجد وصف) - مرة مشاهدة واحدة
على مدار 30 يومًا، يقوم PetalBot بالزحف أكثر، يليه Yandex.
أراها الآن، إنها حوالي 15 سطراً للأسفل. لقد أضفت “—” كـ زاحف إلى القائمة المحظورة، إنها منخفضة جدًا مقارنة بالأكثر فظاعة، ولكن دعنا نرى ما سيحدث ![]()
لدي ما يقرب من 50 إدراجًا منذ يناير، ولكن بشكل مدهش، ChatGPT في أقل من أسبوعين تقريبًا هو أكثر من ضعف البوت الأعلى التالي طوال الفترة من يناير حتى اليوم، بهذا المعدل، فإن ChatGPT يعادل ما يقرب من 3 ملايين مشاهدة للصفحة لمدة عام كامل إذا ظل المعدل، 7/8 آلاف يوميًا.
لقد أضفت للتو Grammarly إلى القائمة المحظورة!
إذا كان أي شخص مهتمًا، فإليك نطاق عناوين IP التي يستخدمها GPTBot (OpenAI) كما هو منشور على موقعهم على الويب. لديهم 9 عناوين IP مدرجة.
نفس الشعور هنا. الشهر الماضي، سمحت لـ GPTBot/DeepSeek/Perplexity مع تأخير، وقد رأيت هذه المصادر تنمو ببطء وتجذب أعضاء جدد.
نصيحة: قد تساعدك حدود معدل Cloudflare على تجنب الطلبات الكثيرة وحمل النطاق الترددي الزائد.
أوبن إيه آي لا تلتزم بالتأخير، على حد علمي. لهذا السبب حظرت بوتهم التعليمي؛ لقد كان شديد الاجتهاد (حسنًا، كانت هناك أسباب أخرى أيضًا، مثلما أحظر كل بوت تسويق/تحسين محركات البحث (SEO) أراه: أنا لا أموّل أعمال الآخرين).