OpenAI a créé un robot d’exploration web nommé GPTBot.
En tant qu’administrateur Discourse, j’ai consulté le rapport /admin/reports/web_crawlers et je ne l’ai pas encore vu.
Je suis curieux de savoir si d’autres l’ont vu en action.
OpenAI a créé un robot d’exploration web nommé GPTBot.
En tant qu’administrateur Discourse, j’ai consulté le rapport /admin/reports/web_crawlers et je ne l’ai pas encore vu.
Je suis curieux de savoir si d’autres l’ont vu en action.
J’ai (et je l’ai bloqué).
Note… J’ai vu un sentiment erroné disant :
Bloquez-le simplement
C’est une relation à sens unique
Je pense que cela manque un point important. Le fait qu’OpenAI explore meta.discourse.org a été très bénéfique pour CDCK. Lorsque vous posez des questions à GPT 4 sur Discourse, il a au moins une chance de les répondre.
C’est une relation à double sens :
Vous donnez à OpenAI l’accès aux données
OpenAI brûle des forêts en entraînant le LLM sur vos données, ce qui peut vous apporter de la valeur.
Également lié : How to prevent community content from being used to train LLMs like ChatGPT?
Nous constatons un certain accès GPTBot sur nos parcs, peut-être 20 à 40 fois moins de trafic que ce que nous constatons de la part de Googlebot.
Ceux qui ne sont pas à l’aise avec cela peuvent le bloquer directement dans l’interface utilisateur de Discourse, mais le bot semble très bien se comporter par rapport à certains mauvais que nous avons vus.
Pour ceux qui veulent identifier certaines des mauvaises, au fur et à mesure que nous les trouvons, nous les signalons dans ce post.
Oui, c’est la première fois que j’utilise aussi le rapport des robots d’exploration, et regardez. Il était là.
Mon avis est qu’il est apparu en août, et c’est le plus grand robot d’exploration de tous.
Voici un exemple d’une période de 24 heures et du type de ratio
#1 ChatGPT 18K pages vues
#2 mj12bot 1.8K pages vues
…
#4 Google 1.7K pages vues
Ce déploiement de discourse a été mis en long_required spécialement pour arrêter le robot d’exploration qui accède au contenu, donc il ne doit frapper que la page login_required pour accumuler ces visites, n’est-ce pas ?
Pourrait-il utiliser un utilisateur ?
Je suppose que c’est techniquement possible mais pas très probable, et si c’était le cas, je m’attendrais à ce qu’un tel utilisateur ait soudainement un nombre de messages lus très élevé.
Actuellement, il semble être proche de 100K pages vues, bien au-delà du suivant, qui est environ moins de la moitié.
Le robot d’exploration de ChatGPT est un monstre.
Le vôtre est-il le #3 non identifié ? J’en ai un aussi. Il n’apparaît que comme « — » dans la liste. C’est aussi le #3 sur ma liste, mais les vues de pages par des bots sont beaucoup moins nombreuses sur mon forum privé nécessitant une connexion. ![]()
Non, eh bien oui, un peu, voyez-vous, je ne pouvais pas le lire car il était tronqué, mais je pense que c’est le robot d’exploration AppleWebKit. J’aurais besoin d’exporter les données pour lire l’entrée complète.
Depuis, j’ai bloqué pratiquement tous les robots d’exploration, même si c’est comme vous sur un forum privé nécessitant une connexion. Les robots d’exploration sont tombés à 20 jusqu’à présent aujourd’hui, contre près de 14 000 il y a quelques jours !
Sur votre tableau de bord : admin/reports/web_crawlers affichera les robots d’exploration Web des 30 derniers jours. Survoler chaque robot d’exploration affiche temporairement la description complète de chacun sans avoir à exporter la liste. Changez pour afficher le jour précédent à l’aide du calendrier en haut à droite et cliquez sur Actualiser.
Jusqu’à présent, au cours des dernières 24 heures, j’ai eu 3 robots d’exploration (le 1er est le pire) :
PetalBot - petalsearch.com/bot/petalbot - 4 vues
GPTBot - openai.com/gptbot - 3 vues
— - (aucune description) - 1 vue
Au cours des 30 derniers jours, PetalBot est celui qui explore le plus, suivi par Yandex.
Je le vois maintenant, c’est environ 15 lignes plus bas. J’ai ajouté « — » comme crawler à la liste de blocage, c’est très bas par rapport aux plus flagrants, mais voyons ce qui se passe ![]()
J’ai près de 50 inscriptions depuis janvier, mais étonnamment ChatGPT en moins de 2 semaines a plus que doublé le deuxième bot le plus élevé pour toute la période de janvier à aujourd’hui, à ce rythme ChatGPT égalerait près de 3 millions de vues par page pour une année entière si le rythme se maintenait, 7/8K par jour.
Je viens d’ajouter Grammarly à la liste de blocage !
Si cela intéresse quelqu’un, voici la plage d’adresses IP que GPTBot (OpenAI) utilise, telle que publiée sur leur site Web. Ils ont 9 adresses IP répertoriées.
Même sentiment ici. Le mois dernier, j’ai autorisé GPTBot/DeepSeek/Perplexity avec un certain délai. J’ai vu ces sources croître lentement et convertir de nouveaux membres.
Astuce : Les limites de débit de Cloudflare peuvent peut-être vous aider à éviter les requêtes élevées et la surcharge de bande passante.
OpenAI ne connaît pas de délai, à ma connaissance. C’est la raison pour laquelle j’ai banni leur bot scolaire ; il était bien trop diligent (enfin, il y avait d’autres raisons aussi, de la même manière que je bannis tous les bots de SEO/marketing que je vois : je ne finance pas l’entreprise d’autrui).