OpenAI ha creado un rastreador web llamado GPTBot.
Como administrador de Discourse, revisé el informe /admin/reports/web_crawlers y aún no lo he visto.
Tengo curiosidad por saber si otros lo han visto en la naturaleza.
OpenAI ha creado un rastreador web llamado GPTBot.
Como administrador de Discourse, revisé el informe /admin/reports/web_crawlers y aún no lo he visto.
Tengo curiosidad por saber si otros lo han visto en la naturaleza.
Tengo (y acabo de bloquearlo).
Nota… He visto un sentimiento equivocado de:
Simplemente bloquéalo
Esta es una relación unidireccional
Creo que esto omite un punto importante. Que OpenAI rastree meta.discourse.org ha sido muy beneficioso para CDCK. Cuando le haces preguntas a GPT 4 sobre Discourse, tiene al menos una posibilidad de responderlas.
Es una relación bidireccional:
Le das a OpenAI acceso a datos
OpenAI quema bosques entrenando el LLM con tus datos, lo que puede resultar en valor para ti.
También relacionado: How to prevent community content from being used to train LLMs like ChatGPT?
Vemos algo de acceso a GPTBot en nuestras flotas, tal vez 20-40 veces menos tráfico que el que vemos de Googlebot.
Cualquiera que se sienta incómodo con él puede bloquearlo directamente en la interfaz de usuario de Discourse, pero el bot parece comportarse muy bien en comparación con algunos malos que hemos visto.
Para aquellos que quieran identificar algunos de los malos, a medida que algunos de nosotros los encontramos, los anotamos en esta publicación.
Sí, es la primera vez que uso también el informe del rastreador, y hete aquí. Ahí estaba.
Mi opinión es que apareció en agosto y es el rastreador más grande de todos.
Aquí hay un ejemplo de un período de 24 horas y el tipo de relación
#1 ChatGPT 18K visitas a páginas
#2 mj12bot 1.8K visitas a páginas
…
#4 Google 1.7K visitas a páginas
Este despliegue de Discourse se puso en long_required especialmente para detener el rastreador que accede al contenido, por lo que solo debe estar accediendo a la página login_required para acumular esos accesos, ¿verdad?
¿Podría usar un usuario?
Supongo que eso es técnicamente posible pero no muy probable, y si fuera así, esperaría que dicho usuario tuviera de repente un recuento de publicaciones leídas muy alto.
Ahora mismo parece estar cerca de 100K visitas a páginas, muy por encima de la siguiente más alta que es aproximadamente menos de la mitad.
El rastreador de ChatGPT es un monstruo.
¿Tu #3 no está identificado? Yo también tengo uno así. Solo aparece como “—” en la lista. También es el #3 en mi lista, pero las visitas de bots son muchas menos en mi foro privado que requiere inicio de sesión. ![]()
No, bueno, sí, más o menos, verás, no pude leerlo porque estaba truncado, pero creo que es el rastreador AppleWebKit. Necesitaría exportar los datos para leer la entrada completa.
Desde entonces, he bloqueado prácticamente a todos los rastreadores, aunque es lo mismo que tú en un foro privado que requiere inicio de sesión. ¡Los rastreadores han caído a 20 hasta ahora hoy, en comparación con casi 14.000 hace unos días!
En tu panel: admin/reports/web_crawlers mostrará los rastreadores web de los últimos 30 días. Al pasar el cursor sobre cada rastreador, se mostrará temporalmente la descripción completa de cada uno sin tener que exportar la lista. Cambia para ver el último día usando el calendario en la parte superior derecha y haz clic en Actualizar.
Hasta ahora, en las últimas 24 horas, tuve 3 rastreadores (el 1º es el peor):
PetalBot - petalsearch.com/bot/petalbot - 4 vistas
GPTBot - openai.com/gptbot - 3 vistas
— - (sin descripción) - 1 vista
En el transcurso de 30 días, PetalBot rastrea más, seguido por Yandex.
Ya lo veo, está a unas 15 líneas más abajo. Añadí “—” como rastreador a la lista de bloqueo, es muy bajo en comparación con los más graves, pero veamos qué pasa ![]()
Tengo casi 50 listados desde enero, pero sorprendentemente ChatGPT en menos de 2 semanas o así es más del doble que el segundo bot más alto durante todo el período de enero hasta hoy, a esa velocidad ChatGPT igualaría casi 3 millones de visitas a la página durante todo un año si la tasa se mantuviera, 7/8K al día.
¡Acabo de añadir Grammarly a la lista de bloqueo!
Si a alguien le interesa, aquí está el rango de IPs que utiliza GPTBot (OpenAI) según lo publicado en su sitio web. Tienen 9 IPs listadas.
Los mismos sentimientos aquí. El mes pasado permití a GPTBot/DeepSeek/Perplexity con retraso y he visto estas fuentes crecer lentamente y convertir nuevos miembros.
Consejo: Los límites de tasa de Cloudflare (Cloudflare Rate Limits) quizás puedan ayudarte a evitar un alto número de solicitudes y la sobrecarga de ancho de banda.
OpenAI no sigue el retraso, que yo sepa. Esa fue la razón por la que prohibí su bot de enseñanza; era demasiado diligente (bueno, también hubo otras razones, las mismas por las que prohíbo cualquier bot de SEO/marketing que veo: no pago el negocio de otra persona).