Hat jemand den OpenAI Webcrawler GPTBot auf seiner Seite gesehen?

EricGT · 8. August 2023 um 16:07

OpenAI hat einen Webcrawler namens GPTBot erstellt.

Als Discourse-Administrator habe ich den Bericht unter /admin/reports/web_crawlers überprüft und ihn noch nicht gesehen.

Ich bin neugierig, ob andere ihn bereits in freier Wildbahn gesehen haben.

marianord · 8. August 2023 um 16:19

Ich habe (und es gerade blockiert).

sam · 9. August 2023 um 05:54

Hinweis… Ich habe eine fehlgeleitete Meinung gesehen:

Blockieren Sie es einfach

Dies ist eine einseitige Beziehung

Ich glaube, hier fehlt ein wichtiger Punkt. Dass OpenAI meta.discourse.org durchsucht hat, war für CDCK äußerst vorteilhaft. Wenn Sie GPT 4 Fragen zu Discourse stellen, hat es zumindest eine Chance, diese zu beantworten.

Es ist eine zweiseitige Beziehung:

Sie geben OpenAI Zugriff auf Daten
OpenAI verbrennt Wälder, indem es das LLM mit Ihren Daten trainiert, was für Sie von Vorteil sein kann.

Auch damit verbunden: How to prevent community content from being used to train LLMs like ChatGPT?

Wir sehen einige GPTBot-Zugriffe in unseren Flotten, vielleicht 20-40x weniger Traffic als bei Googlebot.

Wer damit unzufrieden ist, kann es direkt in der Discourse-Oberfläche blockieren, aber der Bot scheint sich im Vergleich zu einigen schlechten Bots, die wir gesehen haben, sehr gut zu verhalten.

EricGT · 9. August 2023 um 07:32

Für diejenigen, die einige der schlechten identifizieren wollen, wie wir sie finden, notieren wir sie in diesem Beitrag.

agemo · 19. August 2023 um 19:43

Ja, auch das erste Mal, dass ich den Crawler-Bericht verwende, und siehe da. Da war er.

Meiner Meinung nach erschien er im August und ist der größte Crawler von allen.

Hier ist ein Beispiel für einen 24-Stunden-Zeitraum und die Art des Verhältnisses

#1 ChatGPT 18.000 Seitenaufrufe
#2 mj12bot 1,8.000 Seitenaufrufe
…
#4 Google 1,7.000 Seitenaufrufe

Diese Discourse-Bereitstellung wurde speziell für long_required eingerichtet, um den Crawler am Zugriff auf Inhalte zu hindern. Er muss also nur die Seite login_required aufrufen, um diese Treffer zu sammeln, oder?

Könnte er einen Benutzer verwenden?

Ich gehe davon aus, dass dies technisch möglich, aber unwahrscheinlich ist, und wenn ja, würde ich erwarten, dass ein solcher Benutzer plötzlich eine wirklich hohe Anzahl gelesener Beiträge hat.

Im Moment sind es fast 100.000 Seitenaufrufe, weit mehr als der nächsthöchste, der ungefähr weniger als die Hälfte beträgt.

Der ChatGPT-Crawler ist ein Monster.

JimPas · 21. August 2023 um 23:28

Ist Ihre Nr. 3 nicht identifiziert? Ich habe auch eine davon. Sie wird in der Liste nur als „—“ angezeigt. Sie ist auch Nr. 3 auf meiner Liste, aber die Seitenaufrufe von Bots sind auf meinem privaten Forum, das eine Anmeldung erfordert, viel geringer.

agemo · 22. August 2023 um 13:30

Nein, naja ja irgendwie schon, ich konnte es nicht lesen, da es abgeschnitten war, aber ich glaube, es ist der AppleWebKit-Crawler. Ich müsste die Daten exportieren, um den vollständigen Eintrag zu lesen.

Seitdem habe ich praktisch alle Crawler blockiert, obwohl es sich wie bei Ihnen um ein privates Forum handelt, das eine Anmeldung erfordert. Die Crawler sind heute bisher auf 20 gesunken, verglichen mit fast 14.000 vor ein paar Tagen!

JimPas · 22. August 2023 um 19:50

Auf Ihrem Dashboard: admin/reports/web_crawlers zeigt Web-Crawler der letzten 30 Tage an. Wenn Sie mit der Maus über jeden Crawler fahren, wird vorübergehend die vollständige Beschreibung für jeden angezeigt, ohne die Liste exportieren zu müssen. Ändern Sie die Ansicht, um den letzten Tag über den Kalender oben rechts anzuzeigen, und klicken Sie auf Aktualisieren.
Bisher hatte ich in den letzten 24 Stunden 3 Crawler (der 1. ist der schlimmste):
PetalBot - petalsearch.com/bot/petalbot - 4 Aufrufe
GPTBot - openai.com/gptbot - 3 Aufrufe
— - (keine Beschreibung) - 1 Aufruf

Im Laufe von 30 Tagen crawlt PetalBot am meisten, gefolgt von Yandex.

agemo · 22. August 2023 um 20:49

Ich sehe es jetzt, es ist ungefähr 15 Zeilen weiter unten. Ich habe „—“ als Crawler zur Blockierliste hinzugefügt, es ist sehr niedrig im Vergleich zu den schlimmsten, aber mal sehen, was passiert

Ich habe seit Januar fast 50 Einträge, aber erstaunlicherweise hat ChatGPT in knapp 2 Wochen mehr als das Doppelte des zweithöchsten Bots für den gesamten Zeitraum von Januar bis heute erreicht. Bei dieser Rate würde ChatGPT bei gleichbleibender Rate fast 3 Millionen Seitenaufrufe pro Jahr erzielen, 7/8.000 pro Tag.

Habe gerade Grammarly zur Blockierliste hinzugefügt!

JimPas · 27. August 2023 um 19:03

Falls es jemanden interessiert, hier ist der Bereich der IPs, die GPTBot (OpenAI) verwendet, wie auf deren Website veröffentlicht. Sie haben 9 IPs aufgelistet.

https://openai.com/gptbot-ranges.txt

eisammy · 23. Juni 2025 um 15:52

Mir ging es letzten Monat genauso. Ich habe GPTBot/DeepSeek/Perplexity mit Verzögerung zugelassen und gesehen, wie diese Quellen langsam wachsen und neue Mitglieder gewinnen.

Tipp: Cloudflare Rate Limits können Ihnen vielleicht helfen, hohe Anfragen und Bandbreitenüberlastung zu vermeiden.

Jagster · 23. Juni 2025 um 19:59

OpenAI hält sich nicht an Verzögerungen, soweit ich weiß. Das war der Grund, warum ich ihren Schulungsbot verbannt habe; er war viel zu fleißig (nun, es gab auch andere Gründe, genau wie ich jeden SEO-/Marketing-Bot verbiete, den ich sehe: Ich bezahle nicht für das Geschäft von jemand anderem).

Thema		Antworten	Aufrufe
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4798	2. Dezember 2023
Tracking LLM Crawler Activity: Can we identify which topics are being indexed/crawled most frequently? Data & reporting data-explorer	3	130	21. April 2026
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	69	5084	16. Juli 2023
How to protect myself from bots crawling my Discourse instance? Support	4	1660	21. Januar 2019
Smarter handling of random crawler traffic Feature	1	3568	29. März 2018

Hat jemand den OpenAI Webcrawler GPTBot auf seiner Seite gesehen?

Verwandte Themen