Hat jemand den OpenAI Webcrawler GPTBot auf seiner Seite gesehen?

OpenAI hat einen Webcrawler namens GPTBot erstellt.

Als Discourse-Administrator habe ich den Bericht unter /admin/reports/web_crawlers überprüft und ihn noch nicht gesehen.

Ich bin neugierig, ob andere ihn bereits in freier Wildbahn gesehen haben.

3 „Gefällt mir“

Ich habe (und es gerade blockiert).

2 „Gefällt mir“

Hinweis… Ich habe eine fehlgeleitete Meinung gesehen:

Blockieren Sie es einfach

Dies ist eine einseitige Beziehung

Ich glaube, hier fehlt ein wichtiger Punkt. Dass OpenAI meta.discourse.org durchsucht hat, war für CDCK äußerst vorteilhaft. Wenn Sie GPT 4 Fragen zu Discourse stellen, hat es zumindest eine Chance, diese zu beantworten.

Es ist eine zweiseitige Beziehung:

Sie geben OpenAI Zugriff auf Daten
OpenAI verbrennt Wälder, indem es das LLM mit Ihren Daten trainiert, was für Sie von Vorteil sein kann.

Auch damit verbunden: How to prevent community content from being used to train LLMs like ChatGPT?

Wir sehen einige GPTBot-Zugriffe in unseren Flotten, vielleicht 20-40x weniger Traffic als bei Googlebot.

Wer damit unzufrieden ist, kann es direkt in der Discourse-Oberfläche blockieren, aber der Bot scheint sich im Vergleich zu einigen schlechten Bots, die wir gesehen haben, sehr gut zu verhalten.

8 „Gefällt mir“

Für diejenigen, die einige der schlechten identifizieren wollen, wie wir sie finden, notieren wir sie in diesem Beitrag.

1 „Gefällt mir“

Ja, auch das erste Mal, dass ich den Crawler-Bericht verwende, und siehe da. Da war er.

Meiner Meinung nach erschien er im August und ist der größte Crawler von allen.

Hier ist ein Beispiel für einen 24-Stunden-Zeitraum und die Art des Verhältnisses

#1 ChatGPT 18.000 Seitenaufrufe
#2 mj12bot 1,8.000 Seitenaufrufe

#4 Google 1,7.000 Seitenaufrufe

Diese Discourse-Bereitstellung wurde speziell für long_required eingerichtet, um den Crawler am Zugriff auf Inhalte zu hindern. Er muss also nur die Seite login_required aufrufen, um diese Treffer zu sammeln, oder?

Könnte er einen Benutzer verwenden?

Ich gehe davon aus, dass dies technisch möglich, aber unwahrscheinlich ist, und wenn ja, würde ich erwarten, dass ein solcher Benutzer plötzlich eine wirklich hohe Anzahl gelesener Beiträge hat.

Im Moment sind es fast 100.000 Seitenaufrufe, weit mehr als der nächsthöchste, der ungefähr weniger als die Hälfte beträgt.

Der ChatGPT-Crawler ist ein Monster.

1 „Gefällt mir“

Ist Ihre Nr. 3 nicht identifiziert? Ich habe auch eine davon. Sie wird in der Liste nur als „—“ angezeigt. Sie ist auch Nr. 3 auf meiner Liste, aber die Seitenaufrufe von Bots sind auf meinem privaten Forum, das eine Anmeldung erfordert, viel geringer. :sweat_smile:

1 „Gefällt mir“

Nein, naja ja irgendwie schon, ich konnte es nicht lesen, da es abgeschnitten war, aber ich glaube, es ist der AppleWebKit-Crawler. Ich müsste die Daten exportieren, um den vollständigen Eintrag zu lesen.

Seitdem habe ich praktisch alle Crawler blockiert, obwohl es sich wie bei Ihnen um ein privates Forum handelt, das eine Anmeldung erfordert. Die Crawler sind heute bisher auf 20 gesunken, verglichen mit fast 14.000 vor ein paar Tagen!

2 „Gefällt mir“

Auf Ihrem Dashboard: admin/reports/web_crawlers zeigt Web-Crawler der letzten 30 Tage an. Wenn Sie mit der Maus über jeden Crawler fahren, wird vorübergehend die vollständige Beschreibung für jeden angezeigt, ohne die Liste exportieren zu müssen. Ändern Sie die Ansicht, um den letzten Tag über den Kalender oben rechts anzuzeigen, und klicken Sie auf Aktualisieren.
Bisher hatte ich in den letzten 24 Stunden 3 Crawler (der 1. ist der schlimmste):
PetalBot - petalsearch.com/bot/petalbot - 4 Aufrufe
GPTBot - openai.com/gptbot - 3 Aufrufe
— - (keine Beschreibung) - 1 Aufruf

Im Laufe von 30 Tagen crawlt PetalBot am meisten, gefolgt von Yandex.

1 „Gefällt mir“

Ich sehe es jetzt, es ist ungefähr 15 Zeilen weiter unten. Ich habe „—“ als Crawler zur Blockierliste hinzugefügt, es ist sehr niedrig im Vergleich zu den schlimmsten, aber mal sehen, was passiert :wink:

Ich habe seit Januar fast 50 Einträge, aber erstaunlicherweise hat ChatGPT in knapp 2 Wochen mehr als das Doppelte des zweithöchsten Bots für den gesamten Zeitraum von Januar bis heute erreicht. Bei dieser Rate würde ChatGPT bei gleichbleibender Rate fast 3 Millionen Seitenaufrufe pro Jahr erzielen, 7/8.000 pro Tag.

Habe gerade Grammarly zur Blockierliste hinzugefügt!

1 „Gefällt mir“

Falls es jemanden interessiert, hier ist der Bereich der IPs, die GPTBot (OpenAI) verwendet, wie auf deren Website veröffentlicht. Sie haben 9 IPs aufgelistet.

https://openai.com/gptbot-ranges.txt

3 „Gefällt mir“

Mir ging es letzten Monat genauso. Ich habe GPTBot/DeepSeek/Perplexity mit Verzögerung zugelassen und gesehen, wie diese Quellen langsam wachsen und neue Mitglieder gewinnen.

Tipp: Cloudflare Rate Limits können Ihnen vielleicht helfen, hohe Anfragen und Bandbreitenüberlastung zu vermeiden.

OpenAI hält sich nicht an Verzögerungen, soweit ich weiß. Das war der Grund, warum ich ihren Schulungsbot verbannt habe; er war viel zu fleißig (nun, es gab auch andere Gründe, genau wie ich jeden SEO-/Marketing-Bot verbiete, den ich sehe: Ich bezahle nicht für das Geschäft von jemand anderem).

1 „Gefällt mir“