Qualcuno ha visto il web crawler GPTBot di OpenAI visitare il proprio sito?

EricGT · 8 Agosto 2023, 4:07pm

OpenAI ha creato un web crawler chiamato GPTBot.

Come amministratore di Discourse, ho controllato il report /admin/reports/web_crawlers del sito e non l’ho ancora visto.

Sono curioso di sapere se altri l’hanno visto in circolazione.

marianord · 8 Agosto 2023, 4:19pm

Ho (e l’ho appena bloccato).

sam · 9 Agosto 2023, 5:54am

Nota… Ho visto un sentimento fuorviante:

Bloccalo e basta

Questa è una relazione a senso unico

Ritengo che questo trascuri un punto importante. Avere OpenAI che esegue lo scraping di meta.discourse.org è stato estremamente vantaggioso per CDCK. Quando poni domande a GPT 4 su Discourse, ha almeno una possibilità di rispondere.

È una relazione a doppio senso:

Dai ad OpenAI l’accesso ai dati
OpenAI brucia foreste addestrando l’LLM sui tuoi dati, il che può tradursi in un valore per te.

Correlato anche: How to prevent community content from being used to train LLMs like ChatGPT?

Vediamo un certo accesso GPTBot nelle nostre flotte, circa 20-40 volte meno traffico rispetto a quello che vediamo da Googlebot.

Chiunque si senta a disagio può bloccarlo direttamente nell’interfaccia utente di Discourse, ma il bot sembra comportarsi molto bene rispetto ad alcuni maleducati che abbiamo visto.

EricGT · 9 Agosto 2023, 7:32am

Per coloro che desiderano identificare alcuni di quelli cattivi, mentre alcuni di noi li trovano li annotiamo in questo post.

agemo · 19 Agosto 2023, 7:43pm

Sì, è la prima volta che uso anche il crawler report, e guarda un po’. Eccolo lì.

La mia opinione è che sia apparso ad agosto, ed è il più grande crawler di tutti.

Ecco un esempio di un periodo di 24 ore e del tipo di rapporto

#1 ChatGPT 18.000 visualizzazioni di pagine
#2 mj12bot 1.800 visualizzazioni di pagine
…
#4 Google 1.700 visualizzazioni di pagine

Questa implementazione di discourse è stata messa in long_required appositamente per fermare il crawler che accede ai contenuti, quindi deve colpire solo la pagina login_required per accumulare quei colpi, giusto?

Potrebbe usare un utente?

Presumo che sia tecnicamente possibile ma non molto probabile, e in tal caso mi aspetterei che un tale utente avesse improvvisamente un conteggio di post letti molto alto.

Al momento sembra essere vicino a 100.000 visualizzazioni di pagine, ben al di sopra del successivo più alto che è circa la metà.

Il crawler di ChatGPT è un mostro.

JimPas · 21 Agosto 2023, 11:28pm

Il tuo #3 è non identificato? Ne ho uno anch’io. Viene visualizzato solo come “—” nell’elenco. È anche il #3 nella mia lista, ma le visualizzazioni di pagina dai bot sono molte meno sul mio forum privato che richiede l’accesso.

agemo · 22 Agosto 2023, 1:30pm

No, beh sì, più o meno, vedi che non riuscivo a leggerlo perché era troncato ma penso che sia il crawler AppleWebKit. Avrei bisogno di esportare i dati per leggere la voce completa.

Da allora ho bloccato virtualmente tutti i crawler anche se è lo stesso che hai tu in un forum privato che richiede il login. I crawler sono scesi a 20 finora oggi, rispetto a quasi 14.000 qualche giorno fa!

JimPas · 22 Agosto 2023, 7:50pm

Sul tuo dashboard: admin/reports/web_crawlers mostrerà i web crawler degli ultimi 30 giorni. Passando il mouse sopra ogni crawler, verrà visualizzata temporaneamente la descrizione completa di ciascuno senza dover esportare l’elenco. Cambia per visualizzare il giorno precedente utilizzando il calendario in alto a destra e fai clic su Aggiorna.
Finora nelle ultime 24 ore ho avuto 3 crawler (il 1° è il peggiore):
PetalBot - petalsearch.com/bot/petalbot - 4 visualizzazioni
GPTBot - openai.com/gptbot - 3 visualizzazioni
— - (nessuna descrizione) - 1 visualizzazione

Nel corso di 30 giorni, PetalBot esegue più crawl, seguito da Yandex.

agemo · 22 Agosto 2023, 8:49pm

Ora lo vedo, è circa 15 righe più in basso. Ho aggiunto “—” come crawler all’elenco dei blocchi, è molto basso rispetto ai più eclatanti, ma vediamo cosa succede

Ho quasi 50 inserzioni da gennaio, ma incredibilmente ChatGPT in poco meno di 2 settimane ha più del doppio del secondo bot più alto per l’intero periodo da gennaio a oggi, a quel ritmo ChatGPT eguaglierebbe quasi 3 milioni di visualizzazioni di pagina per un anno intero se il tasso rimanesse, 7/8K al giorno.

Ho appena aggiunto Grammarly all’elenco dei blocchi!

JimPas · 27 Agosto 2023, 7:03pm

Se qualcuno è interessato, ecco l’intervallo di IP che GPTBot (OpenAI) utilizza, come pubblicato sul loro sito web. Hanno 9 IP elencati.

https://openai.com/gptbot-ranges.txt

eisammy · 23 Giugno 2025, 3:52pm

Stessi sentimenti qui. Il mese scorso ho permesso a GPTBot/DeepSeek/Perplexity con un certo ritardo e ho visto queste fonti crescere lentamente e convertire nuovi membri.Suggerimento: i Cloudflare Rate Limits potrebbero aiutarti a evitare richieste elevate e sovraccarico di banda.

Jagster · 23 Giugno 2025, 7:59pm

OpenAI non segue i ritardi, per quanto ne so. Questa è stata la ragione per cui ho bannato il loro bot didattico; era fin troppo diligente (beh, c’erano anche altre ragioni, le stesse per cui banno ogni bot SEO/marketing che vedo: non pago gli affari altrui).

Argomento		Risposte	Visualizzazioni
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4553	Dicembre 2, 2023
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	71	4306	Ottobre 14, 2023
How to protect myself from bots crawling my Discourse instance? Support	6	1615	Gennaio 17, 2022
Smarter handling of random crawler traffic Feature	2	3538	Marzo 29, 2018
Too many Crawlers, is that a problem? Data & reporting	6	2534	Giugno 25, 2020

Qualcuno ha visto il web crawler GPTBot di OpenAI visitare il proprio sito?

Argomenti correlati