OpenAI ha creato un web crawler chiamato GPTBot.
Come amministratore di Discourse, ho controllato il report /admin/reports/web_crawlers del sito e non l’ho ancora visto.
Sono curioso di sapere se altri l’hanno visto in circolazione.
OpenAI ha creato un web crawler chiamato GPTBot.
Come amministratore di Discourse, ho controllato il report /admin/reports/web_crawlers del sito e non l’ho ancora visto.
Sono curioso di sapere se altri l’hanno visto in circolazione.
Ho (e l’ho appena bloccato).
Nota… Ho visto un sentimento fuorviante:
Bloccalo e basta
Questa è una relazione a senso unico
Ritengo che questo trascuri un punto importante. Avere OpenAI che esegue lo scraping di meta.discourse.org è stato estremamente vantaggioso per CDCK. Quando poni domande a GPT 4 su Discourse, ha almeno una possibilità di rispondere.
È una relazione a doppio senso:
Dai ad OpenAI l’accesso ai dati
OpenAI brucia foreste addestrando l’LLM sui tuoi dati, il che può tradursi in un valore per te.
Correlato anche: How to prevent community content from being used to train LLMs like ChatGPT?
Vediamo un certo accesso GPTBot nelle nostre flotte, circa 20-40 volte meno traffico rispetto a quello che vediamo da Googlebot.
Chiunque si senta a disagio può bloccarlo direttamente nell’interfaccia utente di Discourse, ma il bot sembra comportarsi molto bene rispetto ad alcuni maleducati che abbiamo visto.
Per coloro che desiderano identificare alcuni di quelli cattivi, mentre alcuni di noi li trovano li annotiamo in questo post.
Sì, è la prima volta che uso anche il crawler report, e guarda un po’. Eccolo lì.
La mia opinione è che sia apparso ad agosto, ed è il più grande crawler di tutti.
Ecco un esempio di un periodo di 24 ore e del tipo di rapporto
#1 ChatGPT 18.000 visualizzazioni di pagine
#2 mj12bot 1.800 visualizzazioni di pagine
…
#4 Google 1.700 visualizzazioni di pagine
Questa implementazione di discourse è stata messa in long_required appositamente per fermare il crawler che accede ai contenuti, quindi deve colpire solo la pagina login_required per accumulare quei colpi, giusto?
Potrebbe usare un utente?
Presumo che sia tecnicamente possibile ma non molto probabile, e in tal caso mi aspetterei che un tale utente avesse improvvisamente un conteggio di post letti molto alto.
Al momento sembra essere vicino a 100.000 visualizzazioni di pagine, ben al di sopra del successivo più alto che è circa la metà.
Il crawler di ChatGPT è un mostro.
Il tuo #3 è non identificato? Ne ho uno anch’io. Viene visualizzato solo come “—” nell’elenco. È anche il #3 nella mia lista, ma le visualizzazioni di pagina dai bot sono molte meno sul mio forum privato che richiede l’accesso. ![]()
No, beh sì, più o meno, vedi che non riuscivo a leggerlo perché era troncato ma penso che sia il crawler AppleWebKit. Avrei bisogno di esportare i dati per leggere la voce completa.
Da allora ho bloccato virtualmente tutti i crawler anche se è lo stesso che hai tu in un forum privato che richiede il login. I crawler sono scesi a 20 finora oggi, rispetto a quasi 14.000 qualche giorno fa!
Sul tuo dashboard: admin/reports/web_crawlers mostrerà i web crawler degli ultimi 30 giorni. Passando il mouse sopra ogni crawler, verrà visualizzata temporaneamente la descrizione completa di ciascuno senza dover esportare l’elenco. Cambia per visualizzare il giorno precedente utilizzando il calendario in alto a destra e fai clic su Aggiorna.
Finora nelle ultime 24 ore ho avuto 3 crawler (il 1° è il peggiore):
PetalBot - petalsearch.com/bot/petalbot - 4 visualizzazioni
GPTBot - openai.com/gptbot - 3 visualizzazioni
— - (nessuna descrizione) - 1 visualizzazione
Nel corso di 30 giorni, PetalBot esegue più crawl, seguito da Yandex.
Ora lo vedo, è circa 15 righe più in basso. Ho aggiunto “—” come crawler all’elenco dei blocchi, è molto basso rispetto ai più eclatanti, ma vediamo cosa succede ![]()
Ho quasi 50 inserzioni da gennaio, ma incredibilmente ChatGPT in poco meno di 2 settimane ha più del doppio del secondo bot più alto per l’intero periodo da gennaio a oggi, a quel ritmo ChatGPT eguaglierebbe quasi 3 milioni di visualizzazioni di pagina per un anno intero se il tasso rimanesse, 7/8K al giorno.
Ho appena aggiunto Grammarly all’elenco dei blocchi!
Se qualcuno è interessato, ecco l’intervallo di IP che GPTBot (OpenAI) utilizza, come pubblicato sul loro sito web. Hanno 9 IP elencati.
Stessi sentimenti qui. Il mese scorso ho permesso a GPTBot/DeepSeek/Perplexity con un certo ritardo e ho visto queste fonti crescere lentamente e convertire nuovi membri.Suggerimento: i Cloudflare Rate Limits potrebbero aiutarti a evitare richieste elevate e sovraccarico di banda.
OpenAI non segue i ritardi, per quanto ne so. Questa è stata la ragione per cui ho bannato il loro bot didattico; era fin troppo diligente (beh, c’erano anche altre ragioni, le stesse per cui banno ogni bot SEO/marketing che vedo: non pago gli affari altrui).