Visitatori Oscuri

:information_source: Riepilogo Integra il servizio Known Agents con Discourse per tenere traccia dei crawler e scraper indesiderati che visitano il tuo forum.
:hammer_and_wrench: Link al Repository \u003chttps://github.com/magicball-network/discourse-darkvisitors\u003e
:open_book: Guida all’Installazione Come installare i plugin in Discourse

:information_source: A partire dal 3 febbraio 2026 il servizio Dark Visitors è stato rinominato in Known Agents. Il plugin di Discourse non è stato rinominato.

Funzionalità

Known Agents è un servizio che tiene traccia degli agenti (crawler, scraper e altri tipi di bot) che visitano i tuoi siti web. La loro attenzione principale è rivolta all’analisi degli agenti AI.

Offre due servizi:

  • Generazione e monitoraggio di robots.txt
  • Analisi degli agenti; sia lato server che lato client

Il servizio robots.txt è gratuito. I servizi di analisi forniscono un livello gratuito. Ti suggerisco di visitare il loro sito web per maggiori informazioni.

Questo plugin di Discourse si collega a tutti questi servizi, tutti opzionali e configurabili in una certa misura.

Generazione di robots.txt

Discourse fornisce già un’opzione per configurare il robots.txt. Questo plugin lo estende. Quando è abilitato, il plugin recupera un elenco di agenti in diverse categorie (attualmente sono supportate solo le categorie AI) e quelli mancanti negli agenti già configurati, li aggiungerà. L’elenco verrà aggiornato quotidianamente. In questo modo, quando viene riconosciuto un nuovo scraper AI, verrà aggiunto al tuo robots.txt.

Questa funzionalità funziona solo se Discourse gestisce il robots.txt e non l’hai sovrascritto manualmente. Il plugin non modifica l’impostazione Agenti crawler bloccati, ma aumenta gli agenti mancanti nel robots.txt. Quindi hai ancora il pieno controllo sulla gestione di questo elenco.

Quando visiti il robots.txt del tuo sito, vedrai un commento iniziale dell’ultimo aggiornamento e il numero di agenti restituiti da Known Agents. Gli agenti non ancora configurati vengono aggiunti alla fine dell’elenco. Dovrebbero trovarsi tra Googlebot e la direttiva sitemap (se configurata).

Analisi degli agenti

L’analisi sia lato server che lato client può essere abilitata individualmente. Può essere abilitata per tutti i visitatori o solo per i visitatori non autenticati.

L’analisi lato server segnala le visite tracciate a Known Agents. Invierà il percorso della richiesta, l’indirizzo remoto del visitatore, l’header User-Agent e alcuni altri header del browser.

Ci sono alcune impostazioni aggiuntive su quali richieste vengono segnalate, vedi le impostazioni di seguito. Per impostazione predefinita, vengono tracciate solo le richieste che Discourse contrassegna per il tracciamento come visualizzazioni. Le seguenti richieste a Discourse non verranno mai segnalate:

  • Richieste alla sezione Admin
  • Richieste in background e API

L’analisi lato client è gestita aggiungendo Javascript alla tua pagina che chiama Known Agents in determinate condizioni:

  • Il browser sembra essere automatizzato o un browser AI
  • L’utente proviene da un servizio di chat AI

Tutte le richieste tracciate contano per gli eventi che influiscono sul tuo piano di pagamento.

Configurazione

È necessario registrarsi su Known Agents per utilizzare questo plugin. Il livello gratuito ti dà 100.000 eventi al mese. Quando questo limite viene raggiunto, non vedrai più nuovi eventi nelle loro analisi, ma puoi comunque inviare nuove informazioni e continuare a utilizzare il servizio robots.txt.

Dopo la registrazione, devi creare un progetto (ad esempio, un sito da tracciare). Questo ti fornirà un token di accesso necessario per la funzionalità robots.txt e l’analisi lato server.

Quando abiliti la funzionalità robots.txt, ci vuole un po’ di tempo prima che venga aggiornata. Visita https://tuosito/robots.txt per vedere se funziona. Dovrebbe avere un commento in cima

# Aumentato da Dark Visitors il 2025-05-07T12:46:00+00:00 con 28 agenti

Quando abiliti l’analisi lato server, puoi verificare se funziona richiedendo una visita di prova dalle impostazioni del progetto di Known Agents. Potrebbero volerci alcuni secondi. Dovresti vedere il risultato nella pagina Realtime su Known Agents.

Impostazioni

Nome Descrizione
darkvisitors enabled Flag globale per abilitare l’intero plugin
darkvisitors access token Il token di accesso segreto necessario per robots.txt e l’analisi lato server per comunicare con Known Agents. Lo troverai nel progetto Known Agents sotto impostazioni.
darkvisitors robots txt enabled Se abilitato, il robots.txt di Discourse verrà aumentato con agenti aggiuntivi
darkvisitors robots txt agents Il tipo di agenti da aggiungere al robots.txt.
darkvisitors robots txt path Il percorso a cui negare l’accesso agli agenti. È probabilmente meglio lasciarlo a / in modo che l’accesso all’intero sito venga rifiutato.
darkvisitors server analytics Abilita l’analisi lato server. Consiglio di abilitarla solo per gli utenti anonimi.
darkvisitors server analytics include Richieste aggiuntive da tracciare. Puoi anche tracciare le richieste ai file caricati o anche le richieste di errore 404 Not Found.
darkvisitors server analytics ignore Sottostringhe negli user agent da ignorare (sensibile alle maiuscole). Se utilizzi il monitoraggio dell’uptime, ti suggerisco vivamente di includere il loro user agent identificativo in questo elenco.
darkvisitors client analytics Abilita l’analisi lato client. Questo ti darà anche informazioni sugli utenti normali che visitano il tuo forum provenendo da un servizio di chat AI.
darkvisitors client analytics project key Per l’analisi lato client devi configurare la chiave del progetto (pubblica). La puoi trovare nelle impostazioni del progetto Known Agents nella sezione JavaScript Tag, è il codice dopo project_key=
5 Mi Piace

Grazie per questo, elmuerte! L’ho configurato e funziona alla grande.

Vedo che nelle impostazioni del plugin, i tipi di agenti che possono essere selezionati per l’esclusione tramite robots.txt sono:

  • AI Data Scraper [selezionato per impostazione predefinita]
  • Undocumented AI Agent [selezionato per impostazione predefinita]
  • AI Agent
  • AI Assistant
  • AI Search Crawler

Ma l’elenco completo dei tipi di agenti Dark Visitors è:
(grassetto = aggiuntivo)

Crawler e Scraper…

  • AI Assistant
  • AI Data Scraper
  • AI Search Crawler
  • Archiver
  • Developer Helper
  • Fetcher
  • Intelligence Gatherer
  • Scraper
  • Search Engine Crawler
  • Security Scanner
  • SEO Crawler
  • Uncategorized Agent
  • Undocumented AI Agent

Agenti AI…

  • AI Agent
  • Headless Agent

Non tutti questi tipi di agenti sono cose che si vorrebbero bloccare, ma mi piacerebbe includerne alcuni come Scraper, AI Data Scraper, SEO Crawler…

Questi tipi di agenti aggiuntivi sono solo più recenti del tuo plugin? Potrebbero essere aggiunti all’elenco attuale delle scelte in settings.yml?

Tranne che robots.txt è solo una richiesta. Un bot la segue o meno. Il firewall è l’unico modo per fermarli.

Sì, capisco – ma dato che Dark Visitors funziona solo con robots.txt, vorrei farlo funzionare al meglio.

(Sto leggendo un paio di post in cui suggerisci il blocco effettivo con un proxy inverso Nginx, ma non sono sicuro se devo arrivare a quel punto per ora.)

Questo è un po’ estremo. Ma Dark Visitor dovrebbe funzionare con la banlist di Discourse per essere utile a un certo livello. Certo, con questo non è necessario aggiungere manualmente, ad esempio, OpenAI o altro che segue robots.txt.

Ho contattato Dark Visitors riguardo a questo il 3 maggio di quest’anno e la loro risposta è stata “Non al momento”. Ma vedo che la documentazione attuale elenca ancora più tipi ora.

Al momento, i seguenti tipi sono supportati dall’API Dark Visitors:

Mi sono assicurato che l’impostazione in Discourse possa essere estesa con tipi di agenti aggiuntivi semplicemente aggiungendoli.

Dopo aver aggiunto il nuovo tipo e salvato l’impostazione, il robots.txt dovrebbe essere aggiornato immediatamente con tutti i nuovi agenti.

1 Mi Piace

OMG, ho completamente perso il campo “Cerca o crea”. Il mio tema ha un contrasto molto basso lì ed è sfuggito ai miei occhi. Grazie per la chiarificazione!