Discourse è pronto per gli Agent: ecco come

Il pubblico dei forum sta cambiando. Alcuni dei tuoi lettori non sono più veri e propri lettori, almeno non nel senso tradizionale. Sono agenti che leggono per conto di qualcun altro, riassumendo i tuoi contenuti in una risposta per una persona che potrebbe non cliccare mai sul link o diventare un vero membro. Che tu gestisca una community di supporto per sviluppatori, un forum per clienti o un fan club, le tue conoscenze vengono già estratte per generare risposte tramite AI.


Questo è un argomento di discussione complementare all'articolo originale disponibile all'indirizzo https://blog.discourse.org/2026/05/discourse-is-agent-ready-heres-how/
6 Mi Piace

Domanda sincera: perché dovrei permettere che i crawler di IA inondino il mio server? Certo, l’articolo chiarisce che la scelta sarà sempre mia, ma, partendo da una prospettiva commerciale e prendendo Reddit come esempio di come gestiscono lo scraping tramite IA, quali sarebbero i vantaggi qui?

Recentemente ho visto che Google creerà pagine personalizzate in base alla cronologia dei suoi utenti, ovvero meno clic per i webmaster e più soldi per Alphabet. Quindi, ancora una volta, qual è il punto?

Attualmente permetto ai motori di ricerca e agli archivi di cache, come Wayback Machine, di leggere e memorizzare nella cache il mio contenuto, anche se non riesco a vedere altro che la fornitura del contenuto dei miei utenti affinché Alphabet e simili lo monetizzino senza che la mia comunità tragga alcun beneficio, oltre alle questioni legali: nel mio paese c’è la LGPD e in Europa il GDPR.

2 Mi Piace

Sembra che questo sia stato scritto da un’intelligenza artificiale per forum diversi da Discourse:

2 Mi Piace

Grazie per la lettura interessante!

Senza dubbio una delle migliori funzionalità di Discourse.
Aggrinzisco ogni volta che cerco un URL che restituisca dati su qualsiasi altro sito web e scopro che non ne esiste uno.

Sarebbe fantastico se poteste sempre includere link alle vostre fonti per affermazioni di questo tipo. Aiuterebbe i lettori a verificare i dati :slight_smile:

2 Mi Piace

Dipende dallo scopo del tuo forum: se è un forum aziendale o di supporto, ad esempio, il tuo obiettivo potrebbe essere semplicemente fornire una risposta alle persone il più rapidamente possibile. Se i contenuti vengono utilizzati per l’addestramento di intelligenze artificiali, questo potrebbe essere vantaggioso. Speriamo che, se si tratta davvero di un problema irrisolto, le persone troveranno comunque la strada per il tuo sito per parlarne, ma ciò rimane una sfida se si rivolgono prima all’IA.

In un contesto più sociale, i crawler di IA sono quasi del tutto inutili, perché desideri che le persone della tua comunità interagiscano tra loro. Questo potrebbe essere un buon caso per tentare di bloccarli completamente.

4 Mi Piace

Dal mio punto di vista professionale, lavorando con l’IA e la SEO, l’impatto e l’importanza di llms.txt non sono ancora stati dimostrati. Recentemente, Google ha dichiarato di non utilizzarlo né supportarlo. Ciò non significa che altri agenti non lo faranno. Tuttavia, è una sfumatura che ho pensato valesse la pena condividere.

3 Mi Piace

Onestamente, non lo farei. È solo la mia opinione, ma ho sempre vietato ai LLM di visitare i miei siti web e continuerò a farlo. Non mi piace donare il mio duro lavoro, sia esso testo o codice, agli scraper, specialmente quelli di OpenAI o Anthropic.

La maggior parte dei miei domini ha file come questo:
https://pyxfluff.dev/robots.txt
https://pyxfluff.dev/llms.txt

Ovviamente, tutto questo è solo una preferenza personale, ma questa intera mania dell’AI finirà non appena le persone smetteranno di permettere a queste aziende di rubare il contenuto dei loro siti web. Forse l’ultimo aggiornamento di Google, contro cui molti si sono opposti, farà riprendere i sensi ai proprietari di siti web che ora non avranno più visite al loro sito.

5 Mi Piace

Purtroppo non esiste un modo infallibile per bloccare i crawler dei LLM se i contenuti del tuo sito sono accessibili al pubblico; molti di essi ignorano il file robots.txt e cercano persino di apparire come visitatori umani (utilizzando diversi user agent e indirizzi IP) per aggirare i blocchi. Speriamo che una qualche regolamentazione legale possa porre dei limiti alla situazione, poiché sembra che molte persone vorrebbero avere la possibilità di scegliere se o meno i propri contenuti siano utilizzati in questo modo!

5 Mi Piace