Generatore llms.txt per Discourse
| Riepilogo | Genera automaticamente file llms.txt che rendono i contenuti del tuo forum scopribili dai Modelli Linguistici di grandi dimensioni (LLM) come ChatGPT, Claude e altri sistemi di IA | |
| Link al repository | GitHub - kaktaknet/discourse-llms-txt-generator: 🤖 Discourse llms.txt Generator Plugin. Automatically generates llms.txt and llms-full.txt files for your Discourse forum to optimize content discovery by Large Language Models (LLMs) and AI systems. · GitHub | |
| Guida all’installazione | Come installare i plugin in Discourse | |
Caratteristiche
Questo plugin implementa lo standard llms.txt - una convenzione proposta per fornire contenuti ottimizzati per gli LLM dai siti web. Pensaci come a un “robots.txt per l’IA” che aiuta i contenuti del tuo forum ad apparire nelle risposte generate dall’IA.
Per la documentazione dettagliata delle funzionalità, consulta README.md
Per la documentazione tecnica e lo sviluppo, consulta CONTRIBUTING.md
Anche se questo video non tratta specificamente di Discourse o dei suoi plugin, spiega in modo eccellente perché i file llms.txt sono importanti per il tuo forum.
Migliaia di siti web, tra cui molte delle più grandi e rispettate aziende tecnologiche al mondo, hanno già implementato lo standard llms.txt sui propri domini. Alcuni esempi includono:
Amazon AWS — https://docs.aws.amazon.com/llms.txt
Cloudflare — https://developers.cloudflare.com/llms.txt
Stripe — https://stripe.com/llms.txt
Angular — https://angular.dev/llms.txt
Redis — https://redis.io/llms.txt
Docker — https://docs.docker.com/llms.txt
Model Context Protocol — https://modelcontextprotocol.io/llms-full.txt
Quando i giganti del settore adottano uno standard su larga scala molto prima che diventi “ufficiale”, è un chiaro segnale che llms.txt risolve un problema reale e urgente. Aziende di questo tipo non lanciano mai iniziative su tutto il sito alla leggera; hanno sempre una solida ragione strategica. L’adozione rapida e su larga scala di llms.txt nell’industria tecnologica dimostra quanto sia diventato importante il contenuto strutturato per l’IA e che è proprio il settore a trainare questa adozione, anche più velocemente degli organismi di standardizzazione formali.
Funzionalità principali:
-
File di navigazione principale (
/llms.txt)- Panoramica strutturata del tuo forum con categorie, sottocategorie e argomenti più recenti
- Aiuta i sistemi di IA a comprendere immediatamente l’organizzazione del tuo forum
- Si aggiorna automaticamente man mano che il forum cresce
-
Indice completo dei contenuti (
/llms-full.txt)- Indice completo del forum con tutti gli argomenti categorizzati e pronti per l’uso da parte dell’IA
- Filtri configurabili in base alle visualizzazioni e al numero di argomenti
- Estratti dei post opzionali per un indicizzazione più rapida dell’IA
-
File dinamici per risorsa
- Genera llms.txt per qualsiasi categoria:
/c/nome-categoria/123/llms.txt - Genera llms.txt per qualsiasi argomento:
/t/slug-argomento/456/llms.txt - Genera llms.txt per qualsiasi tag:
/tag/tutorial/llms.txt - Creati su richiesta senza occupazione di spazio su disco
- Genera llms.txt per qualsiasi categoria:
-
Indice Sitemap (
/sitemaps.txt)- Elenco completo di tutti gli URL llms.txt per una scoperta efficiente da parte dei crawler IA
- Integrazione automatica con robots.txt e sitemap.xml
-
Protezione SEO
- URL canonici nelle intestazioni HTTP (conforme alla RFC 6596)
- Previene penalità per contenuti duplicati da parte dei motori di ricerca
- Corretta attribuzione agli URL originali del forum
-
Caching intelligente
- Controlli in background ogni ora per nuovi contenuti
- Rigenerazione solo quando necessario
- Tempi di risposta rapidi (sotto i 50 ms)
-
Controllo dei bot
- Blocca crawler IA specifici consentendo l’accesso al forum
- Elenco separato da virgole di user agent da bloccare
- Integrazione automatica con robots.txt tramite connettore di visualizzazione
-
Privacy e sicurezza
- Categorie private escluse automaticamente
- Controlli dei permessi del Guardian per i file dinamici
- Filtraggio di sicurezza a livello SQL
- Nessun dato personale esposto
Vantaggi per il tuo forum:
- Maggiore visibilità: I tuoi contenuti appaiono nelle risposte di ChatGPT, Claude e altri sistemi di IA
- Attribuzione diretta: I sistemi di IA citano e linkano di nuovo al tuo forum
- Più traffico: Maggiore scoperta grazie alla ricerca guidata dall’IA
- Migliore GEO: Ottimizzazione per motori generativi per i sistemi di IA
- Nessuna manutenzione: Generazione e aggiornamenti automatici
Configurazione
Dopo aver installato il plugin, vai su Admin → Impostazioni → Plugin → discourse-llms-txt-generator
Passaggio 1: Abilita il plugin
Imposta llms_txt_enabled su true (abilitato per impostazione predefinita)
Passaggio 2: Configura l’indicizzazione
Imposta llms_txt_allow_indexing su true per consentire l’accesso ai crawler IA (abilitato per impostazione predefinita)
Questa impostazione controlla se i file llms.txt appaiono nel tuo robots.txt come consentiti o negati.
Passaggio 3: Imposta i filtri dei contenuti
Configura queste impostazioni in base alle dimensioni del tuo forum:
llms_txt_min_views: Visualizzazioni minime richieste per includere un argomento (predefinito: 50)llms_txt_posts_limit: Quanti argomenti includeresmall: 500 argomenti (consigliato per forum grandi)medium: 2.500 argomenti (consigliato per la maggior parte dei forum)large: 5.000 argomentiall: Tutti gli argomenti (usare con cautela su forum grandi)
Passaggio 4: Opzionale - Aggiungi una descrizione personalizzata
Compila llms_txt_full_description con 2-4 frasi che descrivono lo scopo e la comunità del tuo forum. Questo aiuta i sistemi di IA a fornire informazioni più accurate sul tuo forum.
Esempio:
Questo forum è dedicato alla discussione sulla programmazione in Python, con un focus sullo sviluppo web,
la scienza dei dati e l'apprendimento automatico. La nostra comunità include principianti e sviluppatori esperti
che condividono soluzioni pratiche e migliori pratiche.
Passaggio 5: Opzionale - Blocca bot specifici
Se desideri bloccare determinati crawler IA, inserisci i nomi dei loro user agent in llms_txt_blocked_user_agents come elenco separato da virgole:
Esempio: Omgilibot, ChatGPT-User, CCBot
Passaggio 6: Verifica l’installazione
Visita il tuo forum all’indirizzo:
/llms.txt- File di navigazione principale/llms-full.txt- Indice completo dei contenuti/sitemaps.txt- Sitemap completa
Controlla il tuo /robots.txt per verificare l’integrazione.
Impostazioni
| Nome | Predefinito | Descrizione |
|---|---|---|
llms_txt_enabled |
true |
Abilita o disabilita il plugin |
llms_txt_allow_indexing |
true |
Consenti ai crawler IA di accedere ai file llms.txt (influenza robots.txt) |
llms_txt_blocked_user_agents |
"" |
Elenco separato da virgole di user agent dei bot da bloccare dai file llms.txt |
llms_txt_intro_text |
Testo personalizzato | Testo introduttivo che appare nel file llms.txt principale |
llms_txt_full_description |
"" |
Descrizione personalizzata per llms-full.txt per aiutare l’IA a comprendere il contesto del tuo forum |
llms_txt_min_views |
50 |
Visualizzazioni minime richieste per l’inclusione in llms-full.txt |
llms_txt_posts_limit |
medium |
Limite del numero di argomenti: small (500), medium (2.500), large (5.000) o all |
llms_txt_include_excerpts |
false |
Includi estratti dei post in llms-full.txt (aumenta significativamente le dimensioni del file) |
llms_txt_post_excerpt_length |
500 |
Lunghezza massima dell’estratto in caratteri (100-5000) se gli estratti sono abilitati |
llms_txt_latest_topics_count |
50 |
Numero di argomenti più recenti da mostrare nel file llms.txt principale |
llms_txt_cache_minutes |
60 |
Durata della cache in minuti per il file di navigazione |
Note importanti:
- Abilitare
llms_txt_include_excerptsconllms_txt_posts_limitimpostato suallpotrebbe causare dimensioni del file estremamente grandi (potenzialmente 10-100+ MB) e un elevato carico sul server per forum grandi - Le categorie private sono escluse automaticamente da tutti i file llms.txt
- I file dinamici per risorsa (categorie, argomenti, tag) non sono memorizzati nella cache e vengono generati su richiesta
- Il plugin utilizza i connettori di visualizzazione per l’integrazione con robots.txt: non è necessario modificare manualmente robots.txt
Dettagli tecnici
Architettura:
- Generazione su richiesta senza file pregenerati
- Caching intelligente con controlli in background ogni ora
- Consapevole dei permessi grazie al Guardian di Discourse
- Filtraggio di sicurezza a livello SQL per contenuti privati
- URL canonici nelle intestazioni HTTP per prevenire penalità SEO
Prestazioni:
- File di navigazione memorizzato nella cache per 60 minuti (configurabile)
- File di contenuto completo generato su richiesta
- La cache intelligente rigenera solo quando esistono nuovi contenuti
- Tempo di risposta inferiore a 50 ms per i contenuti memorizzati nella cache
Compatibilità:
- Discourse 2.7.0+
- Ruby 2.7+
- Testato su Discourse 3.6.0.beta3
Conformità agli standard:
- Standard llms.txt (https://llmstxt.org/)
- RFC 3986 (codifica URL per caratteri internazionali)
- RFC 6596 (Intestazioni Canonical Link)
Casi d’uso
Forum della comunità:
Le tue discussioni e soluzioni appaiono quando gli utenti pongono domande pertinenti agli assistenti IA, guidando traffico qualificato verso il tuo forum.
Siti di documentazione:
I sistemi di IA possono fare riferimento alla tua documentazione e ai tuoi tutorial, fornendo informazioni accurate con la corretta attribuzione.
Forum di supporto:
Gli utenti ricevono risposte dirette dalla tua knowledge base tramite assistenti IA, con link alle discussioni complete.
Comunità tecniche:
Gli sviluppatori scoprono i contenuti del tuo forum tramite assistenti di programmazione basati sull’IA, aumentando il coinvolgimento della comunità.
Manutenzione
Il plugin richiede una manutenzione minima:
- La cache si aggiorna automaticamente ogni ora
- Gli aggiornamenti dei contenuti avvengono automaticamente alla creazione/modifica dei post
- Nessuna generazione manuale di file necessaria
- Attività rake opzionali disponibili:
llms_txt:refreshellms_txt:check
Risoluzione dei problemi
File non accessibili:
- Verifica che
llms_txt_enabledsia impostato sutrue - Controlla che
llms_txt_allow_indexingsia impostato sutrue - Conferma che il plugin sia installato in Admin → Plugin
Contenuto vuoto:
- Assicurati di avere argomenti pubblici con un numero sufficiente di visualizzazioni (controlla l’impostazione
llms_txt_min_views) - Verifica che le categorie siano pubbliche (non con restrizioni di lettura)
- Controlla l’impostazione
llms_txt_posts_limit
Integrazione robots.txt non funzionante:
- Cancella la cache di robots.txt:
Rails.cache.delete('robots_txt') - Utilizza l’attività rake:
bundle exec rake llms_txt:refresh - Riavvia Discourse:
./launcher restart app
Supporto
- Problemi su GitHub: Issues · kaktaknet/discourse-llms-txt-generator · GitHub
Licenza
Licenza MIT - Software libero e open-source
Crediti
- Standard Answer.AI: llms.txt di Jeremy Howard (Answer.AI)
- GitHub Answer.AI: GitHub - AnswerDotAI/llms-txt: The /llms.txt file, helping language models use your website · GitHub
- Piattaforma: Discourse

