Gerador llms.txt para Discourse
| Resumo | Gera automaticamente arquivos llms.txt que tornam o conteúdo do seu fórum descobrível por Modelos de Linguagem de Grande Porte (LLMs) como ChatGPT, Claude e outros sistemas de IA | |
| Link do Repositório | GitHub - kaktaknet/discourse-llms-txt-generator: 🤖 Discourse llms.txt Generator Plugin. Automatically generates llms.txt and llms-full.txt files for your Discourse forum to optimize content discovery by Large Language Models (LLMs) and AI systems. · GitHub | |
| Guia de Instalação | Como instalar plugins no Discourse | |
Recursos
Este plugin implementa o padrão llms.txt — uma convenção proposta para fornecer conteúdo amigável a LLMs a partir de sites. Pense nele como um “robots.txt para IA” que ajuda o conteúdo do seu fórum a aparecer em respostas geradas por IA.
Para documentação detalhada dos recursos, consulte README.md
Para documentação técnica e desenvolvimento, consulte CONTRIBUTING.md
Embora este vídeo não seja especificamente sobre o Discourse ou seus plugins, ele faz um ótimo trabalho explicando por que os arquivos llms.txt são importantes para o seu fórum.
Milhares de sites — incluindo muitas das maiores e mais respeitadas empresas de tecnologia do mundo — já implementaram o padrão llms.txt em seus próprios domínios. Exemplos incluem:
Amazon AWS — https://docs.aws.amazon.com/llms.txt
Cloudflare — https://developers.cloudflare.com/llms.txt
Stripe — https://stripe.com/llms.txt
Angular — https://angular.dev/llms.txt
Redis — https://redis.io/llms.txt
Docker — https://docs.docker.com/llms.txt
Model Context Protocol — https://modelcontextprotocol.io/llms-full.txt
Quando gigantes da indústria adotam um padrão em escala — muito antes de se tornar “oficial” — é um sinal claro de que o llms.txt resolve um problema real e urgente. Tais empresas nunca lançam iniciativas em todo o site de forma leviana; elas sempre têm uma razão estratégica sólida. A adoção rápida e em grande escala do llms.txt pela indústria de tecnologia mostra o quão importante o conteúdo estruturado para IA se tornou, e que a própria indústria está impulsionando essa adoção — até mais rápido do que os órgãos de padronização formais.
Principais capacidades:
-
Arquivo de Navegação Principal (
/llms.txt)- Visão geral estruturada do seu fórum com categorias, subcategorias e tópicos mais recentes
- Ajuda os sistemas de IA a entenderem a organização do seu fórum instantaneamente
- Atualiza-se automaticamente conforme seu fórum cresce
-
Índice de Conteúdo Completo (
/llms-full.txt)- Índice completo do fórum com todos os tópicos categorizados e prontos para consumo por IA
- Filtragem configurável por visualizações e contagem de tópicos
- Excertos de posts opcionais para indexação mais rápida pela IA
-
Arquivos Dinâmicos por Recurso
- Gere llms.txt para qualquer categoria:
/c/nome-da-categoria/123/llms.txt - Gere llms.txt para qualquer tópico:
/t/slug-do-topico/456/llms.txt - Gere llms.txt para qualquer tag:
/tag/tutorial/llms.txt - Criados sob demanda sem armazenamento físico
- Gere llms.txt para qualquer categoria:
-
Índice de Sitemap (
/sitemaps.txt)- Lista completa de todos os URLs llms.txt para descoberta eficiente por rastreadores de IA
- Integra-se automaticamente com robots.txt e sitemap.xml
-
Proteção SEO
- URLs canônicos nos cabeçalhos HTTP (conforme RFC 6596)
- Previne penalidades de conteúdo duplicado por mecanismos de busca
- Atribuição adequada aos URLs originais do fórum
-
Cache Inteligente
- Verificações em segundo plano horárias para novo conteúdo
- Regenera apenas quando necessário
- Tempos de resposta rápidos (menos de 50ms)
-
Controle de Bots
- Bloqueie rastreadores de IA específicos enquanto permite acesso ao fórum
- Lista separada por vírgulas de user agents para bloquear
- Integração automática com robots.txt via view connector
-
Privacidade e Segurança
- Categorias privadas automaticamente excluídas
- Verificações de permissão do Guardian para arquivos dinâmicos
- Filtragem de segurança no nível do SQL
- Nenhum dado pessoal exposto
Benefícios para o seu fórum:
- Maior Visibilidade: Seu conteúdo aparece em respostas do ChatGPT, Claude e outras IAs
- Atribuição Direta: Sistemas de IA citam e linkam de volta para o seu fórum
- Mais Tráfego: Maior descoberta por meio de buscas impulsionadas por IA
- Melhor GEO: Otimização para Motores Generativos para sistemas de IA
- Sem Manutenção: Geração e atualizações automáticas
Configuração
Após instalar o plugin, navegue até Admin → Configurações → Plugins → discourse-llms-txt-generator
Etapa 1: Ative o plugin
Defina llms_txt_enabled como true (ativado por padrão)
Etapa 2: Configure a indexação
Defina llms_txt_allow_indexing como true para permitir o acesso de rastreadores de IA (ativado por padrão)
Essa configuração controla se os arquivos llms.txt aparecem no seu robots.txt como permitidos ou proibidos.
Etapa 3: Defina filtros de conteúdo
Configure essas configurações com base no tamanho do seu fórum:
llms_txt_min_views: Visualizações mínimas de tópicos para inclusão (padrão: 50)llms_txt_posts_limit: Quantos tópicos incluirsmall: 500 tópicos (recomendado para fóruns grandes)medium: 2.500 tópicos (recomendado para a maioria dos fóruns)large: 5.000 tópicosall: Todos os tópicos (use com cautela em fóruns grandes)
Etapa 4: Opcional - Adicione uma descrição personalizada
Preencha llms_txt_full_description com 2 a 4 frases descrevendo o propósito e a comunidade do seu fórum. Isso ajuda os sistemas de IA a fornecerem informações mais precisas sobre o seu fórum.
Exemplo:
Este fórum é dedicado a discutir programação em Python, com foco em desenvolvimento web,
ciência de dados e aprendizado de máquina. Nossa comunidade inclui iniciantes e desenvolvedores experientes compartilhando soluções práticas e melhores práticas.
Etapa 5: Opcional - Bloqueie bots específicos
Se desejar bloquear certos rastreadores de IA, insira os nomes de seus user agents em llms_txt_blocked_user_agents como uma lista separada por vírgulas:
Exemplo: Omgilibot, ChatGPT-User, CCBot
Etapa 6: Verifique a instalação
Acesse seu fórum em:
/llms.txt- Arquivo de navegação principal/llms-full.txt- Índice de conteúdo completo/sitemaps.txt- Sitemap completo
Verifique seu /robots.txt para confirmar a integração.
Configurações
| Nome | Padrão | Descrição |
|---|---|---|
llms_txt_enabled |
true |
Ativar ou desativar o plugin |
llms_txt_allow_indexing |
true |
Permitir que rastreadores de IA acessem arquivos llms.txt (afeta robots.txt) |
llms_txt_blocked_user_agents |
"" |
Lista separada por vírgulas de user agents de bots para bloquear dos arquivos llms.txt |
llms_txt_intro_text |
Texto personalizado | Texto de introdução que aparece no arquivo llms.txt principal |
llms_txt_full_description |
"" |
Descrição personalizada para llms-full.txt para ajudar a IA a entender o contexto do seu fórum |
llms_txt_min_views |
50 |
Visualizações mínimas de tópicos necessárias para inclusão em llms-full.txt |
llms_txt_posts_limit |
medium |
Limite de contagem de tópicos: small (500), medium (2.500), large (5.000) ou all |
llms_txt_include_excerpts |
false |
Incluir excertos de posts em llms-full.txt (aumenta significativamente o tamanho do arquivo) |
llms_txt_post_excerpt_length |
500 |
Comprimento máximo do excerto em caracteres (100-5000) se excertos estiverem ativados |
llms_txt_latest_topics_count |
50 |
Número de tópicos mais recentes para mostrar no arquivo llms.txt principal |
llms_txt_cache_minutes |
60 |
Duração do cache em minutos para o arquivo de navegação |
Notas importantes:
- Ativar
llms_txt_include_excerptscomllms_txt_posts_limitdefinido comoallpode causar tamanhos de arquivo extremamente grandes (potencialmente 10-100+ MB) e alta carga no servidor em fóruns grandes - Categorias privadas são automaticamente excluídas de todos os arquivos llms.txt
- Arquivos dinâmicos por recurso (categorias, tópicos, tags) não são armazenados em cache e são gerados sob demanda
- O plugin usa view connectors para integração com robots.txt — não é necessário editar manualmente o robots.txt
Detalhes Técnicos
Arquitetura:
- Geração sob demanda sem arquivos pré-gerados
- Cache inteligente com verificações em segundo plano horárias
- Consciente de permissões usando o Guardian do Discourse
- Filtragem de segurança no nível do SQL para conteúdo privado
- URLs canônicos nos cabeçalhos HTTP para evitar penalidades de SEO
Desempenho:
- Arquivo de navegação armazenado em cache por 60 minutos (configurável)
- Arquivo de conteúdo completo gerado sob demanda
- Cache inteligente regenera apenas quando há novo conteúdo
- Tempo de resposta abaixo de 50ms para conteúdo em cache
Compatibilidade:
- Discourse 2.7.0+
- Ruby 2.7+
- Testado no Discourse 3.6.0.beta3
Conformidade com padrões:
- Padrão llms.txt (https://llmstxt.org/)
- RFC 3986 (codificação de URL para caracteres internacionais)
- RFC 6596 (Cabeçalhos de Link Canônico)
Casos de Uso
Fóruns Comunitários:
Suas discussões e soluções aparecem quando os usuários fazem perguntas relevantes a assistentes de IA, direcionando tráfego qualificado de volta para o seu fórum.
Sites de Documentação:
Sistemas de IA podem referenciar sua documentação e tutoriais, fornecendo informações precisas com atribuição adequada.
Fóruns de Suporte:
Os usuários obtêm respostas diretas da sua base de conhecimento por meio de assistentes de IA, com links para discussões completas.
Comunidades Técnicas:
Desenvolvedores descobrem o conteúdo do seu fórum por meio de assistentes de codificação impulsionados por IA, aumentando o engajamento da comunidade.
Manutenção
O plugin requer manutenção mínima:
- O cache é atualizado automaticamente a cada hora
- Atualizações de conteúdo ocorrem automaticamente na criação/edição de posts
- Nenhuma geração manual de arquivos necessária
- Tarefas rake opcionais disponíveis:
llms_txt:refreshellms_txt:check
Solução de Problemas
Arquivos inacessíveis:
- Verifique se
llms_txt_enabledestá comotrue - Confirme que
llms_txt_allow_indexingestá comotrue - Verifique se o plugin está instalado em Admin → Plugins
Conteúdo vazio:
- Certifique-se de ter tópicos públicos com visualizações suficientes (verifique a configuração
llms_txt_min_views) - Verifique se as categorias são públicas (não restritas à leitura)
- Verifique a configuração
llms_txt_posts_limit
Integração com robots.txt não funcionando:
- Limpe o cache do robots.txt:
Rails.cache.delete('robots_txt') - Use a tarefa rake:
bundle exec rake llms_txt:refresh - Reinicie o Discourse:
./launcher restart app
Suporte
- Issues no GitHub: Issues · kaktaknet/discourse-llms-txt-generator · GitHub
Licença
Licença MIT — Software gratuito e de código aberto
Créditos
- Padrão Answer.AI: llms.txt de Jeremy Howard (Answer.AI)
- GitHub Answer.AI: GitHub - AnswerDotAI/llms-txt: The /llms.txt file, helping language models use your website · GitHub
- Plataforma: Discourse

