O público dos fóruns está mudando. Alguns dos seus leitores não são mais leitores de verdade — não no sentido tradicional. Eles são agentes que leem em nome de alguém, resumindo seu conteúdo em uma resposta para uma pessoa que talvez nunca clique no link ou se torne um membro de fato. Seja você um administrador de uma comunidade de suporte a desenvolvedores, um fórum de clientes ou um clube de fãs, seu conhecimento está sendo extraído para respostas de IA neste exato momento.
Pergunta genuína: por que eu deveria deixar que os crawlers de IA inundem meu servidor? Claro que o artigo deixa claro que a escolha sempre será minha, mas, partindo da perspectiva comercial da coisa e usando o Reddit como exemplo de como eles lidam com scraping de IA, quais seriam os benefícios aqui?
Recentemente vi que o Google vai criar páginas personalizadas de acordo com o histórico de seus usuários, ou seja, menos cliques para os webmasters e mais dinheiro para a Alphabet. Então, de novo, qual é o ponto aqui?
Atualmente, eu permito que buscadores e indexadores de cache, como o Wayback Machine, leiam e façam o cache do meu conteúdo, embora eu não consiga visualizar nada senão o fornecimento do conteúdo dos meus usuários para que a Alphabet e companhia monetizem em cima sem que minha comunidade se beneficie de nada, fora que há questões legais como no meu país é o LGDP ou na Europa o GDPR.
Sem dúvida, uma das melhores funcionalidades do Discourse.
Eu me encolho toda vez que procuro por uma URL que retorne dados em qualquer outro site e descubro que não há nenhuma.
Seria ótimo se você pudesse sempre incluir links para suas fontes em afirmações como essa. Isso ajudaria os leitores a verificar os dados
Isso depende do propósito do seu fórum. Se for, por exemplo, um fórum de marca ou de suporte, seu objetivo pode ser simplesmente fornecer uma resposta às pessoas o mais rápido possível. Se o conteúdo for incorporado ao treinamento de IA, isso pode ser benéfico. Esperemos que, se for realmente um problema não resolvido, as pessoas ainda encontrem seu site para perguntar sobre isso, mas isso ainda é desafiador se elas recorrerem primeiro à IA.
Em um contexto mais social, os raspadores de IA são quase inteiramente inúteis, pois você deseja que as pessoas da sua comunidade interajam entre si. Esse pode ser um bom caso para tentar bloqueá-los completamente.
Do meu próprio ponto de vista profissional, trabalhando com IA e SEO, o impacto e a importância do llms.txt ainda não foram comprovados. Recentemente, o Google declarou que não está usando nem dando suporte a ele. Isso não significa que outros agentes também não o farão. Mas é uma nuance que achei importante compartilhar.
Eu simplesmente não permito. É minha opinião pessoal, mas os LLMs sempre foram proibidos de acessar meus sites e sempre serão. Não gosto de doar meu trabalho árduo, seja texto ou código, para raspadores, especialmente os da OpenAI ou Anthropic.
Obviamente, tudo isso é apenas uma preferência pessoal, mas toda essa febre de IA acabaria assim que as pessoas parassem de permitir que essas empresas roubem o conteúdo de seus sites. Talvez a última atualização do Google, contra a qual tantas pessoas se opõem, faça os donos de sites perceberem que, agora, não terão mais nenhum acesso ao seu site.
Infelizmente, não há uma maneira infalível de bloquear os raspadores de LLM se o conteúdo do seu site for publicamente acessível. Muitos deles ignoram o robots.txt e até tentam se passar por visitantes humanos (usando diferentes user agents e endereços IP) para contornar os bloqueios. Espera-se que algum tipo de regulamentação legal possa estabelecer limites para a situação, pois parece que muitas pessoas gostariam de ter a escolha de saber se seu conteúdo é usado dessa forma ou não!