Discourse está listo para agentes: así es como

La audiencia de los foros está cambiando. Algunos de sus lectores ya no son realmente lectores, al menos no en el sentido tradicional. Son agentes que leen en nombre de alguien, resumiendo su contenido para ofrecer una respuesta a una persona que quizás nunca haga clic ni llegue a ser un miembro real. Ya sea que gestione una comunidad de soporte para desarrolladores, un foro de atención al cliente o un club de fans, su conocimiento se está incorporando a respuestas de IA en este mismo momento.


Este es un tema de discusión complementario para la entrada original en https://blog.discourse.org/2026/05/discourse-is-agent-ready-heres-how/
6 Me gusta

Pregunta genuina: ¿por qué debería permitir que los rastreadores de IA saturen mi servidor? Por supuesto, el artículo deja claro que la decisión siempre será mía, pero, desde una perspectiva comercial y tomando a Reddit como ejemplo de cómo manejan el scraping de IA, ¿cuáles serían los beneficios aquí?

Recientemente vi que Google va a crear páginas personalizadas según el historial de sus usuarios, es decir, menos clics para los webmasters y más dinero para Alphabet. Entonces, de nuevo, ¿cuál es el punto aquí?

Actualmente, permito que buscadores e indexadores de caché, como Wayback Machine, lean y almacenen en caché mi contenido, aunque no puedo ver nada más que el suministro del contenido de mis usuarios para que Alphabet y compañía lo moneticen sin que mi comunidad se beneficie en absoluto, además de que existen cuestiones legales como la LGPD en mi país o el GDPR en Europa.

2 Me gusta

Esto parece haber sido escrito por una IA para foros distintos de Discourse:

2 Me gusta

¡Gracias por la lectura tan interesante!

Sin duda, una de las mejores características de Discourse.
Me estremezco cada vez que busco una URL que devuelva datos en cualquier otro sitio web y descubro que no existe ninguna.

Sería genial si siempre pudieras incluir enlaces a tus fuentes para afirmaciones como esta. Ayudaría a los lectores a verificar los datos :slight_smile:

2 Me gusta

Depende del propósito de tu foro; si es, por ejemplo, un foro de marca o de soporte, tu objetivo podría ser simplemente brindar una respuesta a las personas lo más rápido posible. Si el contenido se incorpora al entrenamiento de IA, eso podría ser beneficioso. Ojalá que, si se trata realmente de un problema sin resolver, la gente aún llegue a tu sitio para preguntarlo, pero esto sigue siendo un desafío si primero recurren a la IA.

En un contexto más social, los raspadores de IA son casi totalmente inútiles, porque lo que deseas es que las personas de tu comunidad interactúen entre sí. Ese podría ser un buen caso para intentar bloquearlos por completo.

4 Me gusta

Desde mi propia perspectiva profesional, trabajando con IA y SEO, el impacto y la importancia de llms.txt aún no han sido demostrados. Recientemente, Google declaró que no lo está utilizando ni apoyando. Esto no significa que otros agentes no lo hagan. Pero es un matiz que pensé que valía la pena compartir.

3 Me gusta

Simplemente no lo hago. Es mi opinión personal, pero los LLM siempre han estado prohibidos para visitar mis sitios web y siempre lo estarán. No me gusta donar mi trabajo duro, ya sea texto o código, a los scrapers, especialmente los de OpenAI o Anthropic.

La mayoría de mis dominios tienen archivos como este en ellos:
https://pyxfluff.dev/robots.txt
https://pyxfluff.dev/llms.txt

Obviamente, todo esto es solo una preferencia personal, pero toda esta locura de la IA terminaría una vez que la gente deje de permitir que estas empresas roben el contenido de sus sitios web. Tal vez la última actualización de Google, contra la que tanta gente se opone, haga entrar en razón a los propietarios de sitios web que ahora ya no tendrán visitas a sus sitios.

5 Me gusta

Desafortunadamente, no hay una forma infalible de bloquear los rastreadores de LLM si el contenido de tu sitio es de acceso público; muchos de ellos ignorarán robots.txt e incluso intentarán hacerse pasar por visitantes humanos (usando diferentes agentes de usuario y direcciones IP) para eludir los bloqueos. Esperemos que algún tipo de regulación legal pueda establecer límites a esta situación, ¡porque parece que mucha gente gustaría tener la opción de decidir si su contenido se utiliza de esta manera o no!

5 Me gusta