Discourse está listo para agentes: así es como

Discourse · 22 Mayo, 2026 03:12

La audiencia de los foros está cambiando. Algunos de sus lectores ya no son realmente lectores, al menos no en el sentido tradicional. Son agentes que leen en nombre de alguien, resumiendo su contenido para ofrecer una respuesta a una persona que quizás nunca haga clic ni llegue a ser un miembro real. Ya sea que gestione una comunidad de soporte para desarrolladores, un foro de atención al cliente o un club de fans, su conocimiento se está incorporando a respuestas de IA en este mismo momento.

Este es un tema de discusión complementario para la entrada original en https://blog.discourse.org/2026/05/discourse-is-agent-ready-heres-how/

eisammy · 22 Mayo, 2026 13:20

Pregunta genuina: ¿por qué debería permitir que los rastreadores de IA saturen mi servidor? Por supuesto, el artículo deja claro que la decisión siempre será mía, pero, desde una perspectiva comercial y tomando a Reddit como ejemplo de cómo manejan el scraping de IA, ¿cuáles serían los beneficios aquí?

Recientemente vi que Google va a crear páginas personalizadas según el historial de sus usuarios, es decir, menos clics para los webmasters y más dinero para Alphabet. Entonces, de nuevo, ¿cuál es el punto aquí?

Actualmente, permito que buscadores e indexadores de caché, como Wayback Machine, lean y almacenen en caché mi contenido, aunque no puedo ver nada más que el suministro del contenido de mis usuarios para que Alphabet y compañía lo moneticen sin que mi comunidad se beneficie en absoluto, además de que existen cuestiones legales como la LGPD en mi país o el GDPR en Europa.

Lilly · 22 Mayo, 2026 13:22

Esto parece haber sido escrito por una IA para foros distintos a Discourse:

Esto es confuso. ¿Fue revisado por un miembro humano del personal?

Canapin · 22 Mayo, 2026 13:37

¡Gracias por la lectura tan interesante!

Sin duda, una de las mejores características de Discourse.
Me estremezco cada vez que busco una URL que devuelva datos en cualquier otro sitio web y descubro que no existe ninguna.

Sería genial si siempre pudieras incluir enlaces a tus fuentes para afirmaciones como esta. Ayudaría a los lectores a verificar los datos

awesomerobot · 22 Mayo, 2026 13:52

Depende del propósito de tu foro; si es, por ejemplo, un foro de marca o de soporte, tu objetivo podría ser simplemente brindar una respuesta a las personas lo más rápido posible. Si el contenido se incorpora al entrenamiento de IA, eso podría ser beneficioso. Ojalá que, si se trata realmente de un problema sin resolver, la gente aún llegue a tu sitio para preguntarlo, pero esto sigue siendo un desafío si primero recurren a la IA.

En un contexto más social, los raspadores de IA son casi totalmente inútiles, porque lo que deseas es que las personas de tu comunidad interactúen entre sí. Ese podría ser un buen caso para intentar bloquearlos por completo.

Orioni · 22 Mayo, 2026 14:34

Desde mi propia perspectiva profesional, trabajando con IA y SEO, el impacto y la importancia de llms.txt aún no han sido demostrados. Recientemente, Google declaró que no lo está utilizando ni apoyando. Esto no significa que otros agentes no lo hagan. Pero es un matiz que pensé que valía la pena compartir.

darkpixlz · 22 Mayo, 2026 18:27

Simplemente no lo hago. Es mi opinión personal, pero los LLM siempre han estado prohibidos para visitar mis sitios web y siempre lo estarán. No me gusta donar mi trabajo duro, ya sea texto o código, a los scrapers, especialmente los de OpenAI o Anthropic.

La mayoría de mis dominios tienen archivos como este en ellos:
https://pyxfluff.dev/robots.txt
https://pyxfluff.dev/llms.txt

Obviamente, todo esto es solo una preferencia personal, pero toda esta locura de la IA terminaría una vez que la gente deje de permitir que estas empresas roben el contenido de sus sitios web. Tal vez la última actualización de Google, contra la que tanta gente se opone, haga entrar en razón a los propietarios de sitios web que ahora ya no tendrán visitas a sus sitios.

awesomerobot · 22 Mayo, 2026 18:42

Desafortunadamente, no hay una forma infalible de bloquear los rastreadores de LLM si el contenido de tu sitio es de acceso público; muchos de ellos ignorarán robots.txt e incluso intentarán hacerse pasar por visitantes humanos (usando diferentes agentes de usuario y direcciones IP) para eludir los bloqueos. Esperemos que algún tipo de regulación legal pueda establecer límites a esta situación, ¡porque parece que mucha gente gustaría tener la opción de decidir si su contenido se utiliza de esta manera o no!

ted · 24 Mayo, 2026 12:21

Teniendo en cuenta que regulaciones legales existentes, como las licencias y los derechos de autor, han sido completamente ignoradas, no esperaría demasiado :sweat_smile. Incluso si una empresa como Google es demandada en una acción colectiva y multada con decenas de miles de millones, sigue siendo una gota en el océano en comparación con los cientos de miles de millones que han invertido en modelos de lenguaje grandes (LLM). La dinámica de la ley de potencias de «el ganador se lleva casi todo» hace que el delito sea extremadamente rentable para estas empresas.

Eviepayne · 24 Mayo, 2026 22:08

Creo que incluir Anubis como un captcha compatible debería venir con esta actualización.

Tema		Respuestas	Vistas
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	69	4840	16 Julio 2023
AI Citations - Does Discourse allow AI bot crawling? Support	10	253	12 Agosto 2025
SEO for AI: How Community Content Wins in New Search Blog	6	632	8 Septiembre 2025
How do you use Discourse AI? Tell us and make it even better! Feature feedback , ai	20	2643	2 Marzo 2025
I populated my (mostly-dead) Discourse forum with bots! General show-and-tell	15	510	3 Mayo 2026

Discourse está listo para agentes: así es como

Temas relacionados