Foros que prohíben contenido de IA… ¿Cómo va todo?

Me encantaría conocer las experiencias de los equipos de foros que no permiten contenido generado por IA/LLM. ¿Cómo han logrado comunicar esto a los usuarios? ¿Cómo lo detectan? ¿Cómo abordan a los usuarios que publican este contenido de todas formas?

Cualquier opinión es bienvenida.

Nota: Personalmente, solo me interesa el aspecto humano de las interacciones en el lado del sitio. Asumo que bloquear a los rastreadores (crawlers) es una causa perdida.

Nuestro foro es de discusión espiritual/religiosa. Prohibimos cualquier tipo de contenido generado por IA.

6 Me gusta

La mayoría, si no todas, las texturas generadas por IA se pueden detectar fácilmente solo con leerlas. La SynthID de Google es una tecnología interesante para detectar imágenes generadas por IA y afirma incluso poder detectar texto, probablemente solo escrito por Gemini, pero OpenAI también admite el estándar. Ser capaz de detectar personalmente el texto yo mismo probablemente sea una habilidad adquirida, pero aprecio el trabajo que se está haciendo para responder a la crisis actual que tenemos de no poder detectar imágenes o texto generados por IA.

En mi opinión, silenciar/suspender sigue siendo la mejor opción para esto, especialmente si la cuenta es nueva. Si hay una cuenta nueva aleatoria que se une a tu sitio y publica instantáneamente un tema generado por IA, no veo ninguna razón por la que no debas simplemente suspender la cuenta y bloquearla.

En cuanto al dilema completo del raspado: Mi sitio es para comunicación interna y documentación dentro de una pequeña empresa en este momento y planeo usarlo como un backend para blogs eventualmente. No fue difícil configurar una trampa para disuadir a los rastreadores que optan por ignorar los archivos robotstxt en mis dominios.

Solo esta táctica ha llevado a algún lugar en el orden de 6 MILLONES de solicitudes en el transcurso de dos semanas (aproximadamente 6 reqs/s al dominio):

Cada vez que un rastreador de IA visita dicho sitio, se lo lleva a un laberinto infinito de spam usando el encantador proyecto iocaine autoalojado con un conjunto de datos de aproximadamente ~7000 palabras inventadas, algo de HTML sin sentido, palabras aleatorias y noticias falsas hechas por Llama 8B).

Obviamente, esta es una táctica nuclear de “vete” y no es para todos, pero ha sido excelente para mí en mi objetivo de evitar que los LLM tomen mi código o contenido de texto. Recuerdo haber leído un estudio de caso que Anthropic hizo sobre el envenenamiento de LLM, pero no puedo encontrar el artículo de nuevo, así que no lo adjuntaré aquí, pero seguro que en algún momento necesitan bloquear mi dominio cuando se den cuenta de que el bot ha enviado unos buenos 5 millones de solicitudes a mi dominio recientemente.

4 Me gusta

(Notamos que estamos dejando de lado la cuestión de la carga de los rastreadores, el uso de los rastreadores para obtener contenido para entrenamiento y las consecuencias sociales y económicas del rápido desarrollo actual. Eso es bueno.)

Por mi parte, en un sitio de afición de bajo volumen:

  • estamos tratando de acordar y formular una política por escrito
  • abordamos los problemas a medida que surgen
  • los ejemplos más flagrantes son esencialmente spam, por lo que los eliminamos y prohibimos a los usuarios
  • de lo contrario, les recordamos las normas, quizás en público o en privado, y podemos eliminar publicaciones

Una forma sugerida de orientación podría ser la siguiente:

  • «Apropiarse» del contenido de los mensajes que publicas (es decir, leer y comprender, y no copiar y pegar ciegamente contenido, independientemente de su origen).
  • Intentar responder a tus propias preguntas lo mejor posible primero (por ejemplo, buscando en el foro) antes de iniciar nuevos hilos.
  • Comunicar los detalles de manera concisa para que otros usuarios puedan leer y comprender y así poder ayudar, es decir, evita largos muros de texto repetitivo o irrelevante, o declaraciones demasiado amplias sin información suficiente.
  • Mantén las discusiones centradas en el tema, evita las discusiones meta (especialmente sobre el uso de la IA, ya sea las «mejores prácticas» o la «ética de la misma»).
  • Mantén las conversaciones respetuosas y recuerda que tenemos usuarios con diferentes orígenes, puntos de vista y opiniones.
  • ¡Diviértete! Esto está pensado para ser un pasatiempo.

(En nuestro entorno de pasatiempos, hay un ángulo adicional, que es el uso de LLM dentro del pasatiempo, lo que abarca un espectro de posibilidades y tiene tanto sus entusiastas como sus detractores.)

3 Me gusta