Foros que prohíben contenido de IA... ¿Cómo va todo?

Me encantaría conocer las experiencias de los equipos de foros que no permiten contenido generado por IA/LLM. ¿Cómo han logrado comunicar esto a los usuarios? ¿Cómo lo detectan? ¿Cómo abordan a los usuarios que lo publican de todas formas?

Cualquier opinión es bienvenida.

1 me gusta

La mayoría, si no todas, las texturas generadas por IA se pueden detectar fácilmente solo con leerlas. La SynthID de Google es una tecnología interesante para detectar imágenes generadas por IA y afirma incluso poder detectar texto, probablemente solo escrito por Gemini, pero OpenAI también admite el estándar. Ser capaz de detectar personalmente el texto yo mismo probablemente sea una habilidad adquirida, pero aprecio el trabajo que se está haciendo para responder a la crisis actual que tenemos de no poder detectar imágenes o texto generados por IA.

En mi opinión, silenciar/suspender sigue siendo la mejor opción para esto, especialmente si la cuenta es nueva. Si hay una cuenta nueva aleatoria que se une a tu sitio y publica instantáneamente un tema generado por IA, no veo ninguna razón por la que no debas simplemente suspender la cuenta y bloquearla.

En cuanto al dilema completo del raspado: Mi sitio es para comunicación interna y documentación dentro de una pequeña empresa en este momento y planeo usarlo como un backend para blogs eventualmente. No fue difícil configurar una trampa para disuadir a los rastreadores que optan por ignorar los archivos robotstxt en mis dominios.

Solo esta táctica ha llevado a algún lugar en el orden de 6 MILLONES de solicitudes en el transcurso de dos semanas (aproximadamente 6 reqs/s al dominio):

Cada vez que un rastreador de IA visita dicho sitio, se lo lleva a un laberinto infinito de spam usando el encantador proyecto iocaine autoalojado con un conjunto de datos de aproximadamente ~7000 palabras inventadas, algo de HTML sin sentido, palabras aleatorias y noticias falsas hechas por Llama 8B).

Obviamente, esta es una táctica nuclear de “vete” y no es para todos, pero ha sido excelente para mí en mi objetivo de evitar que los LLM tomen mi código o contenido de texto. Recuerdo haber leído un estudio de caso que Anthropic hizo sobre el envenenamiento de LLM, pero no puedo encontrar el artículo de nuevo, así que no lo adjuntaré aquí, pero seguro que en algún momento necesitan bloquear mi dominio cuando se den cuenta de que el bot ha enviado unos buenos 5 millones de solicitudes a mi dominio recientemente.

2 Me gusta