Mejores prácticas para tratar con usuarios spam y publicaciones de respuesta GPT

Contexto: Iniciamos una comunidad hace varios años, justo cuando la pandemia golpeó con fuerza, luego tuvimos que dedicar todos los recursos a otras iniciativas durante varios años. Tuvimos mucha participación y luego, cuando detuvimos la programación y gestión de la comunidad, los foros se detuvieron. Estamos a punto de invertir más tiempo en implementar nuestra estrategia y gestión de la comunidad, ¡así que esta pregunta es la más apremiante!


Ahora mismo nos damos cuenta de que muchos de los usuarios que se unen a la comunidad ahora son:

  1. Se unen para publicar un enlace a su sitio web con enfoque en palabras clave de afiliados y spam.
  2. Se unen y publican lo que parece ser una respuesta/publicación generada por LLM / GPT.

Aquí hay un ejemplo de una publicación que llegó a nuestra cola de moderación ayer:

Nota: El usuario creó su cuenta ese mismo día.

Haz clic para ver una captura de pantalla de la publicación moderada

Nuestro mensaje del sistema de Discourse se envió al usuario:

Haz clic para ver una captura de pantalla del mensaje del SISTEMA enlatado

Esta publicación de un nuevo usuario fue en respuesta a esta publicación de hace 3 años de Chris Anderson.

Cuando lees la publicación moderada del nuevo usuario, está bastante claro que este mensaje no es sincero y es una respuesta generada por GPT o algo similar.

¿Existen formas óptimas de evitar que este tipo de usuarios aparezcan en la comunidad?

¿Hay alguna forma de evitar que los usuarios ingresen respuestas enlatadas de LLM, por la razón egoísta o maliciosa que sea que quieran hacerlo?

¡Cualquier aporte sería genial!

4 Me gusta

¿Con qué frecuencia ocurre esto? Me pregunto si su sitio está siendo atacado específicamente por alguna razón.

Me arriesgo a adivinar que tiene algo que ver con uno o ambos de estos sitios: http://bestpickleballpaddle.com/, https://thepickleballpaddles.com/. (Tenga en cuenta que esos son sitios reales, pero no les demos demasiado tráfico desde aquí).

La motivación más obvia que se me ocurre para generar una publicación como la de su captura de pantalla es obtener cierta confianza en el sitio para poder publicar enlaces de spam en el futuro. Si ese es el problema, podría valer la pena cambiar el valor de la configuración mínima confianza para publicar enlaces de su sitio del valor predeterminado de nivel de confianza 0 a nivel de confianza 1 o 2. Si hay dominios que le gustaría permitir que los usuarios de cualquier nivel de confianza publiquen, podría agregar esos dominios a la configuración del sitio dominios de enlaces permitidos.

Solo estoy lanzando ideas, pero me pregunto si, en lugar de esforzarse mucho por detectar contenido generado por LLM, sería mejor tratar de reducir la motivación para crear ese tipo de publicaciones en primer lugar. Mi preocupación es que el contenido generado por LLM será cada vez más difícil de detectar con el tiempo. Identificar falsamente contenido como generado por un LLM podría convertirse en un problema.

Otro enfoque que podría ser útil en algunos casos sería utilizar la membresía en una organización o la actividad en otra plataforma como criterio para crear una cuenta de Discourse, o como criterio para obtener un nivel de confianza que permita publicar enlaces en un sitio de Discourse. Por ejemplo, su formulario de registro tiene un campo opcional que pregunta por el Nivel de Clasificación USAPA del usuario. Si la membresía en la USAPA otorga a los miembros una página de perfil en su sitio, podría hacer que la membresía en la USAPA sea un requisito para registrarse en su sitio al tener “Enlace de Perfil USAPA” como un campo requerido en su formulario de registro. Luego, podría habilitar la configuración del sitio de Discourse debe aprobar usuarios y solo aprobar a los usuarios después de haber confirmado su membresía en la USAPA. Otra posibilidad sería que Discourse pudiera agregar una función que permitiera limitar el nivel de confianza de un usuario según un criterio personalizado. Por ejemplo, no permitir que un usuario progrese más allá del nivel de confianza 1 hasta que se confirme su membresía en la USAPA.

Solo estoy usando la membresía de la USAPA como ejemplo aquí. Puedo entender por qué podría no querer requerir membresía de la USAPA para los usuarios de su sitio. La idea de establecer confianza a través de la membresía o la actividad en otro sitio está relacionada con el complemento que se está discutiendo aquí: $10k Bounty: Gitcoin Passport plug-in for Discourse.

6 Me gusta

Exactamente.

Casi con toda seguridad tiene que haber alguna agenda, aunque aún no sea obvia.

Recientemente tuve un usuario que fue bastante convincente y llegó hasta el Nivel de Confianza 2 antes de ser descarado con la promoción de su producto, habiendo solo insinuado originalmente.

La configuración de enlaces de nivel de confianza es útil y las cuentas dudosas comenzarán a sugerir a las personas que busquen xyz en Google en lugar de poder publicar enlaces: otra señal de alerta.

A veces, solo tienes que esperar hasta que la cantidad de evidencia se acumule lo suficiente como para estar seguro de prohibir una cuenta.

Desafortunadamente, retrasar la acción significa que la operación de limpieza requiere más trabajo más adelante.

4 Me gusta

¿Hay una verificación de “se escribió sospechosamente rápido” de copiar y pegar? A menos que todo fuera un robot diseñado para escribir lentamente para imitar a un humano…

Así que (si entiendo bien) lo bueno aquí es que esta persona fue atrapada por la infraestructura existente. Molestando al personal, pero no a los usuarios.

Creo que Simon dio en el clavo aquí:

Me interesaría saber cuánto está sucediendo esto. El hecho de que esta persona haya configurado un avatar relevante, con un nombre de usuario relevante, en un foro relevante… me lleva a suponer que esto es parcialmente algo humano.
¿Podría ser solo un pasante de marketing demasiado entusiasta?

1 me gusta

He tenido un problema similar. La parte infractora está actualmente suspendida. Hay sitios web que pueden ayudar a identificar texto generado por IA, lo cual es útil, pero no es una solución a largo plazo. – La IA seguirá mejorando hasta que no haya forma de distinguir la diferencia.

Sin embargo, Randall Munroe sugiere que puede ser un problema que se resuelve solo.

3 Me gusta

Para tu información

Soy moderador de categoría en el foro de Discourse de OpenAI (ref) (no soy empleado de OpenAI), así que veo los comentarios en el foro sobre los cambios de ChatGPT con el tiempo (ref) y, aunque en general tu afirmación es correcta, solo añado algo de claridad con respecto a ChatGPT.

Desde que ChatGPT estuvo disponible y durante muchos meses sus habilidades mejoraron, las respuestas eran

  • más coherentes
  • en acuerdo con la indicación (prompt)
  • más concisas, de menor longitud

Luego se realizó un cambio que resultó en respuestas que eran

  • menos coherentes
  • menos en acuerdo con la indicación (prompt)
  • menos concisas y de mayor longitud

Muchos usuarios en el foro notaron que era como si ChatGPT hubiera sido revertido a una versión anterior hace unos meses. Aquellos que usan ChatGPT para crear código, un caso de uso que yo también uso con ChatGPT, lo notaron más pronunciado ya que aparecían más errores de sintaxis con el cambio.

Así que la idea a tener en cuenta es que si estás intentando identificar contenido generado por ChatGPT, es un objetivo en movimiento y no siempre está mejorando. Como programador, si estuviera intentando identificar contenido generado por ChatGPT, esto sería de valor.

Además, no tengo ningún conocimiento interno por ser moderador del sitio, ya que no soy empleado de OpenAI, así que si oyes hablar de herramientas que incrustan información para hacer que dicho contenido de ChatGPT sea identificable, no puedo proporcionar información al respecto.



Para aquellos que no usan ChatGPT, aquí hay un ejemplo simple usando el texto anterior.

Ejemplo (Haz clic en el triángulo para expandir)

ChatGPT Versión 20 de Julio
Indicación (Prompt)

Revisa, usa un tono agradable, sé conciso.

FYI

Soy moderador de categoría en el foro de Discourse de OpenAI (ref) así que veo los comentarios en el foro sobre los cambios de ChatGPT con el tiempo (ref) y aunque en general tu afirmación es correcta, solo añado algo de claridad.

Desde que ChatGPT estuvo disponible y durante muchos meses sus habilidades mejoraron, las respuestas eran

  • más coherentes
  • en acuerdo con la indicación (prompt)
  • más concisas, de menor longitud

Luego se realizó un cambio que resultó en respuestas que eran

  • menos coherentes
  • menos en acuerdo con la indicación (prompt)
  • menos concisas y de mayor longitud

Muchos usuarios en el foro notaron que era como si ChatGPT hubiera sido revertido a una versión anterior hace unos meses. Aquellos que usan ChatGPT para crear código, un caso de uso que yo también uso con ChatGPT, lo notaron más pronunciado ya que aparecían más errores de sintaxis con el cambio.

Así que la idea a tener en cuenta es que si estás intentando identificar contenido generado por ChatGPT, es un objetivo en movimiento y no siempre está mejorando. Como programador, si estuviera intentando identificar contenido generado por ChatGPT, esto sería de valor.

Además, no tengo ningún conocimiento interno por ser moderador del sitio, ya que no soy empleado de OpenAI, así que si oyes hablar de herramientas que incrustan información para hacer que dicho contenido de ChatGPT sea identificable, no puedo proporcionar información al respecto.


**Respuesta**

Para tu información,

Quiero aclarar algunos puntos importantes sobre los cambios en ChatGPT a lo largo del tiempo. Como moderador de categoría en el foro de Discourse de OpenAI, he estado observando de cerca los comentarios de la comunidad sobre el desarrollo de ChatGPT ([ref](https://community.openai.com/about)).

Inicialmente, después de su lanzamiento, ChatGPT mostró una mejora constante en sus habilidades durante varios meses. Las respuestas se volvieron más coherentes, se alinearon mejor con las indicaciones dadas y se hicieron más concisas y breves.

Sin embargo, hubo una actualización posterior que resultó en algunos contratiempos. Los usuarios notaron que las respuestas se volvieron menos coherentes, menos alineadas con las indicaciones y más largas. Esto llevó a comparaciones con una versión anterior de ChatGPT, que parecía ser un paso atrás. En particular, aquellos que usan ChatGPT para la generación de código experimentaron un impacto más pronunciado, ya que notaron un aumento en los errores de sintaxis con el cambio.

Es esencial comprender que identificar el contenido generado por ChatGPT se ha convertido en un objetivo en movimiento. Si bien mejoraba constantemente antes, ahora no siempre es así. Como programador, encuentro esta información valiosa, especialmente cuando intento distinguir entre contenido generado por humanos y por IA.

Debo aclarar que, a pesar de ser moderador del sitio, no soy empleado de OpenAI y no poseo ningún conocimiento interno. Por lo tanto, si existen herramientas o métodos desarrollados para identificar contenido de ChatGPT, no puedo proporcionar información al respecto.

Gracias por su atención y espero que esta aclaración ayude a comprender el estado actual del desarrollo de ChatGPT.

Saludos cordiales,

[Tu Nombre]

2 Me gusta

Para tu información

Acabo de ver esto OpenAI cierra silenciosamente su herramienta de detección de IA y lo he confirmado aquí

*A partir del 20 de julio de 2023, el clasificador de IA ya no está disponible debido a su baja tasa de precisión. Estamos

3 Me gusta

@EricGT ¡Excelentes puntos! Sí, definitivamente es un objetivo en movimiento. No me preocupa ChatGPT en particular. El gato está fuera del saco, por así decirlo, y creo que es solo cuestión de tiempo antes de que alguien sin escrúpulos use la tecnología de una manera deliberadamente dañina. :cry:

2 Me gusta

Sí, esto (incluyendo la promoción encubierta sin URL) así como las URL y la publicidad que pueden agregar a sus perfiles, ya sea para respuesta directa o SEO. En otros casos, para cultivar cuentas para spam por DM. Estos son los casos principales, hasta donde sé.