¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

Sí, este es un punto retórico muy amplio y creo que te perdiste la implicación.

Me arriesgaré a decir que tu proceso lógico se llevó a cabo en un momento anterior a la iteración actual de IA/ChatGPT, y ese era el viejo paradigma normal.

Las personas en el mismo espacio hoy tienen este nuevo paradigma que llama la atención y cambia las reglas del juego (IA) que parece prometer un factor X aparentemente infinito en términos de potencial y consecuencias, en igual medida.

Toda la actividad y las suposiciones anteriores que informaron decisiones pasadas se vuelven nulas y sin efecto si la IA ha tenido acceso a todo, y hay suficiente evidencia anecdótica en línea para sugerir que el rastreo de datos para alimentar a la IA ha estado ocurriendo durante 3, tal vez 5 o más años, en el caso de DeepMind, tal vez desde 2014, cuando Google la compró (quizás un análisis forense de muestras de registro podría probar esto, o tal vez se ha ocultado para evitarlo). Si tienes en cuenta que esto es relativamente cierto, puedes ver que el problema es crudo en los tiempos de preparación técnica.

Todo el contenido puede haber sido rastreado y es demasiado tarde, pero he tenido eso en cuenta en mis preocupaciones y representaciones, y solo lo anoto aquí, porque como dije, no hay una solución de máquina del tiempo aquí, solo el poder de la circunspección para informar soluciones presentes y futuras.

Lo siento, no entiendo nada de eso.

La implicación de la pregunta era que ahora hay una nueva y atractiva opción en la ciudad que se considera una solución por encima de todas las demás para muchas necesidades, y esa es la IA (tecnología impulsada por ChatGPT).

¿Estás diciendo que nadie crearía un foro porque los LLM ofrecen a las personas todo lo que desean de los foros? (Por cierto, ese no es el tema de este hilo).

(Si quieres que la gente haga algo por ti, creo que debes ser claro en cuál crees que es el problema y qué crees que pueden hacer por ti. Veo que te importa profundamente, pero no sé qué quieres. Como cualquier persona, tengo tiempo y energía limitados, así que no me esforzaré en descifrar tus pensamientos).

Editar para añadir:
[details=“el resumen actual de “IA” de este hilo, para la posteridad”]

Una discusión en un foro sobre cómo evitar que el contenido de la comunidad se utilice para entrenar modelos de lenguaje como ChatGPT se centra en hacer que el contenido sea privado requiriendo inicio de sesión, bloqueando rastreadores a través de robots.txt o la configuración de usuario de rastreador bloqueado de Discourse, o eliminando el sitio de Internet abierto por completo. Si bien algunos no están de acuerdo con evitar el uso de datos públicos y creen que es una parte inevitable del progreso, otros argumentan que los creadores de contenido deberían tener más control sobre cómo se utiliza su trabajo. La discusión explora los problemas filosóficos en torno a la propiedad de la información y la creatividad, además de proporcionar consejos prácticos para mitigar el uso de datos por parte de los sistemas de IA.
[/details]

4 Me gusta

De repente, hay una nueva razón para no elegir las viejas costumbres que es difícil de resistir para la mayoría.


No soy el OP, pero empatizo aún más con el OP ahora.

  1. Tomar en serio al OP, lo que nadie estaba haciendo,

y

  1. La razón es que, con todos los eventos como este, tienen repercusiones profundamente positivas y negativas, y no creo ni detecto ningún reconocimiento serio de las desventajas, y un sesgo hacia las ventajas percibidas, y por lo tanto no hay actividad para evaluar y mitigar, es decir, apoyar a los afectados, pero a nivel de plataforma.

Una vez más, no soy el OP, pero el problema del OP es el problema de todos los discursos (que son de cara al público). También es una amenaza existencial sistémica para la red, es agnóstica a la plataforma, o

no es más que “juguetes nuevos y geniales” con los que jugar de forma pragmática.

Lo último no es serio en el contexto. Es deliberadamente ciego. Personalmente, me parece irresponsable. Lo que hace que el paradigma de la IA sea aún más peligroso.

Los temas únicos no resolverán esto, es liderazgo. Empecé con @sam y @codinghorror y fue entonces cuando comenzó todo el cataclismo de la moderación, hecho una vez, no abusado, pero ya sabes, otras personas piensan mejor y saben más, esperen hasta que la IA realmente se meta de lleno. :cara derritiéndose:

En resumen: Este problema debe tomarse muy en serio.

Así que puede que necesite su propia categoría. Es así de grande.

Hasta ahora, aparte de la solución que no es una solución sino una interrupción, si la estrategia es cerrar la puerta con - login_required (configuración), entonces en ese escenario, para mitigar los efectos negativos del tráfico, si dependes del tráfico de búsqueda, es tener algo que ver pero no todo.

Frontend de WP / sitio Discourse login_required
(más trabajo, más costos de hosting, soporte, etc.)

Cosas que también ayudarían pero no están diseñadas exactamente con este problema en mente:

Páginas Publicadas si se desarrollan con una página de listado dedicada, algunas opciones para configurar, podrían actuar como una página de destino puente donde los usuarios pueden ver algo de contenido público con una indicación de registro para leer más.

– permitir el listado de páginas publicadas en su propia página /pub (hacer página de inicio)
– permitir páginas publicadas listadas en la página login_require
– permitir categoría personalizada o lo último en la página login_required

Solo encontré Páginas Publicadas hace un par de días como una característica mientras intentaba encontrar una solución a este problema, y recuerdo que incluso antes del dilema de la IA, usuarios anteriores habían solicitado una función de listado similar para las páginas publicadas.

Un tratamiento más configurable y específico de las páginas publicadas es, en mi opinión, más preferible que un complemento completo del frontend de WP, si se necesita resolver algún punto de conexión que esté de cara al público.

Listar solo la primera publicación del tema

Mostrar solo la primera publicación de cualquier tema y requerir inicio de sesión para leer los comentarios. He visto sugerencias similares al menos una vez y se les ha dado pulgar hacia abajo, pero en este contexto requiere una reevaluación.

Considere también estas sugerencias como una lista incompleta, meras curitas para parte del problema, y no para todo.


Mientras tanto, volveré a aterrorizar este tema con un montón de sentimientos :slight_smile: How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

1 me gusta

De tu última respuesta, veo que llegamos más o menos a la misma conclusión de abordar el problema teniendo una mezcla de contenido público y privado. Escribí la publicación a continuación antes de leer tu respuesta. La publicaré de todos modos para intentar ayudar a defender el caso.

Me tomo en serio al OP, tanto porque hace una pregunta legítima como porque puedo compartir una preocupación con su autor sobre cómo los LLM van a afectar a Internet. Si entiendo tus preocupaciones, creo que estoy de acuerdo contigo en que estamos presenciando un cambio fundamental en cómo funciona Internet: en lugar de que la gente visite sitios directamente, los LLM se convertirán en la interfaz de referencia para interactuar con la parte pública de Internet. Hay todo tipo de implicaciones para esto que probablemente no se puedan abordar de manera útil aquí.

Lo que se puede abordar aquí es la cuestión de cómo evitar que el contenido de Discourse se utilice para entrenar LLM. Discourse proporciona varios enfoques posibles.

El primer enfoque es débil: mantener el sitio público e intentar bloquear cualquier agente de usuario que se esté utilizando para extraer datos con la configuración del sitio blocked crawler user agents. Además de hacer esto, podrías involucrarte en desafíos legales contra las empresas tecnológicas que extraen los datos.

El enfoque más sólido es hacer que todo tu sitio, o partes de él, sean privados. Esto se puede hacer con la configuración del sitio login required o con la configuración de seguridad de categorías.

La principal objeción que veo al enfoque anterior es que la gente quiere que sus sitios sean descubribles por los motores de búsqueda. Sospecho que hay formas de abordar esto. La más fácil sería tener un blog público optimizado para SEO, asociado con un foro privado de Discourse. Una solución más compleja sería que Discourse proporcionara funcionalidad que permitiera que parte del OP de un tema fuera público, mientras que el resto del tema solo pudiera ser accedido por miembros de un grupo de Discourse. Esto sería similar a cómo servicios como Substack manejan contenido que solo está disponible para suscriptores de pago: muestran parte del contenido accesible para usuarios anónimos y rastreadores, y luego muestran una llamada a la acción para registrarse:

Así que supongo que, además de mi preocupación por cómo los LLM van a impactar Internet, estoy viendo una oportunidad para explorar nuevas formas de financiar a los creadores de contenido.

7 Me gusta

¿Dónde está esta configuración?

2 Me gusta

Tu pregunta es “¿por qué alguien produciría algo que pudiera ponerse en Internet público?”

Cuando haces la pregunta en Internet público, nadie que comparta tu opinión puede responder a tu pregunta.

6 Me gusta

Este tema es agotador, el resumen basado en IA cubre el tema perfectamente, desplázate hacia arriba y haz clic en él

Cerrando durante los próximos 3 meses

12 Me gusta

Este tema se abrió automáticamente después de 90 días.