¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

StephaneFe · 13 Mayo, 2023 18:58

Las soluciones de GPT y otros LLM necesitan un conjunto de datos de entrenamiento. ¿Cómo evitar que el contenido de nuestras comunidades se utilice para entrenar dichos modelos? ¿Deberíamos añadir algo a nuestras condiciones de uso?

Pensé en esto después de leer que Reddit haría algunos cambios para evitar que los modelos se entrenaran con sus datos sin recibir pago:

https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html

Jagster · 13 Mayo, 2023 19:13

¿Esos proyectos utilizan rastreadores que indican algún user agent?

merefield · 13 Mayo, 2023 19:30

¿Realmente importará cuando haya 10 proveedores diferentes para elegir a precio de coste?

Aprender de las obras colectivas de la humanidad parecería bastante justo: es lo que los humanos hacen todo el tiempo, así que ¿por qué no las máquinas?

¿Reddit cobra a los humanos por las cosas que aprenden en Reddit?

Esto huele a especulación por parte de Reddit.

Y no entremos en el hecho de que todo el contenido de Reddit ha sido proporcionado gratuitamente por los usuarios, así que ¿por qué Reddit no debería pagar a sus usuarios?

pfaffman · 14 Mayo, 2023 00:18

Eso parece más bien “si puedo leer un libro que saco de la biblioteca, ¿por qué no puedo copiarlo y vender copias a otras personas?” que “si puedo aprender de un libro, ¿no puede hacerlo una computadora?”. Quizás soy viejo, pero no estoy listo para pensar que un montón de computadoras ejecutando un programa es lo mismo que una persona.

Pero también creo que ya existen medidas para evitar el scraping a gran escala. O tal vez los sitios de indexación para motores de búsqueda son scraping.

Son tiempos interesantes.

Jagster · 14 Mayo, 2023 06:05

Bueno, en el mundo humano no está ampliamente aceptado que alguien entre en las casas y lugares de trabajo de otros, copie todo y luego recree todo para su propio beneficio para ganar dinero.

Esta no es una pregunta fácil. Hay una pregunta moral, ética y financiera muy grande que se puede resumir en dos: ¿son las patentes y los derechos de autor propiedad virtual aceptable o no?

Para mí, este es un problema bastante fácil, sin embargo. Quizás porque soy un pez muy pequeño y básicamente de mente simple. Tan pronto como tengo que pagar por el negocio de alguien que quiere venderme algo de vuelta, estoy en contra. Por eso odio tanto todo el tráfico de bots.

De nuevo: la pregunta de la IA es mucho más grande que ChatGPT. Y lo sé y lo entiendo. Pero, ¿por qué debería pagar cuando se enseña a los modelos de lenguaje?

Dato curioso muy conocido de ChatGPT

En el mundo finlandés, soy un gran influyente cuando el tema es la alimentación de perros. He hecho esto con timidez durante más de 30 años y he creado muchos textos públicos. De hecho, mi sitio es el sitio informativo más grande (¡y me gustaría decir el más importante! ) en finlandés.

Si pregunto algo sobre nutrición canina en inglés, ChatGPT me da teorías de barf antiguas y ampliamente inexactas. Si hago la misma pregunta en finlandés, obtendré mis propios textos.

Eso sucede porque la forma de aprendizaje de ChatGPT sigue el pensamiento de que un millón de moscas no pueden estar equivocadas.

merefield · 14 Mayo, 2023 08:01

Porque no es una copia literal.

Nadie le cobra a nadie por leer un libro sobre el comunismo en una biblioteca y luego ir a un programa de entrevistas político abogando por el comunismo.

Los bots están aprendiendo patrones de manera similar a como lo hacemos nosotros.

Además, en un tribunal de justicia, sin haber supervisado el proceso de aprendizaje, ¿cómo sabrías si lo ha hecho o no?

En la ley de derechos de autor, es ciertamente sencillo demostrar si alguien ha copiado tu trabajo, pero aquí ni se copia ni es fácil demostrar que has tenido acceso.

¿Hay algo verdaderamente novedoso en Reddit en cualquier caso?!?

satonotdead · 14 Mayo, 2023 08:56

Lo siento, pero no lo creo. La IA recuerda patrones y establece algunas relaciones, pero no puede intuir, sentir o crear de verdad.

La IA no piensa de la manera adecuada como los humanos y no registra el tiempo, los sentimientos ni la vida.

Por cierto, estoy de acuerdo con el resto de tu punto de vista. La colaboración, más el descubrimiento y el intercambio de casos de uso, es bueno para todos (al menos para no ser desplazado, lo que parece ser inevitable para las personas que no aprenden a sentir, intuir o crear).

La situación general me recuerda a la Revolución Industrial y a algunas películas distópicas

merefield · 14 Mayo, 2023 08:59

Voy a discrepar contigo, porque no estás captando mi punto.

Mi uso del término “similar” estaba justificado porque están desarrollando formas de identificar cosas por características al igual que los humanos, en lugar de copiar los datos textualmente y almacenarlos: es esa distinción la que estoy señalando y es una distinción crítica, tanto lógica como potencialmente legal.

Los sentimientos y las emociones son irrelevantes para la discusión aquí: el tema es el almacenamiento y la reproducción del conocimiento. Y sobre ese tema, la IA casi con certeza está utilizando técnicas similares a las del cerebro humano para entrenarse y luego usar ese modelo.

Y así es como se desarrollaron las cosas en este ámbito: crearon modelos que eran una aproximación de cómo parecían funcionar las redes neuronales en nuestros cerebros y luego las escalaron. Y he aquí que empezó a comportarse de forma muy similar a un humano, más que cualquier modelo de lenguaje natural que haya existido. Esto demuestra mi punto.

satonotdead · 14 Mayo, 2023 09:10

Eso es imposible cuando se relaciona con humanos

(Y probablemente eso motivó al OP)

Todavía podemos estar en desacuerdo y no fui más allá. Te respeto y solo comparto mis puntos de vista.

merefield · 14 Mayo, 2023 09:13

Estás argumentando que un Rolls Royce es un coche mejor, pero sigue siendo un coche.

La IA ha llegado al punto en que se comporta de manera muy similar a un humano. Está surgiendo un comportamiento muy sofisticado, pero eso no es una casualidad, porque los científicos han intentado copiar las técnicas de aprendizaje humano.

Por supuesto, hay otras capas a considerar y las emociones son solo una (otra enorme es el concepto de ‘ego’ y la importancia de la información sensorial similar a la humana, incluso la vestibular, que se considera fundamental para la percepción del ‘ego’), pero esto no altera el argumento aquí en mi humilde opinión.

satonotdead · 14 Mayo, 2023 09:16

No, solo dije que la IA no puede aprender como los humanos (actuar como no es aprender como). Eso no es ni remotamente posible y creo que es importante tenerlo en cuenta.

Entonces estoy de acuerdo en que los datos públicos son públicos. Y para mí está súper bien tener diferencias, eso nos hace humanos (y no IA)

merefield · 14 Mayo, 2023 09:18

Esto es simplemente erróneo, en mi humilde opinión.

Los avances que hemos logrado en este campo se deben casi con toda seguridad a que la IA está aprendiendo (más) como los humanos.

satonotdead · 14 Mayo, 2023 09:23

Solo en la capa conceptual, ¡hay mucho más!

@StephaneFe ¿puedo preguntar por qué buscas limitar el ‘proceso de entrenamiento de IA’? (Eso es empatía humana )

merefield · 14 Mayo, 2023 09:25

¿Nunca afirmé que no había mucho (!), ¿verdad?

Solo estoy haciendo una distinción central:

Que la IA aprende de características (como nosotros) y no copia información exacta. Está aprendiendo a generalizar y no a depender de detalles completos para hacer distinciones.

Debido a eso, no tiene que almacenar obras completas en alta definición y palabra por palabra.

Sin duda, hay muchas otras técnicas de aprendizaje que aún no se han incorporado, pero esta técnica sí se ha incorporado.

StephaneFe · 14 Mayo, 2023 09:33

¿Podemos centrarnos en el cómo y no en el porqué?

El tema no es discutir si esto está justificado o no para evitar que se utilicen nuestros datos, sino cómo hacerlo.

¿Existen formas eficaces de prevenir el scraping en general? Por ejemplo, ¿requerir el inicio de sesión para acceder a la mayoría del contenido?

merefield · 14 Mayo, 2023 09:39

Creo que moral y técnicamente está justificado.

De hecho, me parece abominable que las canciones de jazz escritas en la década de 1930 estén sujetas a derechos de autor, cuando se podría argumentar que muchas características de la música son fenómenos inherentemente humanos que nadie debería poseer: tomemos el ejemplo del “círculo de quintas”, esta es una estructura implícita en la música que ayuda a formar muchas canciones, desde sencillas canciones de rock de 3 acordes de los años 50 hasta melodías de jazz muy sofisticadas.

Y como he sugerido, no estamos hablando de almacenar y regurgitar material con derechos de autor aquí textualmente.

¡Es ridículo impedir que la IA utilice características de la música como el círculo de quintas solo porque la mayoría de la música está sujeta a derechos de autor!

Se podría argumentar que los autores de esa música se beneficiaron enormemente de la condición humana y ya han obtenido grandes beneficios. Me confunde por qué un bisnieto debería ganar dinero con la obra de su antepasado, que a su vez se basa en el conocimiento general.

JammyDodger · 14 Mayo, 2023 10:27

Me temo que no soy un experto en esto, pero no creo que los rastreadores puedan acceder al contenido si un sitio no es visible públicamente, por lo que si esa es una opción para usted, puede ser la forma más efectiva.

mattdm · 15 Mayo, 2023 03:43

Esto no es para nada así. Estas herramientas están inspiradas en algunos aspectos por conceptos neuronales biológicos, pero en su implementación real no son funcionalmente similares. Esto puede sonar quisquilloso, pero creo que es muy importante, porque el argumento parece filosóficamente convincente. Las analogías pueden ser muy peligrosas de esa manera.

Aquí hay algunas formas específicas en que las redes neuronales computacionales no están “aprendiendo patrones de una manera similar a como lo hacemos nosotros”.

Nuestras neuronas están conectadas localmente y multidimensionalmente, con algunos cúmulos densos y otros menos conectados; las redes neuronales suelen organizarse en capas, y cada capa está completamente interconectada o es una capa “convolucional” diseñada intencionalmente.
Los cerebros biológicos operan asincrónicamente, con neuronas disparando a diferentes ritmos, y con la propia frecuencia transportando información. Las redes neuronales son básicamente operaciones masivamente paralelas. (Es por eso que son tan adecuadas para la computación GPGPU).
Las neuronas son responsables tanto de la computación como de la memoria. No hay almacenamiento o recuperación separada, ni ejecución de funciones. Esto por sí solo crea un tipo de sistema de procesamiento muy diferente.
Curiosamente: la comunicación cerebral es más binaria que lo que hacemos con las computadoras: una neurona dispara o no, mientras que una “neurona artificial” generalmente recibe y emite rangos de valores continuos (representados como punto flotante). (Nuevamente, esto no es un procesamiento de ninguna manera similar a como entendemos que funcionan los cerebros).
El aprendizaje funciona de manera diferente: en el aprendizaje humano, las conexiones realmente cambian. (No entendemos esto muy bien). En una red neuronal, la arquitectura se elige y se fija, y el “aprendizaje” es una cuestión de ajustar pesos. (Irónicamente, tampoco entendemos esto muy bien, realmente).

Esta también es una lectura realmente útil: What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings

mattdm · 15 Mayo, 2023 04:14

Específicamente, ciertamente no está aprendiendo a generalizar. En cambio, está creada para que tenga la capacidad de producir respuestas que parecen generalizar.

Pero en realidad no puede generalizar en absoluto.

Un ejercicio interesante con ChatGPT es preguntarle sobre la multiplicación. Afirmará con seriedad que comprende el algoritmo de la multiplicación larga. De hecho, si le pides que multiplique números de dos o tres dígitos, probablemente (¡pero no con certeza!) dará la respuesta correcta. Pero luego prueba con números de cinco o seis dígitos. Dará respuestas que parecen tener el número correcto de dígitos, pero que en realidad no serán correctas.

Si le pides que explique, dirá que siguió un algoritmo, y si le pides que muestre su trabajo, lo hará, y será un sinsentido que tiene la forma de la respuesta correcta. Probablemente incluso encontrarás, en los pasos, una multiplicación de un solo dígito completamente incorrecta. En realidad, no “sabe” que estos pasos son lo mismo que la multiplicación de un solo dígito que acaba de hacer con confianza hace unos minutos, porque en realidad no ha generalizado nada de eso.

Y las matemáticas no tienen nada de especial aquí. Es solo una forma fácil de correr un poco el telón. Lo mismo ocurre básicamente al intentar que escriba un poema.

¡No me malinterpretes! Creo que podemos hacer cosas asombrosas con la IA incluso como existe hoy. Pero por favor, no basemos nuestras políticas en analogías.

Jagster · 15 Mayo, 2023 06:07

No, no lo están. Están aprendiendo probabilidades de cómo las palabras se conectan entre sí. Y eso lleva a copiar y pegar de facto.

Nosotros estamos aprendiendo a procesar conocimiento.

Tema		Respuestas	Vistas
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	103	8746	13 Febrero 2025
What is stopping you from trying out Discourse AI? Community Building ai	35	1959	23 Agosto 2025
Discourse is Agent Ready: Here’s How Blog	9	473	24 Mayo 2026
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1708	26 Noviembre 2025
Is there any AI at the core of standard Discourse? Support	15	1652	31 Mayo 2023

¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

Temas relacionados