¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

merefield · 15 Mayo, 2023 06:14

Esto es algo exasperante.

Estaba usando el término ‘similar’ de forma algo laxa pero definitivamente válida, solo en relación con un concepto y solo para apoyar un punto específico. ¿Pensé que eso era obvio?

Mi punto al afirmar la similitud se limitaba al concepto de extracción y coincidencia de ‘características’, nada más, para distinguirlo de los conceptos de aprendizaje de la memorización literal de copias.

Soy plenamente consciente de que también existen diferencias significativas.

Sabes que una cabeza humana no se parece a un centro de datos, ¿verdad?

¿Estás diciendo que no hay extracción y coincidencia de características en el cerebro humano?

Porque eso es lo que está haciendo:

“ Aprendizaje de detectores de características
Para permitir que el sistema perceptual haga las distinciones finas que se requieren para controlar el comportamiento, la corteza sensorial necesita una forma eficiente de adaptar los pesos sinápticos de múltiples capas de neuronas detectoras de características.”

También véase Feature detection (nervous system) - Wikipedia

Eso es una contradicción. Absolutamente no es copiar y pegar y esa es la médula de mi punto.

Podría decirse que ni siquiera es compresión con pérdida:

Sí, puede. Y de nuevo, advertencia , no en la medida en que nosotros podemos.

ChatGPT está generalizando. ¡Eso es lo que es la coincidencia de patrones, también conocida como extracción de características! Es capaz de configurar palabras en un orden sensato que coincide con las reglas gramaticales. Ha ‘aprendido’ un conjunto complejo de características y es capaz de construir oraciones que tienen sentido gramatical, independientemente del área temática. No está almacenando todas las combinaciones posibles de palabras y regurgitando exactamente una coincidencia cada vez, es decir, ¡no es copiar y pegar! Esa es solo una demostración. Las respuestas que da demuestran una sofisticación emergente.

Pero claro, no es lo suficientemente sofisticado como para “entender” las matemáticas. Todavía no. (¿y quizás nunca con esta técnica actual?).

Reconozco plenamente que el nivel de sofisticación no iguala al del cerebro, que es limitado en alcance y que la implementación física de todo es muy diferente. Pero eso no invalida mi punto…

… ¡que era específico!

La próxima vez me aseguraré de advertir minuciosamente mi punto para evitar este ruido innecesario.

JammyDodger · 15 Mayo, 2023 09:56

Aunque la filosofía es fascinante y digna de discusión, creo que el OP está buscando específicamente consejos prácticos sobre cómo mitigar esto. ¿Podríamos mantenernos en el tema y concentrarnos en ellos?

Ed_S · 15 Mayo, 2023 12:56

¡Totalmente de acuerdo! Pero nos hemos desviado…

De hecho. Existe un riesgo real de que los datos de entrenamiento se filtren en la salida del LLM, y cuando esto sucede, puede ser un problema de privacidad o de derechos de autor. Creo que las herramientas apropiadas son, por un lado, la ley de protección de datos y, por otro, la ley de derechos de autor, y por lo tanto, las licencias.

Creo que no estaría de más que los términos y condiciones de uso prohibieran ciertos actos, como el rastreo de datos, la descarga a gran escala, la inclusión en datos de entrenamiento para aprendizaje automático. Pero para la aplicación, sugeriría cierta claridad en la concesión de licencias del contenido. Para ser efectivos, una licencia adecuada y clara debería formar parte de la instalación predeterminada, de modo que la mayoría de las instancias de Discourse tengan el mismo enfoque para protegerse.

Buscaría en entidades como la EFF plantillas del tipo correcto de políticas.

Ed_S · 15 Mayo, 2023 16:26

Oh, algo importante que añadir. Si restringe de forma restrictiva el contenido de su foro, en el peor de los casos podría dificultar o imposibilitar la migración de su foro a una nueva plataforma. ¡No haga eso!

(También hay un aspecto social, aunque podría ser menor. Si los términos de su foro dicen que las contribuciones de una persona se convierten en propiedad del foro, eso disuadirá a algunas personas. Pero necesita algo: no querrá que los usuarios que se van puedan insistir en que se eliminen todas sus publicaciones. Este es un problema diferente al tema que nos ocupa, pero demuestra que los términos son importantes).

Jagster · 15 Mayo, 2023 18:37

En los países occidentales, al menos, dicho término no tiene ningún significado y solo demuestra una cosa: el propietario de la plataforma no tiene ningún conocimiento.

Mevo · 15 Mayo, 2023 22:34

El porqué es (muy) interesante, sin embargo.
¿Por qué quieres saber cómo hacerlo? Para hacerlo, sin duda.
¿Pero por qué? Es bastante una extensión de la pregunta.

Esta es una buena pregunta. Y los propios usuarios del foro se están convirtiendo en los libros, aquí.

Supongo que una forma, que parece hacerse en muchos sitios, es analizar el comportamiento del usuario. Si se escanean “demasiadas” páginas, especialmente si se hace “demasiado rápido”, entonces probablemente sea scraping. Se pueden añadir algunos parámetros, como por ejemplo el uso de una “dirección IP de alojamiento” en lugar de una dirección IP residencial, el hecho de que se utilice un navegador “sin cabeza”, que no se acepten cookies, etc.

Así que sí, todo esto se puede definir y ajustar en el futuro para intentar bloquear técnicamente la mayor cantidad de scraping posible. La forma habitual de hacer las cosas es pedir un CAPTCHA cuando se sospecha un comportamiento similar al de un bot. Esto permite que los humanos continúen, lo que no sería posible si el sistema simplemente estuviera bloqueando al usuario.

Ahora bien, todo esto siempre se puede eludir si alguien quiere seguir haciéndolo. Evitando ser identificado y apareciendo como muchos usuarios diferentes, apareciendo más legítimo en muchos frentes, rotando IPs residenciales, etc. Es casi un deporte saber cómo hacer scraping de lo que un sistema está diseñado para que no lo hagas. Algunas personas son muy buenas en ello. Hay muchos recursos disponibles para hacerlo.

Las entidades legítimas como las personas detrás de ChatGPT y similares probablemente no seguirán esta ruta. También es probable que estén más inclinadas a respetar los Términos de Servicio, venir con un agente de usuario directo, etc. Para disuadirlos, el hecho “legal” y simple de que digas que lo prohíbes puede ser suficiente. Esto no funcionará con personas a las que les importan menos las legalidades y la franqueza.

Una solución bastante simple es restringir la cantidad que se puede ver como invitado sin tener que iniciar sesión. Pero de nuevo, como suele ocurrir, tendrás muchas dificultades para evitar a aquellos que realmente quieren hacerlo si están lo suficientemente motivados. Estos últimos podrían no ser las personas importantes a las que apuntar en este asunto, sin embargo.

pfaffman · 17 Mayo, 2023 07:56

Creo que eso se controla como cualquier otro rastreador. Hay configuraciones para denegar el acceso por agente de usuario. Si el rastreador usa un agente de usuario que indica lo que está haciendo, puedes controlarlo.

No está claro para mí de dónde obtuvo GPT su conjunto de datos inicial ni de dónde obtendrá nuevos datos. Tendrías que averiguar cuáles son los agentes de usuario, creo.

Jagster · 17 Mayo, 2023 07:59

¿Funciona más allá de robots.txt, a nivel de firewall?

satonotdead · 17 Mayo, 2023 10:25

Las discusiones en Internet tienen días contados y ese hilo y la respuesta a mi pregunta genuina (para explorar el cómo) es claramente un preludio.

Actualmente, me temo que no hay forma de hacerlo, ya que la búsqueda es solo un envoltorio web.
https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

O

<meta name='robots' content='noindex, nofollow'>

Jagster · 17 Mayo, 2023 10:47

¿Y seguirá esa regla sin falta?

anon48433008 · 17 Mayo, 2023 11:05

Me gustaría opinar y decir que este es un gran tema, apenas cumple los requisitos para ser permitido aquí según mi punto de vista, pero lo hace

Diría que eso lo resume bien

jaja, eso ya entra en territorio Skynet, ¿la IA hará lo suyo?

Me gustaría ofrecer un ejemplo de que sí lo hará

Muchas religiones se basan en la Biblia, y la Biblia se basa en las tradiciones de los hombres

Así que sí, lo creado puede superar al creador.

Algún día, si no nos detienen, podríamos ser los libros de una nueva Biblia

Todos ustedes pueden ser discípulos

ouroboros

Es una herramienta o un juguete hasta que deja de serlo

Jagster · 17 Mayo, 2023 11:42

Un chiste gracioso, pero en el mundo real la mayoría de los bots no siguen las reglas de robots.txt. Es solo una sugerencia, no algún tipo de cortafuegos.

Mevo · 17 Mayo, 2023 17:50

robots.txt son instrucciones destinadas a los propios rastreadores.
Se basa en la suposición de que los seguirán. Nada dice que sea así “sin falta”.

Puedes bloquear agentes de usuario a nivel de tu servidor web. La mayoría de las veces, NGINX se usa con Discourse.
Aquí, tu servidor web no servirá ningún contenido a estos agentes de usuario. Esto se hace añadiendo unas pocas líneas al archivo de configuración NGINX de tu sitio web. Busca en la web nginx block user agent o una búsqueda similar.

Esto es “sin falta”, si el rastreador muestra un agente de usuario honesto.

mattdm · 17 Mayo, 2023 17:53

Lo cual decididamente no es “seguro”.

Mevo · 17 Mayo, 2023 20:33

Bloquea con seguridad los user agents que deseas bloquear
(EDITAR para ser % claro: Usando NGINX como se presentó anteriormente y no solo confiando en robots.txt)

No es una solución segura para todo el problema si estás lidiando con actores maliciosos que no se identifican correctamente. Pero supongo que lo entendiste perfectamente.

Jagster · 17 Mayo, 2023 21:22

Esto empieza a ser un poco aburrido… pero no. Hay muchas situaciones en las que ni siquiera Google sigue robots.txt.

Sigue siendo una sugerencia y nadie debería confiar en ella.

satonotdead · 19 Mayo, 2023 04:37

OK, estamos pensando lo mismo.

Veo dos respuestas que realmente me asustaron y no quiero pagar, pero tarde o temprano podría ser obligatorio para el que trabaja.

(No di mi número de tarjeta de crédito y siempre uso todo temporalmente, al menos para mantenerme un poco fuera del radar)

Pero la gente está pagando y saltó a 4 y 10 veces, luego a 100 veces, 24 dólares al día. Trabajo directamente en mercados y eso es surrealista.

Normalmente no uso este dispositivo para buscar en la web (elijo captchas para un par de grandes empresas) porque me siento más seguro y privado navegando en Linux. Sospecho que alguien podría pensar de manera similar y respeto si ese no es tu caso.

El código abierto también está controlado de alguna manera, podría sonar un poco neurótico o algo así, pero prefiero las conversaciones humanas en nuestra comunidad y estamos discutiendo límites y tal vez usando los métodos para bloquear algo que nadie sabe dónde puede detenerse.

La alucinación fue inyectada, la gente se está clonando a sí misma. Eso podría romper la información y propagar mucho control en una unión.

Quizás estamos en un buen momento para discutir sobre límites, valores, privacidad. No censurar, presentar quejas o evitar una buena discusión.

Si estamos de acuerdo en este tema, debería compartir mis puntos e investigar a fondo mis puntos no sólidos pero reales.

¿Es posible una IA sin OpenAI (no abierta) y una mejor herramienta para las comunidades?

Por favor, muévelo si consideras que es OP, o fusiona si quieres.

Brandon007 · 26 Mayo, 2023 23:16

No sé si este concepto se podría adaptar para un foro, pero ejecuto este código en mi archivo .htaccess en mi blog.

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

La idea aquí es redirigir solo a estos agentes de usuario que visitan la página X. En mi caso, redirijo a los agentes de usuario anteriores que visitan artículos de eventos actuales, mientras continúo haciendo que mi contenido bíblico esté disponible para todo lo demás. Hice esto con fines de SEO, lo que ha marcado la diferencia, tal vez haya una manera de usar algo como esto para bloquear un bot de IA.

El problema con mi código es que, para cada URL, necesitas otra línea de código.

Mevo · 27 Mayo, 2023 10:42

Claro. Esta es una solución donde su servidor web maneja user agents específicos de cierta manera. Es prácticamente lo mismo que describí anteriormente. Funciona siempre y cuando el bot se identifique con un user agent correcto.

stance455 · 10 Junio, 2023 00:11

Para continuar con este tema, ¿alguien sabe si el agente de usuario de ChatGPT está obteniendo la versión de rastreador? Dudo que… tal vez eso debería agregarse a la lista de “rastreadores”.

Tema		Respuestas	Vistas
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	103	8328	13 Febrero 2025
What is stopping you from trying out Discourse AI? Community Building ai	35	1804	23 Agosto 2025
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1443	26 Noviembre 2025
Is there any AI at the core of standard Discourse? Support	15	1567	31 Mayo 2023
Best practices dealing with Spam users and GPT reply posts Community Building	9	929	31 Julio 2023

¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

Temas relacionados