¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

Esto es algo exasperante.

Estaba usando el término ‘similar’ de forma algo laxa pero definitivamente válida, solo en relación con un concepto y solo para apoyar un punto específico. ¿Pensé que eso era obvio?

Mi punto al afirmar la similitud se limitaba al concepto de extracción y coincidencia de ‘características’, nada más, para distinguirlo de los conceptos de aprendizaje de la memorización literal de copias.

Soy plenamente consciente de que también existen diferencias significativas.

Sabes que una cabeza humana no se parece a un centro de datos, ¿verdad? :rofl:

¿Estás diciendo que no hay extracción y coincidencia de características en el cerebro humano?

Porque eso es lo que está haciendo:

“ Aprendizaje de detectores de características
Para permitir que el sistema perceptual haga las distinciones finas que se requieren para controlar el comportamiento, la corteza sensorial necesita una forma eficiente de adaptar los pesos sinápticos de múltiples capas de neuronas detectoras de características.”

También véase Feature detection (nervous system) - Wikipedia

Eso es una contradicción. Absolutamente no es copiar y pegar y esa es la médula de mi punto.

Podría decirse que ni siquiera es compresión con pérdida:

Sí, puede. Y de nuevo, advertencia :sweat_smile: , no en la medida en que nosotros podemos.

ChatGPT está generalizando. ¡Eso es lo que es la coincidencia de patrones, también conocida como extracción de características! Es capaz de configurar palabras en un orden sensato que coincide con las reglas gramaticales. Ha ‘aprendido’ un conjunto complejo de características y es capaz de construir oraciones que tienen sentido gramatical, independientemente del área temática. No está almacenando todas las combinaciones posibles de palabras y regurgitando exactamente una coincidencia cada vez, es decir, ¡no es copiar y pegar! Esa es solo una demostración. Las respuestas que da demuestran una sofisticación emergente.

Pero claro, no es lo suficientemente sofisticado como para “entender” las matemáticas. Todavía no. (¿y quizás nunca con esta técnica actual?).

Reconozco plenamente que el nivel de sofisticación no iguala al del cerebro, que es limitado en alcance y que la implementación física de todo es muy diferente. Pero eso no invalida mi punto…

… ¡que era específico!

La próxima vez me aseguraré de advertir minuciosamente mi punto para evitar este ruido innecesario. :sweat_smile:

2 Me gusta

Aunque la filosofía es fascinante y digna de discusión, creo que el OP está buscando específicamente consejos prácticos sobre cómo mitigar esto. ¿Podríamos mantenernos en el tema y concentrarnos en ellos? :pray:

11 Me gusta

¡Totalmente de acuerdo! Pero nos hemos desviado…

De hecho. Existe un riesgo real de que los datos de entrenamiento se filtren en la salida del LLM, y cuando esto sucede, puede ser un problema de privacidad o de derechos de autor. Creo que las herramientas apropiadas son, por un lado, la ley de protección de datos y, por otro, la ley de derechos de autor, y por lo tanto, las licencias.

Creo que no estaría de más que los términos y condiciones de uso prohibieran ciertos actos, como el rastreo de datos, la descarga a gran escala, la inclusión en datos de entrenamiento para aprendizaje automático. Pero para la aplicación, sugeriría cierta claridad en la concesión de licencias del contenido. Para ser efectivos, una licencia adecuada y clara debería formar parte de la instalación predeterminada, de modo que la mayoría de las instancias de Discourse tengan el mismo enfoque para protegerse.

Buscaría en entidades como la EFF plantillas del tipo correcto de políticas.

3 Me gusta

Oh, algo importante que añadir. Si restringe de forma restrictiva el contenido de su foro, en el peor de los casos podría dificultar o imposibilitar la migración de su foro a una nueva plataforma. ¡No haga eso!

(También hay un aspecto social, aunque podría ser menor. Si los términos de su foro dicen que las contribuciones de una persona se convierten en propiedad del foro, eso disuadirá a algunas personas. Pero necesita algo: no querrá que los usuarios que se van puedan insistir en que se eliminen todas sus publicaciones. Este es un problema diferente al tema que nos ocupa, pero demuestra que los términos son importantes).

2 Me gusta

En los países occidentales, al menos, dicho término no tiene ningún significado y solo demuestra una cosa: el propietario de la plataforma no tiene ningún conocimiento.

2 Me gusta

El porqué es (muy) interesante, sin embargo.
¿Por qué quieres saber cómo hacerlo? Para hacerlo, sin duda.
¿Pero por qué? Es bastante una extensión de la pregunta.

Esta es una buena pregunta. Y los propios usuarios del foro se están convirtiendo en los libros, aquí.

Supongo que una forma, que parece hacerse en muchos sitios, es analizar el comportamiento del usuario. Si se escanean “demasiadas” páginas, especialmente si se hace “demasiado rápido”, entonces probablemente sea scraping. Se pueden añadir algunos parámetros, como por ejemplo el uso de una “dirección IP de alojamiento” en lugar de una dirección IP residencial, el hecho de que se utilice un navegador “sin cabeza”, que no se acepten cookies, etc.

Así que sí, todo esto se puede definir y ajustar en el futuro para intentar bloquear técnicamente la mayor cantidad de scraping posible. La forma habitual de hacer las cosas es pedir un CAPTCHA cuando se sospecha un comportamiento similar al de un bot. Esto permite que los humanos continúen, lo que no sería posible si el sistema simplemente estuviera bloqueando al usuario.

Ahora bien, todo esto siempre se puede eludir si alguien quiere seguir haciéndolo. Evitando ser identificado y apareciendo como muchos usuarios diferentes, apareciendo más legítimo en muchos frentes, rotando IPs residenciales, etc. Es casi un deporte saber cómo hacer scraping de lo que un sistema está diseñado para que no lo hagas. Algunas personas son muy buenas en ello. Hay muchos recursos disponibles para hacerlo.

Las entidades legítimas como las personas detrás de ChatGPT y similares probablemente no seguirán esta ruta. También es probable que estén más inclinadas a respetar los Términos de Servicio, venir con un agente de usuario directo, etc. Para disuadirlos, el hecho “legal” y simple de que digas que lo prohíbes puede ser suficiente. Esto no funcionará con personas a las que les importan menos las legalidades y la franqueza.

Una solución bastante simple es restringir la cantidad que se puede ver como invitado sin tener que iniciar sesión. Pero de nuevo, como suele ocurrir, tendrás muchas dificultades para evitar a aquellos que realmente quieren hacerlo si están lo suficientemente motivados. Estos últimos podrían no ser las personas importantes a las que apuntar en este asunto, sin embargo.

4 Me gusta

Creo que eso se controla como cualquier otro rastreador. Hay configuraciones para denegar el acceso por agente de usuario. Si el rastreador usa un agente de usuario que indica lo que está haciendo, puedes controlarlo.

No está claro para mí de dónde obtuvo GPT su conjunto de datos inicial ni de dónde obtendrá nuevos datos. Tendrías que averiguar cuáles son los agentes de usuario, creo.

6 Me gusta

¿Funciona más allá de robots.txt, a nivel de firewall?

2 Me gusta

Las discusiones en Internet tienen días contados y ese hilo y la respuesta a mi pregunta genuina (para explorar el cómo) es claramente un preludio.

Actualmente, me temo que no hay forma de hacerlo, ya que la búsqueda es solo un envoltorio web.
https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

O

<meta name='robots' content='noindex, nofollow'>

3 Me gusta

¿Y seguirá esa regla sin falta?

2 Me gusta

Me gustaría opinar y decir que este es un gran tema, apenas cumple los requisitos para ser permitido aquí según mi punto de vista, pero lo hace

Diría que eso lo resume bien

jaja, eso ya entra en territorio Skynet, ¿la IA hará lo suyo?

Me gustaría ofrecer un ejemplo de que sí lo hará

Muchas religiones se basan en la Biblia, y la Biblia se basa en las tradiciones de los hombres

Así que sí, lo creado puede superar al creador.

Algún día, si no nos detienen, podríamos ser los libros de una nueva Biblia

Todos ustedes pueden ser discípulos :hugs:

ouroboros

Es una herramienta o un juguete hasta que deja de serlo :man_shrugging:

3 Me gusta

Un chiste gracioso, pero en el mundo real la mayoría de los bots no siguen las reglas de robots.txt. Es solo una sugerencia, no algún tipo de cortafuegos.

5 Me gusta

robots.txt son instrucciones destinadas a los propios rastreadores.
Se basa en la suposición de que los seguirán. Nada dice que sea así “sin falta”.

Puedes bloquear agentes de usuario a nivel de tu servidor web. La mayoría de las veces, NGINX se usa con Discourse.
Aquí, tu servidor web no servirá ningún contenido a estos agentes de usuario. Esto se hace añadiendo unas pocas líneas al archivo de configuración NGINX de tu sitio web. Busca en la web nginx block user agent o una búsqueda similar.

Esto es “sin falta”, si el rastreador muestra un agente de usuario honesto.

3 Me gusta

Lo cual decididamente no es “seguro”. :slight_smile:

2 Me gusta

Bloquea con seguridad los user agents que deseas bloquear :+1:
(EDITAR para ser :100: % claro: Usando NGINX como se presentó anteriormente y no solo confiando en robots.txt)

No es una solución segura para todo el problema si estás lidiando con actores maliciosos que no se identifican correctamente. Pero supongo que lo entendiste perfectamente.

3 Me gusta

Esto empieza a ser un poco aburrido… pero no. Hay muchas situaciones en las que ni siquiera Google sigue robots.txt.

Sigue siendo una sugerencia y nadie debería confiar en ella.

OK, estamos pensando lo mismo.

Veo dos respuestas que realmente me asustaron y no quiero pagar, pero tarde o temprano podría ser obligatorio para el que trabaja.

(No di mi número de tarjeta de crédito y siempre uso todo temporalmente, al menos para mantenerme un poco fuera del radar)

Pero la gente está pagando y saltó a 4 y 10 veces, luego a 100 veces, 24 dólares al día. Trabajo directamente en mercados y eso es surrealista.



Normalmente no uso este dispositivo para buscar en la web (elijo captchas para un par de grandes empresas) porque me siento más seguro y privado navegando en Linux. Sospecho que alguien podría pensar de manera similar y respeto si ese no es tu caso.

El código abierto también está controlado de alguna manera, podría sonar un poco neurótico o algo así, pero prefiero las conversaciones humanas en nuestra comunidad y estamos discutiendo límites y tal vez usando los métodos para bloquear algo que nadie sabe dónde puede detenerse.

La alucinación fue inyectada, la gente se está clonando a sí misma. Eso podría romper la información y propagar mucho control en una unión.

Quizás estamos en un buen momento para discutir sobre límites, valores, privacidad. No censurar, presentar quejas o evitar una buena discusión.

Si estamos de acuerdo en este tema, debería compartir mis puntos e investigar a fondo mis puntos no sólidos pero reales.

¿Es posible una IA sin OpenAI (no abierta) y una mejor herramienta para las comunidades?

Por favor, muévelo si consideras que es OP, o fusiona si quieres.

No sé si este concepto se podría adaptar para un foro, pero ejecuto este código en mi archivo .htaccess en mi blog.

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

La idea aquí es redirigir solo a estos agentes de usuario que visitan la página X. En mi caso, redirijo a los agentes de usuario anteriores que visitan artículos de eventos actuales, mientras continúo haciendo que mi contenido bíblico esté disponible para todo lo demás. Hice esto con fines de SEO, lo que ha marcado la diferencia, tal vez haya una manera de usar algo como esto para bloquear un bot de IA.

El problema con mi código es que, para cada URL, necesitas otra línea de código.

2 Me gusta

Claro. Esta es una solución donde su servidor web maneja user agents específicos de cierta manera. Es prácticamente lo mismo que describí anteriormente. Funciona siempre y cuando el bot se identifique con un user agent correcto.

1 me gusta

Para continuar con este tema, ¿alguien sabe si el agente de usuario de ChatGPT está obteniendo la versión de rastreador? Dudo que… tal vez eso debería agregarse a la lista de “rastreadores”.