¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

agemo · 6 Julio, 2023 09:33

¿Hay acuerdo en que hacer una Categoría, esencialmente PRIVADA, es una forma segura de bloquear no solo a todos los bots, sino también a los LLM o, llamémoslos, bots de IA?

Honestamente, por haber abordado el problema en al menos un tema y también por buscar en ChatGPT, Discourse y muchas otras ofertas de software, no se está tomando en serio la amenaza y los aspectos destructivos de ChatGPT en mi humilde opinión. Es necesario reflexionar seriamente sobre la oferta de soporte y funciones para propietarios y administradores de sitios que no desean utilizar ninguna IA.

ChatGPT y todo lo que representa es una de esas situaciones en las que la mecha se ha encendido, por ambos extremos.

Bas · 6 Julio, 2023 09:39

Esa es una forma bastante segura, sí.
Actores completamente nefastos aún podrán registrarse, por supuesto, pero debería eliminar a todos los rastreadores legítimos.

Nota: He eliminado tu comentario donde etiquetaste a algunos cofundadores, eso parece excesivo.

agemo · 6 Julio, 2023 09:55

El tiempo nos dice que no es excesivo. Las mentes deben despertar. Veo un sesgo que genera un gran punto ciego, esto también es una observación en toda la industria, pero hasta donde sé, Discourse no es diferente.

Si la única opción es volver a hacer privado todo tu foro, eh, el “mercado” ha cambiado no solo de una manera, sino de muchas maneras tan fundamentalmente que necesita ser considerada a algún nivel operativo.

Lo que es excesivo es ChatGPT y sus efectos, la rapacidad no describe la mitad de lo que está sucediendo, en todas partes.

Esto socava fundamentalmente cada foro y todo el contenido creado por humanos. Puede que ahora te sientas cómodo jugando con las sutilezas y los “qué pasaría si” filosóficos, pero ese tiempo ha pasado. La cosa está libre ahora. Todos los que tienen un pie en las aguas de la red mundial deben tomar decisiones.

Bas · 6 Julio, 2023 09:59

Lo que dije es excesivo (y lo que borré) es contactar a dos cofundadores/directores ejecutivos para seguimiento a tan solo 17 horas de haber hecho una pregunta puramente técnica.

Sus temores sobre los LLM son reales y comprensibles, incluso si no estoy de acuerdo con ellos.

agemo · 6 Julio, 2023 11:23

Entiendo, pero no logras comprender la urgencia, que la respuesta a una pregunta técnica tenga resultados y consecuencias tan profundas que no son nada técnicas en términos humanos.

Tantas implicaciones, sin embargo, todos caminan dormidos, lo que indica la falta de preocupación en todos los niveles.

Gracias por esa respuesta.

¿Todo lo que tenemos es un martillo para romper una nuez, o la nuez es en realidad una nuez de infinito de punto cero y nuestro martillo es realmente una invención de la imaginación de una pluma?

¿Tiene sentido?

pfaffman · 7 Julio, 2023 05:18

Creo que entiendes.

Si tu sitio permite a los usuarios anónimos leer información, no tienes control sobre quién obtiene esa información ni qué hará con ella. Entiendo que Google acaba de cambiar su política para decir que todo lo que ellos puedan leer, lo pueden usar para su IA.

Si tu sitio permite a los usuarios registrados leer tu sitio, no tienes control sobre lo que esos usuarios harán con él.

Si tu sitio permite a los usuarios iniciar sesión, no sabes necesariamente que la persona que usa las credenciales es la persona que creó la cuenta. Si quieres asegurarte de que nadie pueda usar tus datos en una IA, simplemente puedes desconectar su conexión de red.

Jagster · 7 Julio, 2023 05:46

Hay un pequeño control cuando se usa un proxy inverso, hasta que cambian o usan un agente de usuario falso (o usan direcciones IP ampliamente utilizadas, pero esa forma es difícil y rocosa).

sam · 7 Julio, 2023 07:14

Hazme saber si logras desarrollar un libro mágico que los ojos humanos puedan ver pero que ninguna cámara en la Tierra pueda fotografiar.

Muy curioso sobre esta tecnología mágica.

En cuanto al foro que organizas en la plataforma Discourse, tu foro / tus reglas. Algunas reglas se pueden aplicar automáticamente, otras no (por ejemplo, las personas con ojos azules no pueden leer este foro).

agemo · 7 Julio, 2023 08:54

Nadie se toma esto en serio porque creo que nadie quiere admitir y comprender la verdadera magnitud de este evento, y luego tener que intentar hacer algo al respecto dentro de su ámbito de control, y es más fácil unirse a la carrera hacia el final, e incorporar la IA en su software, pensando que están rindiendo como el mercado espera y están a la vanguardia, siendo vitales. Aquí es donde las últimas décadas de excesivo relativismo moral al que se le ha permitido actuar libremente en todos los niveles permiten la gran deshacer de las cosas y la tecnología lo hace suceder a la velocidad de la luz, porque es como si;

todos hubieran olvidado la razón por la que están aquí.

HAWK · 7 Julio, 2023 09:06

Voy a bajar un poco el ritmo.

Escuchamos sus preocupaciones, simplemente no las compartimos y eso está bien. Podemos estar en desacuerdo. Estamos tomando decisiones informadas. Nadie te las está imponiendo.

agemo · 7 Julio, 2023 09:08

@satonotdead exactamente

simon · 7 Julio, 2023 17:31

OpenAI ha utilizado varios conjuntos de datos para entrenar sus modelos. El conjunto de datos que parece más probable que incluya contenido de Discourse es una versión filtrada del conjunto de datos Common Crawl. Consulte la sección 2.2 de este documento para obtener más detalles: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utiliza la cadena de agente de usuario CCBot/2.0 al rastrear un sitio.

Si desea mantener su sitio de Discourse accesible al público, pero evitar que su contenido se agregue al conjunto de datos Common Crawl en el futuro, puede agregar CCBot a la configuración de agentes de usuario de rastreadores bloqueados de su sitio de Discourse. Tenga en cuenta que podría haber una desventaja al bloquear el agente de usuario de Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

Muchos conjuntos de datos, incluido Common Crawl, podrían ser utilizados por empresas que filtran y categorizan URL para crear listas de sitios web a los que dirigirse con publicidad.

El uso de Discourse de la configuración de agentes de usuario de rastreadores bloqueados se encuentra aquí: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Tenga en cuenta que Common Crawl respeta las reglas en el archivo robots.txt, por lo que también podría ser bloqueado agregando la siguiente regla al archivo:

User-agent: CCBot
Disallow: /

Los complementos de ChatGPT utilizan el agente de usuario ChatGPT-User al realizar solicitudes en nombre de los usuarios. Este agente de usuario no se utiliza para rastrear la web para crear conjuntos de datos de entrenamiento: https://platform.openai.com/docs/plugins/bot. Este agente de usuario también podría ser bloqueado agregándolo a la configuración de agentes de usuario de rastreadores bloqueados (o agregando una regla de Disallow al archivo robots.txt).

Como otros han señalado, la forma más confiable de evitar que su sitio se utilice para entrenar LLM sería evitar el acceso anónimo al sitio habilitando la configuración del sitio se requiere inicio de sesión. Para endurecer aún más el sitio, se podrían tomar medidas para aumentar la probabilidad de que los usuarios de su sitio sean humanos y no bots. Un posible enfoque para ello sería integrar un servicio como Gitcoin Passport con el sistema de autenticación del sitio. Creo que pronto se desarrollará un complemento de código abierto de Gitcoin Passport para Discourse.

Puede haber otras formas menos técnicas de aumentar la probabilidad de que los usuarios del sitio sean humanos. Por ejemplo, el sitio podría configurarse como solo por invitación y se podrían tomar medidas para asegurarse de que solo invita a usuarios que tenga motivos para creer que son humanos al sitio.

Encuentro la filosofía detrás de todo esto súper interesante, pero no voy a entrar en ello en este tema.

agemo · 7 Julio, 2023 19:47

Me opongo firmemente a la continua moderación de mis intentos de abordar este tema de manera profunda y seria; la lentitud es una broma, tener que esperar una hora cada vez.

Hay un montón de publicaciones errantes que quedan de muchos usuarios. Consistencia no, parcialidad, mmm, bueno, así es como le parece a este usuario hasta ahora y no me tomo las cosas de forma personal, pero la moderación geriátrica ahoga, por decir lo menos.

Solo estoy tratando de elevar esta situación tan seria y atroz que tenemos entre manos, y finalmente tenemos una publicación excelente y seria de @simon.

Magnífico y certero, exactamente lo que el OP y otros necesitaban escuchar primero. Muchas opciones están enterradas en la extensa sección de administración, y yo, por mi parte, no había notado esta característica/opción antes. Ahora puedo probarla, sería bueno si pudiera tener más información personalizada que la tarjeta predeterminada. ¿Quizás los manejadores de texto personalizados hacen eso, alguien lo sabe?

Muchas gracias.

Falco · 14 Julio, 2023 20:26

Si este artículo tiene razón

Necesitarás eliminar tu sitio de la internet pública / bloquear Google / habilitar login_required.

awesomerobot · 14 Julio, 2023 21:19

Cabe señalar que no hay absolutamente nada que obligue a un rastreador a obedecer robots.txt y falsificar un agente de usuario es trivial. No existen leyes que regulen estas cosas. Ninguna cantidad de urgencia o seriedad cambiará esto. Si te preocupa que tus datos se utilicen, lo único que puedes hacer es hacer que tu sitio sea privado y esperar a que se resuelvan varios procesos legales sobre los datos de entrenamiento.

simon · 15 Julio, 2023 01:06

Espero que los sitios que dependen de la publicidad vean una caída en sus ingresos y empecemos a ver mucho más contenido detrás de muros de pago. La calidad de la parte libre y abierta de Internet se diluirá.

Discourse podría capitalizar esta tendencia creando un servicio de suscripción para sus clientes alojados.

merefield · 15 Julio, 2023 05:41

Ya existe un plugin de suscripciones que puede estar disponible para algunos niveles en la versión alojada. Los sitios autoalojados ya pueden adoptarlo.

El problema con ocultar contenido es que afectará tu SEO, por lo que puede depender de cuál sea tu embudo de nuevos usuarios.

Personalmente, confío en la búsqueda para captar nuevos usuarios, así que pongo solo un poco de contenido detrás de un muro de cuentas.

¡Para muchos sitios, todavía necesitas ser descubierto!

Ed_S · 15 Julio, 2023 16:17

Parece que tienes dos preocupaciones relacionadas, @agemo, una es el uso de la IA en el software y la otra es que las interacciones de la gente común en la web puedan ser utilizadas para entrenar IA. Estás bastante preocupado por esas cosas y quieres que no sucedan.

Puedo entender eso. Espero que estas preocupaciones sean compartidas por muchos.

Permítanme decir que hay muchas cosas en el mundo que me preocupan y que me gustaría que fueran diferentes, pero no las menciono aquí porque no son accionables por las personas aquí, o por Discourse como una oferta. Si siguiera mencionándolas, podría ser molesto y podría encontrarme moderado.

Quizás sientes que no te escuchan. Pero creo que lo que realmente está sucediendo en este hilo es que los demás en este hilo creen que tus preocupaciones no son accionables, no son accionables aquí ni por ellos. Tal vez se pueda hacer algo, pero no lo pueden hacer los individuos aquí. Tal vez la respuesta sea un movimiento masivo, una campaña o una revolución, pero creo que es justo si los moderadores aquí sienten que esas cosas están fuera de tema.

agemo · 15 Julio, 2023 17:52

Ya sucedió. La cosa que no podemos cambiar. La IA está desatada ahora y es el evento. Nunca sugerí que pudiéramos retroceder en el tiempo.

Los moderadores pensaron que entendían este tema, pero no lo hacen, y siguen moderando mis contribuciones. Estoy aburrido de hablar de la moderación, en lugar de las soluciones, pero siguen haciéndolo o lo hacen otros usuarios, tal vez no ven el valor o están demasiado cómodos.

La realidad es que, desde mis intervenciones para intentar enfocar este tema hacia una base de soluciones, a pesar de la torpe moderación, ha habido algún resultado.

Puede que pienses que no puedes hacer algo, pero mirarlo y reconocer que:
a) es serio
b) es urgente
c) necesita enfoque

Es un comienzo, y que tienes control sobre tu reacción, pero no sobre el evento que ha sucedido y que ahora está en el pasado y afecta el presente día a día en el futuro previsible.

No hay ninguna solución ofrecida más que usar de forma burda soluciones derivadas de otros problemas, y por lo tanto rompe la propuesta, ya que el evento de la IA está obligando a la gente a asumir posiciones que rompen todo su esfuerzo hasta el momento del evento.

Es muy natural no querer ser parte de algo que es una amenaza directa y que aprovechará tu contenido en competencia directa contra todos tus esfuerzos hasta ese punto, para empezar, pero no se detiene ahí.

Voy a resumir todo con una simple pregunta retórica (puedes discutir si es retórica o no, pero tendrás que reconocer la IA).

¿Por qué alguien consideraría siquiera desplegar una instancia de Discourse (o similar) ahora?

Hay tantas preocupaciones con este tema, a veces un tema (OP) ejemplifica todo el universo de las consecuencias del problema, y este es ciertamente uno. No debería ser tan estrecho, especialmente cuando Discourse no tiene una solución real que ofrecer, entonces el tema por su propia naturaleza en el contexto está abierto o es “lo siento, ya que no hay solución para este tema, el tema ahora está cerrado”, elige.

Ábrelo o ciérralo.

¿Lo entendemos?

Este es el punto. Si hay un reconocimiento de que no hay voluntad de abordar el problema, entonces hazlo, de lo contrario, este tema permanece y necesita ser muy amplio, ese es el nivel de atenuación de la moderación requerido en este tema, porque es territorio virgen.

Si hubiera una o dos casillas de verificación que lo arreglaran en la configuración, todos nos iríamos a casa, pero realmente no las hay, todavía. Puede haber algunas medidas provisionales, pero no están en el ámbito de “RESUELTO”, en eso creo que todos están de acuerdo.

Dado que no se han implementado soluciones en respuesta directa para abordar las preocupaciones del OP y el problema de la IA y cómo un administrador necesita gestionarlo, mis puntos se mantienen.

Si los hay, por favor señálalos, publícalos aquí o la solución en desarrollo o lo que sea. ¿Lo entendemos?

Ahí reside una responsabilidad, la de un desarrollador, la de un usuario y la relación existente que hace que todo funcione. Así que lo discutimos. Una y otra vez si es necesario.

Lo que veo es cero reconocimiento de cómo esto rompe hasta los últimos posts desde que el OP comenzó en mayo y estos los celebré pero fui moderado por ello. Eso es una broma. La IA está rompiendo la red, de nuevo, ¿por qué molestarse en configurar una plataforma de Discourse o similar? Si no podemos discutirlo de una manera seria, genuina y robusta que se ajuste a las demandas del tema, entonces ahí tienes tu respuesta.

El mercado se está moviendo, todo el dinero, las miradas y la manía van a parar a los bolsillos de OpenAI y compañía. Veo a desarrolladores por todas partes, aquí y en otros lugares, dando un paso al frente y eligiendo la adopción e integración completa de la IA sin ninguna circunspección, ¡CERO!

Es por eso que un OP como este sigue siendo acorralador y frustrante. Romper tu Discourse es la única solución segura. Lo cual no es una solución. Es prácticamente un game over.

Mi analogía sobre cómo los desarrolladores están reaccionando a la IA, retóricamente: casi todos parecen estar ocupados construyendo todo tipo de cubos geniales para recoger la lava de la erupción del volcán (la erupción siendo el evento) y la reacción de construir cubos para recoger lava, la lava es un regalo del dios volcán, trae calor y luz sí, pero también quema cosas muy rápido, y sin el cubo no puedes controlar la parte que tienes, pero el cubo oculta este hecho, parece seguro, genial, ordenado, por ahora.

No. Eso no sería correcto. He explicado por qué los moderadores se han equivocado y cómo es mucho más serio de lo que creen, y esto podría ser, de manera decepcionante, sintomático de la posición de arriba hacia abajo de la relación entre Discourse y la IA… se siente como si fuera un “meh” o un encogimiento de hombros, pero los sentimientos pueden estar equivocados, así que demuéstrame que estoy equivocado con hechos concretos.

Algunas personas han entendido mis puntos, o al menos han mirado más de cerca el OP, han hecho algunas mejores contribuciones, por las cuales estoy agradecido ya que me llevaron por algunos caminos potenciales hacia una solución burda de múltiples puntos, todavía en progreso, y requerirían algún reconocimiento por parte de los desarrolladores para mapear mejor las demandas planteadas por la IA, para hacerla mejor como una medida provisional factible, pero aún así provisional.

Ha sido una década difícil para los foros en línea, desde la disminución del tráfico hasta la disminución de los ingresos. Las implicaciones de este evento rompen esas gráficas de desánimo y para muchos operadores pueden significar nada menos que un evento de perdición final y simplemente cerrarán el negocio.

Ed_S · 15 Julio, 2023 18:52

Quiero tener discusiones sobre ciertos temas, así que ejecuto foros donde las personas pueden reunirse y discutir esos temas. Elegí Discourse, pero en mi opinión, cualquier otra solución en la web abierta tendría los mismos riesgos y los mismos resultados. Quiero que mis discusiones estén en la web abierta y que aparezcan en los resultados de búsqueda.

Las personas pueden tener interacciones en plataformas conscientes de la privacidad como Telegram y Signal, y de hecho las tienen, pero esas son ofertas de diferentes tipos construidas por diferentes razones. Es posible que el chat de Discourse ofrezca algo de lo que buscas; de hecho, a mí no me interesa eso.

Tema		Respuestas	Vistas
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	103	8531	13 Febrero 2025
What is stopping you from trying out Discourse AI? Community Building ai	35	1898	23 Agosto 2025
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1557	26 Noviembre 2025
Is there any AI at the core of standard Discourse? Support	15	1620	31 Mayo 2023
Best practices dealing with Spam users and GPT reply posts Community Building	9	951	31 Julio 2023

¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

Temas relacionados