¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

simon · 7 Julio, 2023 17:31

OpenAI ha utilizado varios conjuntos de datos para entrenar sus modelos. El conjunto de datos que parece más probable que incluya contenido de Discourse es una versión filtrada del conjunto de datos Common Crawl. Consulte la sección 2.2 de este documento para obtener más detalles: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utiliza la cadena de agente de usuario CCBot/2.0 al rastrear un sitio.

Si desea mantener su sitio de Discourse accesible al público, pero evitar que su contenido se agregue al conjunto de datos Common Crawl en el futuro, puede agregar CCBot a la configuración de agentes de usuario de rastreadores bloqueados de su sitio de Discourse. Tenga en cuenta que podría haber una desventaja al bloquear el agente de usuario de Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

Muchos conjuntos de datos, incluido Common Crawl, podrían ser utilizados por empresas que filtran y categorizan URL para crear listas de sitios web a los que dirigirse con publicidad.

El uso de Discourse de la configuración de agentes de usuario de rastreadores bloqueados se encuentra aquí: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Tenga en cuenta que Common Crawl respeta las reglas en el archivo robots.txt, por lo que también podría ser bloqueado agregando la siguiente regla al archivo:

User-agent: CCBot
Disallow: /

Los complementos de ChatGPT utilizan el agente de usuario ChatGPT-User al realizar solicitudes en nombre de los usuarios. Este agente de usuario no se utiliza para rastrear la web para crear conjuntos de datos de entrenamiento: https://platform.openai.com/docs/plugins/bot. Este agente de usuario también podría ser bloqueado agregándolo a la configuración de agentes de usuario de rastreadores bloqueados (o agregando una regla de Disallow al archivo robots.txt).

Como otros han señalado, la forma más confiable de evitar que su sitio se utilice para entrenar LLM sería evitar el acceso anónimo al sitio habilitando la configuración del sitio se requiere inicio de sesión. Para endurecer aún más el sitio, se podrían tomar medidas para aumentar la probabilidad de que los usuarios de su sitio sean humanos y no bots. Un posible enfoque para ello sería integrar un servicio como Gitcoin Passport con el sistema de autenticación del sitio. Creo que pronto se desarrollará un complemento de código abierto de Gitcoin Passport para Discourse.

Puede haber otras formas menos técnicas de aumentar la probabilidad de que los usuarios del sitio sean humanos. Por ejemplo, el sitio podría configurarse como solo por invitación y se podrían tomar medidas para asegurarse de que solo invita a usuarios que tenga motivos para creer que son humanos al sitio.

Encuentro la filosofía detrás de todo esto súper interesante, pero no voy a entrar en ello en este tema.

Tema		Respuestas	Vistas
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	103	8333	13 Febrero 2025
What is stopping you from trying out Discourse AI? Community Building ai	35	1807	23 Agosto 2025
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1450	26 Noviembre 2025
Is there any AI at the core of standard Discourse? Support	15	1569	31 Mayo 2023
Best practices dealing with Spam users and GPT reply posts Community Building	9	929	31 Julio 2023

¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

Temas relacionados