¿Cómo prevenir que el contenido de la comunidad se utilice para entrenar LLMs como ChatGPT?

OpenAI ha utilizado varios conjuntos de datos para entrenar sus modelos. El conjunto de datos que parece más probable que incluya contenido de Discourse es una versión filtrada del conjunto de datos Common Crawl. Consulte la sección 2.2 de este documento para obtener más detalles: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl utiliza la cadena de agente de usuario CCBot/2.0 al rastrear un sitio.

Si desea mantener su sitio de Discourse accesible al público, pero evitar que su contenido se agregue al conjunto de datos Common Crawl en el futuro, puede agregar CCBot a la configuración de agentes de usuario de rastreadores bloqueados de su sitio de Discourse. Tenga en cuenta que podría haber una desventaja al bloquear el agente de usuario de Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

Muchos conjuntos de datos, incluido Common Crawl, podrían ser utilizados por empresas que filtran y categorizan URL para crear listas de sitios web a los que dirigirse con publicidad.

El uso de Discourse de la configuración de agentes de usuario de rastreadores bloqueados se encuentra aquí: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Tenga en cuenta que Common Crawl respeta las reglas en el archivo robots.txt, por lo que también podría ser bloqueado agregando la siguiente regla al archivo:

User-agent: CCBot
Disallow: /

Los complementos de ChatGPT utilizan el agente de usuario ChatGPT-User al realizar solicitudes en nombre de los usuarios. Este agente de usuario no se utiliza para rastrear la web para crear conjuntos de datos de entrenamiento: https://platform.openai.com/docs/plugins/bot. Este agente de usuario también podría ser bloqueado agregándolo a la configuración de agentes de usuario de rastreadores bloqueados (o agregando una regla de Disallow al archivo robots.txt).

Como otros han señalado, la forma más confiable de evitar que su sitio se utilice para entrenar LLM sería evitar el acceso anónimo al sitio habilitando la configuración del sitio se requiere inicio de sesión. Para endurecer aún más el sitio, se podrían tomar medidas para aumentar la probabilidad de que los usuarios de su sitio sean humanos y no bots. Un posible enfoque para ello sería integrar un servicio como Gitcoin Passport con el sistema de autenticación del sitio. Creo que pronto se desarrollará un complemento de código abierto de Gitcoin Passport para Discourse.

Puede haber otras formas menos técnicas de aumentar la probabilidad de que los usuarios del sitio sean humanos. Por ejemplo, el sitio podría configurarse como solo por invitación y se podrían tomar medidas para asegurarse de que solo invita a usuarios que tenga motivos para creer que son humanos al sitio.

Encuentro la filosofía detrás de todo esto súper interesante, pero no voy a entrar en ello en este tema.

15 Me gusta