Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

agemo · Julho 6, 2023, 9:33am

Existe um acordo de que criar uma Categoria, essencialmente PRIVADA, é uma maneira segura de bloquear não apenas todos os bots, mas também os LLMs ou, vamos chamá-los de bots de IA?

Honestamente, a partir do envolvimento na questão em pelo menos um tópico e também da pesquisa no ChatGPT, o Discourse, como muitas outras ofertas de software por aí, não está levando a ameaça e os aspectos destrutivos do ChatGPT a sério, na minha humilde opinião. É preciso haver uma reflexão séria sobre a oferta de suporte e recursos para proprietários de sites e administradores que não desejam usar nenhuma IA.

O ChatGPT e tudo o que ele representa é uma dessas situações em que o pavio foi aceso, em ambas as pontas.

Bas · Julho 6, 2023, 9:39am

Essa é uma maneira bastante segura, sim.
Atores completamente nefastos ainda poderão se registrar, é claro, mas isso deve remover todos os rastreadores legítimos.

Observação: Eu excluí seu comentário onde você marcou alguns cofundadores, isso parece excessivo.

agemo · Julho 6, 2023, 9:55am

O tempo nos diz que não é excessivo. As cabeças precisam acordar. Vejo um viés que gera um grande ponto cego, isso é uma observação em toda a indústria também, mas, ao que me parece, o Discourse não é diferente.

Se a única opção é tornar seu fórum inteiro privado novamente, bem, o “mercado” mudou não apenas de uma maneira, mas de muitas maneiras tão fundamentalmente que precisa ser considerado em algum nível operacional.

O que é excessivo é o ChatGPT e seus efeitos, predatório não descreve metade do que está acontecendo, em todos os lugares.

Isso mina fundamentalmente todos os fóruns e todo o conteúdo criado por humanos. Você pode estar confortável agora brincando com as sutilezas e os “e se” filosóficos, mas esse tempo passou. A coisa está solta agora. Decisões precisam ser tomadas por todos que têm um dedo do pé nas águas da world wide web.

Bas · Julho 6, 2023, 9:59am

O que eu disse é excessivo (e o que eu deletei) é contatar dois cofundadores/CEOs para acompanhamento meras 17 horas depois de fazer uma pergunta puramente técnica.

Seus medos sobre LLMs são reais e compreensíveis, mesmo que eu discorde deles.

agemo · Julho 6, 2023, 11:23am

Eu entendo, mas você falha em entender a urgência, que a resposta a uma pergunta técnica tem resultados e consequências tão profundos que não são nada técnicos em termos humanos.

Tantas implicações, mas todos andando sonâmbulos, indicativo da falta de preocupação em todos os níveis.

Obrigado por essa resposta.

Temos apenas um martelo para quebrar uma noz ou a noz é realmente uma noz de infinito de ponto zero e nosso martelo é realmente um devaneio da imaginação de uma pena.

Isso faz sentido?

pfaffman · Julho 7, 2023, 5:18am

Eu acho que você entende.

Se o seu site permite que usuários anônimos leiam informações, você não tem controle sobre quem obtém essas informações ou o que fará com elas. Meu entendimento é que o Google acabou de mudar sua política para dizer que tudo o que eles podem ler, eles podem usar para sua IA.

Se o seu site permite que usuários logados leiam seu site, você não tem controle sobre o que esses usuários farão com ele.

Se o seu site permite que os usuários façam login, você não sabe necessariamente que a pessoa que usa as credenciais é a pessoa que criou a conta. Se você quiser ter certeza de que ninguém pode usar seus dados em uma IA, você pode simplesmente desconectar sua conexão de rede.

Jagster · Julho 7, 2023, 5:46am

Há um pequeno controle ao usar um proxy reverso - até que eles mudem ou estejam usando um user agent falso (ou estejam usando endereços IP amplamente, mas esse caminho é difícil e rochoso).

sam · Julho 7, 2023, 7:14am

Me avise se você conseguir desenvolver um livro mágico que os olhos humanos possam ver, mas nenhuma câmera na Terra consiga fotografar

Muito curioso sobre essa tecnologia mágica
Quanto ao fórum que você está hospedando na plataforma Discourse, seu fórum / suas regras. Algumas regras podem ser aplicadas automaticamente, outras não (por exemplo, pessoas com olhos azuis podem não ler este fórum)

agemo · Julho 7, 2023, 8:54am

Ninguém está realmente levando isso a sério porque acho que ninguém quer admitir e compreender a verdadeira escala deste evento, e então ter que realmente tentar fazer algo a respeito dentro de seu domínio de controle, e é mais fácil entrar na corrida para o fim, e incorporar IA em seu software, pensando que estão performando como o mercado espera e estando na vanguarda, sendo vitais. É aqui que as últimas décadas de relativismo moral excessivo tendo liberdade total em todos os níveis permitem a grande desconstrução das coisas e a tecnologia faz isso acontecer em velocidade de luz, porque é como se;

todos tivessem esquecido o motivo de estarem aqui.

HAWK · Julho 7, 2023, 9:06am

Vou diminuir um pouco o ritmo.

Ouvimos suas preocupações, apenas não as compartilhamos e tudo bem. Podemos concordar em discordar. Estamos tomando decisões informadas. Ninguém está forçando nada em você.

agemo · Julho 7, 2023, 9:08am

@satonotdead exatamente

simon · Julho 7, 2023, 5:31pm

A OpenAI utilizou alguns conjuntos de dados para treinar seus modelos. O conjunto de dados que parece mais provável de incluir conteúdo do Discourse é uma versão filtrada do conjunto de dados Common Crawl. Veja a seção 2.2 deste documento para detalhes: https://arxiv.org/pdf/2005.14165.pdf. O Common Crawl usa a string do user-agent CCBot/2.0 ao rastrear um site.

Se você deseja manter seu site Discourse acessível ao público, mas impedir que seu conteúdo seja adicionado ao conjunto de dados Common Crawl no futuro, você pode adicionar CCBot à configuração de user agents de rastreadores bloqueados do seu site Discourse. Observe que pode haver uma desvantagem em bloquear o user agent do Common Crawl (How to Block OpenAI ChatGPT From Using Your Website Content):

Muitos conjuntos de dados, incluindo o Common Crawl, podem ser usados por empresas que filtram e categorizam URLs para criar listas de sites para direcionar com publicidade.

O uso do Discourse da configuração user agents de rastreadores bloqueados está aqui: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Observe que o Common Crawl respeita as regras no arquivo robots.txt, portanto, também pode ser bloqueado adicionando a seguinte regra ao arquivo:

User-agent: CCBot
Disallow: /

Os plugins do ChatGPT usam o user agent ChatGPT-User ao fazer solicitações em nome dos usuários. Este user agent não é usado para rastrear a web para criar conjuntos de dados de treinamento: https://platform.openai.com/docs/plugins/bot. Este user agent também pode ser bloqueado adicionando-o à configuração user agents de rastreadores bloqueados (ou adicionando uma regra Disallow ao arquivo robots.txt).

Como outros observaram, a maneira mais confiável de impedir que seu site seja usado para treinar LLMs seria impedir o acesso anônimo ao site, habilitando a configuração do site login necessário. Para proteger ainda mais o site, medidas podem ser tomadas para aumentar a probabilidade de que os usuários em seu site sejam humanos e não bots. Uma abordagem possível seria integrar um serviço como o Gitcoin Passport ao sistema de autenticação do site. Acredito que um plugin Gitcoin Passport de código aberto para Discourse será desenvolvido em breve.

Pode haver outras maneiras menos técnicas de aumentar a probabilidade de que os usuários do site sejam humanos. Por exemplo, o site pode ser configurado como somente convite e medidas podem ser tomadas para garantir que você esteja convidando apenas usuários que você tenha motivos para acreditar que sejam humanos para o site.

Acho a filosofia por trás de tudo isso super interessante, mas não vou me aprofundar nisso neste tópico.

agemo · Julho 7, 2023, 7:47pm

Eu me oponho firmemente à moderação contínua de minhas tentativas de abordar este tópico de forma profunda e séria. A lentidão é uma piada, ter que esperar uma hora a cada vez.

Há uma tonelada de posts vagos que permanecem de muitos usuários. Consistência não, parcialidade, hmmm, bem, é assim que parece para este usuário até agora e eu não levo as coisas para o lado pessoal, mas a moderação geriátrica sufoca, para dizer o mínimo.

Estou apenas tentando elevar esta situação mais séria e flagrante em questão, e finalmente temos um post excelente e sério de @simon.

Excelente e certeiro, exatamente o que o OP e outros precisavam ouvir primeiro. Muitas opções estão enterradas na extensa seção de administração, e eu, por exemplo, não havia notado este recurso/optin antes. Agora posso testá-lo, seria bom se ele pudesse ter mais informações personalizadas do que o cartão padrão. Talvez campos de texto personalizados resolvam isso, alguém sabe?

Muito obrigado.

Falco · Julho 14, 2023, 8:26pm

Se este artigo estiver correto

Você precisará remover seu site da internet aberta / bloquear o Google / habilitar login_required.

awesomerobot · Julho 14, 2023, 9:19pm

Vale a pena notar que não há absolutamente nada que exija que um rastreador obedeça ao robots.txt e falsificar um user-agent é trivial. Não há leis que regulem essas coisas. Nenhuma quantidade de urgência ou seriedade mudará isso. Se você está preocupado com seus dados sendo usados, tudo o que você pode fazer é tornar seu site privado e esperar que vários processos legais sobre dados de treinamento se resolvam.

simon · Julho 15, 2023, 1:06am

Espero que sites que dependem de publicidade vejam uma queda na receita e comecemos a ver muito mais conteúdo atrás de paywalls. A qualidade da parte livre e aberta da internet será diluída.

O Discourse poderia realmente capitalizar essa tendência, criando um serviço de assinatura para seus clientes hospedados.

merefield · Julho 15, 2023, 5:41am

Já existe um plugin de assinaturas que pode estar disponível para alguns níveis em hospedagem. Sites auto-hospedados já podem adotá-lo.

O problema com o conteúdo oculto é que ele afetará seu SEO, então pode depender de qual é o seu funil de novos usuários.

Eu pessoalmente confio na busca para captar novos usuários, então coloco apenas um pouco de conteúdo atrás de uma parede de conta.

Para muitos sites, você ainda precisa ser descoberto!

Ed_S · Julho 15, 2023, 4:17pm

Você me parece ter duas preocupações relacionadas, @agemo, uma sendo o uso de IA em software e a outra sendo que as interações de pessoas comuns na web podem ser usadas para treinar IA. Você está bastante preocupado com essas coisas e quer que elas não aconteçam.

Eu consigo entender isso. Espero que essas preocupações sejam compartilhadas por muitos.

Deixe-me dizer, há muitas coisas no mundo sobre as quais me preocupo e gostaria que fossem diferentes - mas não as trago aqui porque elas não são acionáveis por pessoas aqui, ou pelo Discourse como uma oferta. Se eu continuasse a trazê-las, poderia ser irritante e eu poderia me encontrar moderado.

Talvez você sinta que não está sendo ouvido. Mas eu acho que o que realmente está acontecendo neste tópico é que os outros neste tópico acreditam que suas preocupações não são acionáveis, não são acionáveis aqui ou por eles. Talvez algo possa ser feito, mas não pode ser feito por indivíduos aqui. Talvez a resposta seja um movimento de massa, uma campanha ou uma revolução - mas acho justo se os moderadores aqui sentirem que tais coisas estão fora do tópico aqui.

agemo · Julho 15, 2023, 5:52pm

Aconteceu. Aquilo que não podemos mudar. A IA foi liberada agora e é o evento. Eu nunca sugeri que poderíamos voltar no tempo.

Os moderadores acharam que entendiam este tópico, mas não entendem, e continuam moderando minhas contribuições. Estou entediado de falar sobre a moderação, em vez das soluções, mas eles continuam fazendo isso ou outros usuários também, talvez eles não vejam o valor ou estejam muito confortáveis.

A realidade é que, desde minhas intervenções para tentar direcionar este tópico para um foco mais baseado em soluções, apesar da moderação desajeitada, houve algum resultado.

Você pode pensar que não pode fazer algo, mas olhar para isso e reconhecer que:
a) é sério
b) é urgente
c) precisa de foco

É um começo, e que você tem controle sobre sua reação, mas não sobre o evento que aconteceu e agora está no passado e afeta o presente todos os dias no futuro previsível.

Não há solução oferecida a não ser usar rudimentarmente soluções derivadas de outros problemas, e assim quebra a proposta, pois o evento de IA está forçando as pessoas a assumir posições que quebram todo o seu esforço até o ponto do evento.

É muito natural não querer fazer parte de algo que é uma ameaça direta e que alavancará seu conteúdo em competição direta contra todos os seus esforços até aquele ponto, para começar, mas não para por aí.

Vou resumir tudo com uma simples pergunta retórica (você pode argumentar se é retórica ou não, mas terá que reconhecer a IA).

Por que alguém consideraria implantar uma instância do Discourse (ou similar) agora?

Existem tantas preocupações com esta questão, às vezes um assunto (OP) exemplifica todo o universo das consequências do problema, e este é certamente um. Não deveria ficar tão restrito, especialmente quando o Discourse não tem uma solução real a oferecer, então o tópico por sua própria natureza no contexto está em aberto ou é “desculpe, como não há solução para isso, o tópico está agora fechado”, escolha.

Abra ou feche.

Estamos entendendo isso?

Este é o ponto. Se houver um reconhecimento de que não há vontade de abordar a questão, então faça-o, caso contrário, este tópico permanece e precisa ser muito amplo, esse é o nível de atenuação da moderação necessário neste assunto, porque é território virgem.

Se houvesse uma ou duas caixas de seleção que resolvessem isso nas configurações, todos iríamos para casa, mas realmente não há, ainda. Pode haver alguns paliativos, mas eles não estão no reino de “RESOLVIDO”, nisso acho que todos concordam.

Como nenhuma solução foi criada em resposta direta para abordar as preocupações do OP e a questão da IA e como um administrador precisa gerenciar isso, então meus pontos permanecem.

Se houver, por favor, aponte-os, poste-os aqui ou a solução em desenvolvimento ou o que for. Estamos entendendo isso?

Aí reside uma responsabilidade, de um desenvolvedor, de um usuário e da relação existente que faz tudo funcionar. Então discutimos. Repetidamente, se for necessário.

O que vejo é zero reconhecimento de como isso quebra até os últimos posts desde que o OP começou em maio e estes eu celebrei, mas fui moderado por isso. Isso é uma piada. A IA está realmente quebrando a rede, de novo, por que se dar ao trabalho de configurar um Discourse ou plataforma similar? Se não podemos discuti-lo de maneira séria, genuína e robusta que atenda às demandas do assunto, então aí está sua resposta.

O mercado está se movendo, todo o dinheiro, atenção e euforia estão caindo de cabeça nos bolsos da OpenAI e Cia. Vejo desenvolvedores por toda parte aqui, como em todos os outros lugares, dando um passo à frente e escolhendo a adoção e integração completas de IA com zero circunspecção, ZERO!

É por isso que tal OP permanece encurralando e frustrante. Quebrar seu Discourse é a única solução infalível. O que não é uma solução. É virtualmente um game over.

Minha analogia sobre como a IA está sendo reagida pelos desenvolvedores, retoricamente: quase todos parecem estar ocupados construindo todos os tipos de baldes legais para coletar a lava da erupção do vulcão (a erupção sendo o evento) e a reação de construir um balde para coletar lava, a lava é um presente do deus vulcão, traz calor e luz sim, mas também queima as coisas muito rápido, e sem o balde você não pode controlar o pedaço que tem, mas o balde esconde esse fato, parece seguro, legal, arrumado, por enquanto.

Não. Isso não estaria correto. Eu expliquei por que os moderadores erraram e como isso é muito mais sério do que eles admitem, e isso pode ser desapontadoramente sintomático da posição de cima para baixo da relação entre Discourse e IA… parece que é tanto “meh” quanto um encolher de ombros, mas os sentimentos podem estar errados, então prove que estou errado com fatos.

Algumas pessoas entenderam meus pontos, ou pelo menos olharam mais atentamente para o OP, fizeram algumas contribuições melhores, pelas quais sou grato, pois me levaram por alguns caminhos potenciais para uma solução rudimentar de múltiplos pontos, ainda em andamento, e exigiriam algum reconhecimento dos desenvolvedores para mapear melhor às demandas que a IA levantou, para torná-la melhor como uma medida paliativa viável, mas ainda assim paliativa.

Tem sido uma década difícil para fóruns online, de declínio de tráfego a receita. As implicações deste evento quebram esses gráficos de desânimo e para muitos operadores podem significar nada menos que um evento de desgraça final e eles simplesmente fecharão as portas.

Ed_S · Julho 15, 2023, 6:52pm

Eu quero ter discussões sobre certos tópicos, então eu executo fóruns onde as pessoas podem se encontrar e discutir esses tópicos. Eu escolhi o Discourse, mas na minha opinião qualquer outra solução na web aberta teria os mesmos riscos e os mesmos resultados. Eu quero que minhas discussões estejam na web aberta e apareçam nos resultados de busca.

As pessoas podem e têm interações em plataformas com foco em privacidade como Telegram e Signal, mas essas são ofertas de tipos diferentes construídas por razões diferentes. É possível que o chat do Discourse possa oferecer parte do que você quer - como acontece, eu não tenho interesse nisso.

Tópico		Respostas	Visualizações
What is stopping you from trying out Discourse AI? Community Building ai	35	2097	23 de Agosto de 2025
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	102	9141	13 de Fevereiro de 2025
Discourse is Agent Ready: Here’s How Blog	9	605	24 de Maio de 2026
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	34	1946	20 de Novembro de 2025
Is there any AI at the core of standard Discourse? Support	15	1714	31 de Maio de 2023

Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

Tópicos relacionados