Como impedir que conteúdo da comunidade seja usado para treinar LLMs como ChatGPT?

Sim, este é um ponto retórico muito amplo e acho que você perdeu a implicação.

Vou me arriscar e dizer que seu processo lógico foi conduzido em um tempo anterior à iteração atual de IA/ChatGPT, e esse era o antigo normal do espaço de exibição.

As pessoas no mesmo espaço hoje têm este novo paradigma que chama a atenção e muda o jogo (IA) que parece prometer um fator X aparentemente infinito em termos de potencial e consequências, ambos em igual medida.

Toda atividade e suposições anteriores que informaram decisões passadas tornam-se nulas e sem efeito se a IA teve acesso a tudo isso, e há o suficiente encontradoAnecdotalmente online para sugerir que a raspagem de dados para alimentar a IA está acontecendo há 3, talvez 5 ou mais anos, no caso da DeepMind, talvez já em 2014, quando o Google a comprou (talvez uma análise forense de amostras de log possa provar isso, ou talvez tenha sido ocultado para evitar isso). Se você considerar isso relativamente verdadeiro, poderá ver que o problema é gritante nos prazos técnicos.

Todo o conteúdo pode ter sido raspado e é tarde demais, mas eu considerei isso em minhas preocupações e representações, e estou apenas observando isso aqui, porque, como afirmei, não há solução de máquina do tempo aqui, apenas o poder da circunspeção para informar soluções presentes e futuras.

Desculpe, não entendi nada disso.

A implicação da pergunta era que agora existe uma nova e atraente opção na cidade, vista como uma solução acima de todas as outras para muitas necessidades, que é a IA (tecnologia com tecnologia ChatGPT).

Você está dizendo que ninguém escolheria configurar um fórum porque os LLMs oferecem às pessoas tudo o que elas querem dos fóruns? (Esse não é o tópico deste thread, a propósito.)

(Se você quer que as pessoas façam algo por você, acho que você precisa ser claro sobre qual você acha que é o problema e o que você acha que elas podem fazer por você. Estou vendo que você se importa profundamente, mas não sei o que você quer. Como qualquer pessoa, tenho tempo e energia limitados, então não vou me esforçar para descobrir seus pensamentos.)

Editar para adicionar:
[details=“o resumo atual de "IA" deste thread, para posteridade”]

Uma discussão em fórum sobre como impedir que o conteúdo da comunidade seja usado para treinar modelos de linguagem como o ChatGPT gira em torno de tornar o conteúdo privado exigindo login, bloqueando scrapers via robots.txt ou a configuração de agente de usuário do rastreador bloqueado do Discourse, ou removendo o site da internet aberta completamente. Embora alguns discordem de impedir o uso de dados públicos e acreditem que é uma parte inevitável do progresso, outros argumentam que os criadores de conteúdo deveriam ter mais controle sobre como seu trabalho é usado. A discussão explora as questões filosóficas em torno da propriedade da informação e da criatividade, bem como fornece dicas práticas para mitigar o uso de dados por sistemas de IA.
[/details]

4 curtidas

De repente, há uma nova razão para não escolher os velhos costumes, à qual a maioria tem dificuldade em resistir.


Eu não sou o OP, mas empatizo ainda mais com o OP agora.

  1. Leve o OP a sério, o que ninguém estava fazendo,

e

  1. O motivo é que, com todos os eventos como este, eles têm repercussões profundamente positivas e negativas, e eu não acho ou detecto qualquer reconhecimento sério das desvantagens, e um viés para as vantagens percebidas, e, portanto, não há atividade para avaliar e mitigar, ou seja, apoiar aqueles afetados por isso, mas em um nível de plataforma.

Mais uma vez, eu não sou o OP, mas o problema do OP é o problema de todo discurso (que é voltado para o público). É também uma ameaça existencial sistêmica para a rede, é agnóstico de plataforma, ou

não é nada mais do que “brinquedos novos e legais” para brincar pragmaticamente.

O último não é sério no contexto. É propositalmente cego. Pessoalmente, acho irresponsável. O que torna o paradigma da IA ainda mais perigoso.

Tópicos únicos não resolverão isso, é liderança. Comecei com @ sam e @ codinghorror e foi quando todo o cataclismo de moderação começou, feito uma vez, não abusado, mas você sabe, outras pessoas pensam melhor e sabem o que é melhor, espere até que a IA realmente se aprofunde. :rosto_derretendo:

Conclusão: Esta questão precisa ser levada muito a sério.

Então, pode ser necessária sua própria categoria. É isso que é enorme.

Até agora, além da solução que não é uma solução, mas sim uma quebra, se a estratégia for trancar a porta com - login_required (configuração), então nesse cenário, para mitigar os efeitos negativos do tráfego, se você depender de tráfego de busca, é ter algo para ver, mas não tudo.

Frontend do WP / Site com login_required no Discourse
(mais trabalho, mais custos de hospedagem, suporte etc.)

Coisas que também ajudariam, mas não foram criadas exatamente com este problema em mente:

Páginas Publicadas se desenvolvidas com uma página de listagem dedicada, algumas opções para configurar, poderiam atuar como uma página de destino intermediária onde os usuários podem ver algum conteúdo público com um prompt para se registrar para ler mais.

– permitir listagem de página publicada em sua própria página /pub (tornar página inicial)
– permitir páginas publicadas listadas na página login_require
– permitir categoria personalizada ou mais recentes na página login_required

Encontrei Páginas Publicadas apenas há alguns dias como um recurso ao tentar encontrar uma solução para este problema e, se bem me lembro, mesmo antes do dilema da IA, usuários anteriores solicitaram um recurso de listagem semelhante para páginas publicadas.

Um tratamento mais configurável e proposital de páginas publicadas é, na minha opinião, mais preferível do que um complemento completo de frontend do WP, se for necessário resolver algum ponto de conexão voltado para o público.

Listar Tópico Apenas com a Primeira Postagem

Mostrar apenas a primeira postagem de qualquer tópico e exigir login para ler os comentários. Já vi sugestões semelhantes pelo menos uma vez e com um polegar para baixo, mas neste contexto, requer reavaliação.

Considere também estas sugestões como uma lista incompleta, meramente curativos potenciais para parte do problema, e não para todo ele.


Enquanto isso, voltarei a aterrorizar este tópico com muitos sentimentos :slight_smile: How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

1 curtida

Pela sua última resposta, vejo que estamos chegando a uma conclusão mais ou menos semelhante de lidar com o problema tendo uma mistura de conteúdo público e privado. Escrevi o post abaixo antes de ler sua resposta. Vou publicá-lo de qualquer maneira para tentar ajudar a defender o caso.

Eu levo o OP a sério, tanto porque ele faz uma pergunta legítima, quanto porque posso compartilhar uma preocupação com seu autor sobre como os LLMs vão afetar a internet. Se entendi suas preocupações corretamente, acho que concordo com você que estamos testemunhando uma mudança fundamental na forma como a internet funciona - em vez de as pessoas visitarem sites diretamente, os LLMs se tornarão a interface preferida para interagir com a parte pública da internet. Existem todos os tipos de implicações para isso que provavelmente não podem ser tratadas utilmente aqui.

O que pode ser abordado aqui é a questão de como impedir que o conteúdo do Discourse seja usado para treinar LLMs. O Discourse oferece algumas abordagens possíveis.

A primeira abordagem é fraca - mantenha o site público e tente bloquear quaisquer user agents que estejam sendo usados para raspar dados com a configuração do site blocked crawler user agents. Além de fazer isso, você pode se envolver em desafios legais contra as empresas de tecnologia que estão raspando os dados.

A abordagem mais forte é tornar todo o seu site, ou partes dele, privado. Isso pode ser feito com a configuração do site login required (login necessário) ou com as configurações de segurança de categoria.

A principal objeção que estou vendo à abordagem acima é que as pessoas querem que seus sites sejam descobertos pelos motores de busca. Suspeito que existam maneiras de lidar com isso. A mais fácil seria ter um blog público otimizado para SEO, associado a um fórum privado do Discourse. Uma solução mais complexa seria o Discourse fornecer funcionalidades que permitissem que parte do OP de um tópico fosse pública, enquanto o restante do tópico só pudesse ser acessado por membros de um grupo do Discourse. Isso seria semelhante a como serviços como o Substack lidam com conteúdo que está disponível apenas para assinantes pagos - eles exibem algum conteúdo acessível a usuários anônimos e crawlers, e então exibem um CTA de inscrição:

Então, acho que, juntamente com minha preocupação sobre como os LLMs vão impactar a internet, estou vendo uma oportunidade de olhar para novas maneiras de financiar criadores de conteúdo.

7 curtidas

Onde fica essa configuração?

2 curtidas

Sua pergunta é “por que alguém produziria algo que pudesse ser colocado na internet pública?”

Quando você faz a pergunta na internet pública, ninguém que compartilha sua opinião pode responder à sua pergunta.

6 curtidas

Este tópico é desgastante, o resumo baseado em IA cobre o tópico muito bem, role para o topo e clique nele

Fechando pelos próximos 3 meses

12 curtidas

Este tópico foi aberto automaticamente após 90 dias.