Gostaria de ouvir as experiências de equipes de fóruns que não permitem conteúdo gerado por IA/LLM. Como vocês conseguiram comunicar isso aos usuários? Como detectam esse tipo de conteúdo? E como abordam os usuários que publicam mesmo assim?
Todos os comentários são bem-vindos.
Observação: Pessoalmente, estou interessado apenas no lado humano das interações no front-end do site. Pressuponho que bloquear crawlers é uma causa perdida.
Nosso fórum é dedicado a discussões espirituais/religiosas. Banimos qualquer e todo conteúdo gerado por IA.
A maioria, senão todas, as gerações de texto por IA podem ser facilmente detectadas apenas pela leitura. O SynthID do Google é uma tecnologia interessante para detectar imagens geradas por IA e afirma ser capaz de detectar texto, provavelmente escrito apenas pelo Gemini, mas a OpenAI também dá suporte ao padrão. Ser capaz de detectar o texto pessoalmente é provavelmente uma habilidade adquirida, mas eu aprecio o trabalho sendo feito para responder à crise atual que temos de não conseguir detectar imagens ou textos gerados por IA.
Silenciar/suspenções ainda são o melhor caminho para isso, na minha opinião, especialmente se a conta for nova. Se houver uma conta nova aleatória que se junta ao seu site e instantaneamente posta um tópico gerado por IA, não vejo motivo para não simplesmente suspender a conta e bloqueá-la.
Quanto ao dilema inteiro de raspagem de dados (scraping): Meu site é para comunicação interna e documentação dentro de uma pequena empresa no momento e estou planejando usá-lo como um backend para blogging eventualmente. Não foi difícil configurar uma armadilha (honeypot) para desencorajar os rastreadores que optam por ignorar os arquivos robots.txt nos meus domínios.
Sempre que um rastreador de IA visita esse site, eles são levados a um labirinto infinito de spam usando o projeto iocaine auto-hospedado com um conjunto de dados de aproximadamente ~7000 palavras inventadas, algum HTML sem sentido, palavras aleatórias e notícias falsas feitas pelo Llama 8B.
Obviamente, esta é uma tática nuclear de “afaste-se” e não é para todos, mas tem sido ótima para mim no meu objetivo de impedir que LLMs (Large Language Models) peguem meu código ou conteúdo textual. Lembro de ter lido um estudo de caso que a Anthropic fez sobre envenenamento de LLM, mas não consigo encontrar o artigo mais, então não será anexado aqui, mas certamente em algum momento eles precisarão bloquear meu domínio quando perceberem que o bot enviou uns 5 milhões de solicitações para o meu domínio recentemente.
(Percebo que estamos deixando de lado a questão da carga dos crawlers, dos crawlers que extraem conteúdo para treinamento e das consequências sociais e econômicas dos desenvolvimentos rápidos atuais. Isso é bom.)
Para mim, em um site de hobby com baixo volume,
estamos tentando concordar e formular uma política escrita;
lidamos com as coisas à medida que surgem;
os exemplos mais graves são essencialmente spam, então apagamos e banimos;
caso contrário, fazemos objeções, talvez publicamente ou em particular, e podemos apagar as postagens.
Uma forma sugerida de orientação poderia ser assim:
‘Possuir’ o conteúdo das mensagens que você posta (ou seja, ler e entender, e não copiar e colar cegamente o conteúdo, independentemente de onde ele venha).
Tentar responder às suas próprias perguntas da melhor forma possível primeiro (por exemplo, pesquisando no fórum) antes de iniciar novos tópicos.
Comunicar detalhes de forma sucinta para que outros usuários possam ler e entender e ajudar, ou seja, evitar longos blocos de texto repetitivo ou irrelevante, ou declarações muito amplas sem informações suficientes.
Manter as discussões no tópico, evitar discussões meta (particularmente sobre o uso de IA - seja ‘melhores práticas’ ou ‘ética’).
Manter as conversas respeitosas e lembrar que temos usuários com diferentes origens, visões e opiniões.
Divirta-se! Isso deve ser um hobby.
(Em nosso ambiente de hobby, há um ângulo extra, que é o uso de LLMs dentro do hobby, o que abrange um espectro de possibilidades e tem tanto entusiastas quanto detratores.)