Adoraria ouvir as experiências de equipes de fóruns que não permitem conteúdo gerado por IA/LLM. Como vocês conseguiram comunicar isso aos usuários? Como detectam esse tipo de conteúdo? Como abordam os usuários que postam mesmo assim?
A maioria, senão todas, as gerações de texto por IA podem ser facilmente detectadas apenas pela leitura. O SynthID do Google é uma tecnologia interessante para detectar imagens geradas por IA e afirma ser capaz de detectar texto, provavelmente escrito apenas pelo Gemini, mas a OpenAI também dá suporte ao padrão. Ser capaz de detectar o texto pessoalmente é provavelmente uma habilidade adquirida, mas eu aprecio o trabalho sendo feito para responder à crise atual que temos de não conseguir detectar imagens ou textos gerados por IA.
Silenciar/suspenções ainda são o melhor caminho para isso, na minha opinião, especialmente se a conta for nova. Se houver uma conta nova aleatória que se junta ao seu site e instantaneamente posta um tópico gerado por IA, não vejo motivo para não simplesmente suspender a conta e bloqueá-la.
Quanto ao dilema inteiro de raspagem de dados (scraping): Meu site é para comunicação interna e documentação dentro de uma pequena empresa no momento e estou planejando usá-lo como um backend para blogging eventualmente. Não foi difícil configurar uma armadilha (honeypot) para desencorajar os rastreadores que optam por ignorar os arquivos robots.txt nos meus domínios.
Sempre que um rastreador de IA visita esse site, eles são levados a um labirinto infinito de spam usando o projeto iocaine auto-hospedado com um conjunto de dados de aproximadamente ~7000 palavras inventadas, algum HTML sem sentido, palavras aleatórias e notícias falsas feitas pelo Llama 8B.
Obviamente, esta é uma tática nuclear de “afaste-se” e não é para todos, mas tem sido ótima para mim no meu objetivo de impedir que LLMs (Large Language Models) peguem meu código ou conteúdo textual. Lembro de ter lido um estudo de caso que a Anthropic fez sobre envenenamento de LLM, mas não consigo encontrar o artigo mais, então não será anexado aqui, mas certamente em algum momento eles precisarão bloquear meu domínio quando perceberem que o bot enviou uns 5 milhões de solicitações para o meu domínio recentemente.