Você está enfrentando spam baseado em IA?

Estou curioso para saber dos membros da comunidade se eles estão experimentando algum spam impulsionado por IA ou um aumento nele.

Isso envolveria especificamente ver respostas a perguntas que parecem ser baseadas em ChatGPT e que parecem não humanas ou que têm alucinações (um problema comum com LLMs).

Estou experimentando spam baseado em IA

  • Sim
  • Não
0 voters

Se a resposta for sim, estou curioso para saber…

  • Com que frequência isso está acontecendo?
  • Quanta parte desse problema está sendo criada em sua comunidade?
  • O que você está fazendo atualmente a respeito?

Se a resposta for não, estou curioso para saber…

  • Como você está impedindo que isso aconteça?
  • Existem razões pelas quais sua comunidade inerentemente não enfrenta esse problema?
12 curtidas

Nós apenas usamos IA como uma ferramenta para buscar conhecimento, talvez um pouco de bate-papo casual.
Talvez nossa comunidade seja pequena e tenha um senso comum de que alucinações são RUINS

4 curtidas

Comunidade privada (requer login, apenas por convite).

7 curtidas

Acho que a forma mais eficaz de parar qualquer tipo de spam é ser membro de uma língua muito pequena e difícil. Isso impede os palhaços que fazem trabalho manual.

Bem, todos sabemos que os spammers não são tão inteligentes e o tráfego automático não se importa com idioma, gênero ou até mesmo tamanho. Portanto, deve haver outra razão pela qual alguns fóruns ou sites são como ímãs para qualquer tipo de lixo e outros vivem sem drama.

Pela razão pela qual os spammers podem se inscrever lá e não em outro lugar quando o sistema e a configuração devem ser idênticos, não tenho resposta. Mas uma coisa é certa: a necessidade do administrador ou de outra força de bastidores de aumentar o crescimento rápido de uma audiência global levará a problemas de bots e spam.

2 curtidas

Nas últimas duas semanas, vimos um pico em nosso site. Estamos vendo spam típico com links ocultos em novas respostas de novas contas. Quando aumentamos a reputação para a criação de novas postagens, vimos um aumento nas respostas geradas por IA, e parecia que os bots estavam tentando aumentar lentamente sua reputação em contas falsas. Essas respostas não têm links falsos óbvios, elas apenas têm texto genérico de IA que não contribui para responder à pergunta.

Fomos atingidos durante um fim de semana com um grande pico de postagens de spam, o suficiente para que alguém criasse um novo tópico dizendo que havia muito spam em nosso fórum. Desde então, os administradores precisam verificar o site todos os dias para limpar postagens falsas de IA. Também estamos vendo postagens de IA em contas que foram criadas no passado e não tiveram atividade, o que faz parecer que alguns bots de spam estavam semeando contas por um tempo e deixando-as inativas. Agora eles estão tentando passar lentamente pelos limites de engajamento para que possam postar novos tópicos.

Como observado acima, aumentamos os níveis de confiança para postar novos tópicos. Também habilitamos o Akismet. Mas isso não parou as postagens de spam de IA. Atualmente, precisamos que um administrador/moderador verifique o fórum todos os dias para revisar postagens sinalizadas e limpar. Algumas são desafiadoras e parecem ser de uma pessoa, então duas pessoas precisam verificar.

Encorajamos nossos usuários a ajudar e sinalizar postagens que parecem ser de IA e isso ajudou.

Nosso fórum tem um volume relativamente baixo e funciona há anos com pouca limpeza e manutenção de administradores, mas parece que os bots de IA nos encontraram. Estou pensando se a IA pode ser necessária para parar a IA?

6 curtidas

Sim, infelizmente. Ou então você verifica temporariamente todos os novos usuários e diminui o tempo de “quando um usuário se inscreve” até a postagem.

Nós temos:

Ele também suporta sinalização, então você pode usá-lo hoje.

3 curtidas

Nesse sentido, acabamos de publicar um guia sobre isso!

8 curtidas

Em seguimento a isso, alguém já teve a chance de experimentar isso? Eu adoraria ter o seu feedback.

1 curtida

Ainda não vi muito, mas meu fórum mantém as primeiras postagens em moderação, e geralmente consigo dizer se alguém pode ser um spammer por certas pistas. Eu bloqueio os suspeitos em TL0 até que eles postem algo que seja claramente sobre o tópico.

Não é um fórum de “bater papo sobre coisas aleatórias”, então geralmente é possível dizer se alguém está fingindo interesse pela primeira postagem.

3 curtidas

Na verdade, acabei de me deparar com um usuário que passou despercebido e está postando com ChatGPT ou outra IA. Pode haver mais contas de spam que eu perdi.

Algumas ideias sobre como combatê-lo:

  • Crie um banco de dados de provedores de VPN. O endereço IP deste é da “M247 Europe SRL”, que é um provedor de serviços de VPN. Sempre quis algum tipo de notificação de que uma nova conta está usando uma VPN. No momento, tenho que fazer isso manualmente.
  • Acompanhe o tempo de leitura, dias visitados, tópicos/posts lidos. Este usuário passou 8 minutos lendo o site, mas postou 6 comentários e visitou apenas 3 vezes no dia do registro. O usuário ainda está naturalmente no TL0, porque ele realmente não fez nada além de postar comentários.
  • Escrevi mais ideias nos comentários desta página.

Gostaria de saber se é possível classificar aproximadamente os usuários pela proporção de tempo gasto no site em relação ao número de palavras escritas, além de outros sinais como VPN, conteúdo colado, conteúdo injetado, etc. Contas suspeitas poderiam ser marcadas para revisão.

Editar: esta rápida consulta ao Data Explorer descobriu mais alguns, embora alguns deles já estivessem suspensos.

SELECT
    u.id,
    u.created_at,
    u.username,
    u.trust_level,
    us.time_read,
    us.days_visited,
    us.topics_entered,
    us.post_count,
    us.topic_count
FROM users u
LEFT JOIN user_stats us
ON us.user_id = u.id
WHERE u.trust_level < 1
AND u.created_at > '2023-01-01'
AND us.time_read < 1000 -- segundos
AND us.post_count > 1
3 curtidas

Esta é uma abordagem interessante para eliminar pessoas que podem “fingir atividade” em um único dia para fazer upgrade para um TL mais alto

Gosto da recomendação aqui de usar maneiras adicionais de classificar usuários, algo para investigar!

4 curtidas

5 posts foram movidos para um novo tópico: Bloqueando onda recente de spam

Um por dia. Padrão em fóruns com cerca de 2000 usuários (500 por ano novos):

  • novo usuário se cadastra com domínio de e-mail da categoria “domínio temporário”, como “cetnob.com”.
  • em poucas horas, cria um novo tópico ou responde a um tópico existente
  • cria texto apenas nas seções em inglês (site bilíngue, com mais de 90% NÃO em inglês)
  • às vezes inclui um URL no texto, às vezes não
  • o texto parece uma pergunta ou observação real, usando palavras unicamente usadas nos fóruns e material relevante
  • mas o texto parece um pouco fora do tópico, mas ainda assim muito bom: um engenheiro de suporte inexperiente não conseguiria detectá-lo

Isso se assemelha muito ao padrão descrito em:

Já estamos bloqueando hotmail, gmail e outros domínios voltados para o consumidor usando uma lista explícita, mas existem pelo menos 10.000 domínios conhecidos por nós que são usados para esse tipo de abordagem. Em nosso próprio software, temos uma lista explícita mais uma verificação em tempo real no UserCheck (usamos a variante gratuita e verificamos apenas no momento do cadastro em nossos próprios aplicativos e cache, então 5000 consultas por mês são suficientes).

Pelo que vi, esse comportamento específico pode ser combatido bloqueando automaticamente domínios de e-mail temporários/spam.

Bloquear TL0 de usar links não é realmente considerado mais viável do que moderar todas as novas solicitações, pois muitos usuários postam diretamente após o primeiro cadastro, sendo o site um portal de suporte.

Existe um plugin para isso, mas ele parece não ser mais mantido (veja Plugin to detect & reject disposable emails on signup).

Não tenho certeza se essa abordagem resolverá todos os problemas, por exemplo, para fóruns maiores ou fóruns que aceitam endereços de e-mail de consumidores.

5 curtidas

Estou recebendo muitos spammers de IA ultimamente, e é demorado analisá-los.

Com o spammer atual que estou analisando, o texto está escrito em inglês perfeito, é uma VPN, o endereço de e-mail está no StopForumSpam e posso dizer que o conteúdo foi copiado/colado porque o caractere de hífen usado não existe em teclados. Tive que verificar tudo isso manualmente e ainda tenho vários outros para analisar esta manhã.

Pensando em outra ideia:

Quando uma postagem é salva, o Discourse poderia registrar dados extras em um campo JSONB nessa postagem:

  • Endereço IP
  • é_vpn? — uma consulta no maxmind para encontrar a organização e ver se é uma VPN (por exemplo, PacketHub S.A.)
  • Uma consulta rápida para o endereço de e-mail no StopForumSpam
  • Uma comparação do número de caracteres de saída no editor versus o número de caracteres que produzem saída digitados (excluindo teclas de seta, ctrl, etc.). Por exemplo, o usuário gerou 1.000 caracteres no conteúdo bruto, mas pressionou teclas que produzem saída apenas 10 vezes (sugerindo que o conteúdo foi colado e o usuário pode ter editado uma palavra).
  • Número de vezes que o conteúdo foi copiado ou cortado usando atalhos de teclado ou clique com o botão direito.
  • Número de vezes que o conteúdo foi colado usando atalhos de teclado ou clique com o botão direito. A diferença nos números de cópia/colagem forneceria outra pista.

Os moderadores poderiam visualizar esses dados nas postagens em uma pequena tabela. Valores incomuns poderiam ser destacados para que postagens suspeitas se destacassem.

Provavelmente não há um método perfeito para automatizar a detecção, mas ter mais informações aceleraria o processo de moderação.

4 curtidas

Tenho curiosidade se algum dos guias a seguir ajudou, já que o spam só se tornou mais intrincado com o tempo

Não tenho usado IA nos meus fóruns porque é caro. Também não estou convencido de que a IA seria capaz de resolver este problema, porque o conteúdo parece normal. Eu ainda teria que investigar manualmente cada postagem suspeita.

Não tive problemas com conteúdo NSFW.

Meu problema não é que há algo de errado com o conteúdo. As únicas coisas suspeitas sobre ele são que novos usuários não escrevem postagens assim minutos após o registro, e o conteúdo também é um tanto vago. Meu fórum principal tem um tópico muito específico, e se uma primeira postagem não diz algo específico sobre a relação da pessoa com esse tópico, eu inicio o processo de investigação. Caso contrário, posso não notar as postagens deles.

Aqui estão alguns exemplos. O conteúdo é vago o suficiente para eu iniciar o processo de investigação, mas consome tempo, porque tenho que fazer isso manualmente.

Não posso banir este usuário apenas pelo conteúdo. São as outras pistas que me dizem que é um spammer.

Este endereço IP era uma VPN na Noruega, e o conteúdo era muito vago. Consegui confirmar porque o endereço de e-mail estava no StopForumSpam com um endereço IP da Alemanha:

Estou apenas pensando em voz alta aqui, mas seria mais rápido moderar esses usuários se houvesse uma pequena tabela nas postagens que dissesse algo como:

localização Oslo, Noruega [de maxmind]
organização PacketHub S.A. [de maxmind]
is_vpn true
e-mail whatever@example [às vezes isso fornece pistas]
stopforumspam true [link]
characters_output 1.234
characters_output_pressed 10 [isso não corresponde ao número de caracteres na postagem, então é uma pista]
num_cut_or_copy 0 [não copiou texto do editor]
num_paste 1 [fez uma colagem]
seconds_editor_open 20 [suspeito para uma postagem desse tamanho]

Talvez a tabela pudesse ser recolhida, a menos que haja um valor suspeito e/ou moderadores pudessem sinalizar um usuário específico como “provavelmente não é spam”, o que então recolheria a tabela em todas as suas postagens ou interromperia futuras pesquisas para esse usuário. Ou o usuário poderia ser automaticamente marcado como seguro quando atingisse o TL2.

É uma combinação de coisas:

  • VPN ou endereço IP tende a estar em um pequeno número de países onde há muitas empresas de SEO (Índia, Paquistão, Ucrânia, Vietnã, Bangladesh).
  • Às vezes, os endereços de e-mail estão no StopForumSpam.
  • Muito do conteúdo é colado no editor, mas provavelmente não todo.
  • Os endereços de e-mail muitas vezes não correspondem ao nome de usuário. Por exemplo, o nome de usuário será “Bob Smith” e o endereço de e-mail será algo diferente, como stevenjohnee1234@example.
  • O conteúdo bruto às vezes usa caracteres de pontuação formatados como aspas inteligentes ou travessão, sugerindo que o conteúdo não foi escrito no editor do Discourse.
5 curtidas

Dê uma olhada na postagem 1622105 aqui neste fórum. Foi postada 3 minutos após o registro, editada manualmente para alterar o link de Quora para stackexchange, e o inglês está bom, mas está falando sobre tecnologia que não é relevante para o Discourse. Não quero linkar para ela porque isso notificaria o autor.

Esse é o tipo de postagem onde seria útil ver os dados que mencionei acima diretamente na postagem.

1 curtida

Muito disso parece experiência de equipe vs. IA. Chamarei as pessoas certas para o tópico.

Acho que parece convincente tentar reforçar parte da detecção de “digitação rápida” que já temos. Ter o SFS integrado ao núcleo também pode ser convincente.

Há, é claro, a profunda questão filosófica:

É spam se agrega valor ao fórum (mesmo que seja gerado por IA)

Deve ser removido do fórum se não agrega valor ao fórum (mesmo que seja gerado por humanos)

Nenhuma dessas perguntas tem respostas super claras.

5 curtidas

Eu acho que a sugestão de disponibilizar mais metadados para os moderadores é boa. Independente de melhorar os recursos automáticos.

4 curtidas

É possível que varie de fórum para fórum.

Deixo alguns posts de spammers online quando provocam discussão, mas a maioria é excluída. A qualidade é muito baixa e muitas vezes é fácil dizer quando algo foi escrito por IA. Se eu sinto que algo que estou lendo é IA, começo a perder a confiança na fonte. Não sou um ludita da IA, mas não quero ler conteúdo gerado por IA, a menos que eu saiba que foi gerado por IA.

Se eu vejo que alguém está usando IA no fórum, eu imediatamente paro com isso porque conteúdo confiável é um dos ativos mais importantes do fórum.

Além disso, o que parece aceitável para humanos em 2024 pode ser fácil para as pessoas detectarem como IA em 2034, assim como os efeitos de filmes que antes pareciam realistas décadas atrás são agora imediatamente detectáveis como falsos. Acho que o conteúdo gerado por IA de 2024 vai parecer datado eventualmente.

2 curtidas