Spam de cópia e cola conduzido por humanos

codinghorror · Junho 8, 2019, 8:02pm

Let us know if you’re still seeing this today.

jsha · Junho 9, 2019, 6:51pm

Yes, still seeing it.

For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.

mbauman · Agosto 23, 2019, 2:48pm

Temos observado isso em nosso site também — ou pelo menos o precursor disso. Nossos usuários e equipe têm sido bastante rápidos em notar materiais plagiados fora de contexto e sinalizado os posts como suspeitos antes que o spammer enviasse o link de spam.

Isso poderia ser automatizado para as primeiras postagens? Seria ótimo sinalizar novos tópicos que contenham cópias exatas de posts existentes.

codinghorror · Agosto 23, 2019, 11:35pm

No momento, verificar uma postagem contra o texto de literalmente todas as outras postagens já feitas é … bastante caro.

Qualquer postagem estranha e sem lógica de novos usuários deve ser analisada com bastante ceticismo, como regra geral. Isso me pega na maioria das vezes.

jsha · Agosto 30, 2019, 1:33am

Isso funciona bem para respostas, mas não tão bem para novos tópicos. Como nosso fórum oferece suporte, a maioria dos novos usuários faz perguntas que parecem bastante semelhantes a outras que já foram feitas (e às vezes as perguntas são copiadas de outros sites, como o Reddit, embora muitas também sejam copiadas do nosso próprio site).

codinghorror · Agosto 30, 2019, 1:59am

Sim, essas são extremamente difíceis de rastrear. Já vi algumas delas em outro Discourse.

Elas são cópias exatas ou foram modificadas de alguma forma?

mbauman · Agosto 30, 2019, 5:29am

No nosso caso, o corpo das mensagens tem sido quase uma cópia exata. Frequentemente a formatação é perdida, mas nem sempre. Às vezes, trata-se apenas de uma parte da postagem. Eles também sempre foram novos tópicos. O título, por algum motivo, às vezes é o mesmo e, outras vezes, inexplicavelmente é o título original com a palavra “name” adicionada ao final. Concordo que isso parece ser feito por humanos — acho que alguém está realmente copiando e colando manualmente, e esse processo é com perda. Então, não, uma verificação simples de hash não funcionará na grande maioria dos casos.

Ainda não vimos esse esquema realmente se concretizar, seja lá o que for. Em um caso, perdemos uma postagem por 14 dias e ela nunca foi retomada. Eu a encontrei através de um IP compartilhado com outra conta fazendo a mesma coisa. Também temos nossas configurações de spam ajustadas para o mínimo, porque, mesmo com essas postagens estranhas, quase nunca temos spam real. Usuários TL0 podem postar links externos e imagens imediatamente. Eles podem editar postagens. Então, por que essa farsa? É tudo muito estranho.

Edição: ah, a farsa existe porque eles não apenas contornam o filtro automático de spam, mas também evitam o olhar (e as denúncias) da comunidade ativa, já que edições não reativam o tópico a menos que seja também a postagem mais recente. Assim, para ser eficaz, eles não precisam apenas parecer inofensivos, precisam gerar uma resposta.

jsha · Agosto 30, 2019, 5:52pm

Assim como o Matt, os nossos são majoritariamente exatos, mas geralmente com alguma formatação perdida ou um subconjunto da postagem. Vemos esse tipo de spam principalmente em novos tópicos, mas também em algumas respostas fora do tópico em threads existentes.

mnordhoff · Agosto 30, 2019, 5:58pm

Não me lembro dos detalhes, mas acredito que eles às vezes modificavam também os links ou URLs contidos nas postagens originais. Acredito que isso fosse para contornar os novos limites de links para novos usuários e porque ninguém quer fazer spam no site de outra pessoa.

(Eles modificavam ainda mais os links originais ao editar o spam mais tarde.)

(Edição: Três Matts!)

codinghorror · Setembro 7, 2019, 10:04am

Boas notícias! Adicionamos um recurso para ajudar com isso — níveis de confiança mais baixos têm menos tempo para editar posts. Isso deve ajudar a mitigar as travessuras relacionadas à edição.

Como você pode ver, os usuários TL0 e TL1 agora são limitados a 1 dia de tempo de edição por padrão @jsha @mnordhoff e @mbauman — talvez vocês queiram reduzir ainda mais esse limite.

mbauman · Setembro 7, 2019, 5:27pm

Obrigado! Também modifiquei uma consulta do Data Explorer para fornecer uma tabela agradável de “edições desatualizadas” que os administradores podem revisar ocasionalmente:

SELECT
    p.id AS post_id,
    p.updated_at,
    (p.updated_at - p.created_at) AS staleness,
    u.trust_level,
    (p.cooked LIKE '%href%') AS has_links
FROM posts p
    JOIN users u
        ON u.id = p.user_id
    JOIN topics t
        ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
    AND p.self_edits > 0
    AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
    AND p.deleted_at IS NULL
    AND t.deleted_at IS NULL
    AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500

jsha · Novembro 6, 2019, 12:13am

Isso é fantástico! Muito obrigado. Aumentamos nosso “limite de tempo para edição de post” para 1 dia (1440 minutos) e manteremos assim por enquanto. Mas acabei de aumentar o “limite de tempo para edição de post tl2” para 30 dias (43200 minutos), o que deve tornar as coisas muito melhores para nossos usuários ativos. Agradecemos de verdade o trabalho e a dedicação que a equipe do Discourse colocou nisso.

codinghorror · Novembro 6, 2019, 12:57am

Fantástico! Avise-nos como foi. Sugiro que você possa reduzir o limite de edição padrão para até menos de 1 dia, agora que o TL2 e superiores têm uma configuração separada.

LotusJeff · Julho 23, 2025, 8:45pm

Eu sugeriria adicionar a seguinte linha à cláusula Where:

    AND p.cooked ~ 'href="http[s]?://'

Isso procura apenas por posts que contêm links. Um dos atributos desse tipo de spam é a inclusão de links.

tobiaseigen · Julho 24, 2025, 10:58pm

Interessante que exista uma consulta no explorador de dados para procurar por “edições desatualizadas” que podem ser revisadas em busca de spam. Eu a examinei, mas não encontrei nada obviamente ruim aqui no meta. A consulta já considera links.

Agora temos detecção de spam por IA. Eu a recomendo fortemente!

Tópico		Respostas	Visualizações
Spam bots tricking Discourse filter by editing Support	26	3274	9 de Setembro de 2019
Free to edit post at any time Feature	33	15535	22 de Maio de 2023
Diagnosing spam attack of 100 topics Feature	34	3031	29 de Maio de 2017
People editing posts into spam Support	13	1427	20 de Novembro de 2019
Editing Old Posts and Adding Links Doesn't Alert Anybody Feature	23	7771	7 de Outubro de 2014

Spam de cópia e cola conduzido por humanos

Tópicos relacionados