Let us know if you’re still seeing this today.
Yes, still seeing it.
For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.
Temos observado isso em nosso site também — ou pelo menos o precursor disso. Nossos usuários e equipe têm sido bastante rápidos em notar materiais plagiados fora de contexto e sinalizado os posts como suspeitos antes que o spammer enviasse o link de spam.
Isso poderia ser automatizado para as primeiras postagens? Seria ótimo sinalizar novos tópicos que contenham cópias exatas de posts existentes.
No momento, verificar uma postagem contra o texto de literalmente todas as outras postagens já feitas é … bastante caro.
Qualquer postagem estranha e sem lógica de novos usuários deve ser analisada com bastante ceticismo, como regra geral. Isso me pega na maioria das vezes.
Isso funciona bem para respostas, mas não tão bem para novos tópicos. Como nosso fórum oferece suporte, a maioria dos novos usuários faz perguntas que parecem bastante semelhantes a outras que já foram feitas (e às vezes as perguntas são copiadas de outros sites, como o Reddit, embora muitas também sejam copiadas do nosso próprio site).
Sim, essas são extremamente difíceis de rastrear. Já vi algumas delas em outro Discourse.
Elas são cópias exatas ou foram modificadas de alguma forma?
No nosso caso, o corpo das mensagens tem sido quase uma cópia exata. Frequentemente a formatação é perdida, mas nem sempre. Às vezes, trata-se apenas de uma parte da postagem. Eles também sempre foram novos tópicos. O título, por algum motivo, às vezes é o mesmo e, outras vezes, inexplicavelmente é o título original com a palavra “name” adicionada ao final. Concordo que isso parece ser feito por humanos — acho que alguém está realmente copiando e colando manualmente, e esse processo é com perda. Então, não, uma verificação simples de hash não funcionará na grande maioria dos casos.
Ainda não vimos esse esquema realmente se concretizar, seja lá o que for. Em um caso, perdemos uma postagem por 14 dias e ela nunca foi retomada. Eu a encontrei através de um IP compartilhado com outra conta fazendo a mesma coisa. Também temos nossas configurações de spam ajustadas para o mínimo, porque, mesmo com essas postagens estranhas, quase nunca temos spam real. Usuários TL0 podem postar links externos e imagens imediatamente. Eles podem editar postagens. Então, por que essa farsa? É tudo muito estranho.
Edição: ah, a farsa existe porque eles não apenas contornam o filtro automático de spam, mas também evitam o olhar (e as denúncias) da comunidade ativa, já que edições não reativam o tópico a menos que seja também a postagem mais recente. Assim, para ser eficaz, eles não precisam apenas parecer inofensivos, precisam gerar uma resposta.
Assim como o Matt, os nossos são majoritariamente exatos, mas geralmente com alguma formatação perdida ou um subconjunto da postagem. Vemos esse tipo de spam principalmente em novos tópicos, mas também em algumas respostas fora do tópico em threads existentes.
Não me lembro dos detalhes, mas acredito que eles às vezes modificavam também os links ou URLs contidos nas postagens originais. Acredito que isso fosse para contornar os novos limites de links para novos usuários e porque ninguém quer fazer spam no site de outra pessoa.
(Eles modificavam ainda mais os links originais ao editar o spam mais tarde.)
(Edição: Três Matts!)
Boas notícias! Adicionamos um recurso para ajudar com isso — níveis de confiança mais baixos têm menos tempo para editar posts. Isso deve ajudar a mitigar as travessuras relacionadas à edição.
Como você pode ver, os usuários TL0 e TL1 agora são limitados a 1 dia de tempo de edição por padrão @jsha @mnordhoff e @mbauman — talvez vocês queiram reduzir ainda mais esse limite.
Obrigado! Também modifiquei uma consulta do Data Explorer para fornecer uma tabela agradável de “edições desatualizadas” que os administradores podem revisar ocasionalmente:
SELECT
p.id AS post_id,
p.updated_at,
(p.updated_at - p.created_at) AS staleness,
u.trust_level,
(p.cooked LIKE '%href%') AS has_links
FROM posts p
JOIN users u
ON u.id = p.user_id
JOIN topics t
ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
AND p.self_edits > 0
AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
AND p.deleted_at IS NULL
AND t.deleted_at IS NULL
AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500
Isso é fantástico! Muito obrigado. Aumentamos nosso “limite de tempo para edição de post” para 1 dia (1440 minutos) e manteremos assim por enquanto. Mas acabei de aumentar o “limite de tempo para edição de post tl2” para 30 dias (43200 minutos), o que deve tornar as coisas muito melhores para nossos usuários ativos. Agradecemos de verdade o trabalho e a dedicação que a equipe do Discourse colocou nisso.
Fantástico! Avise-nos como foi. Sugiro que você possa reduzir o limite de edição padrão para até menos de 1 dia, agora que o TL2 e superiores têm uma configuração separada.
Eu sugeriria adicionar a seguinte linha à cláusula Where:
AND p.cooked ~ 'href="http[s]?://'
Isso procura apenas por posts que contêm links. Um dos atributos desse tipo de spam é a inclusão de links.
Interessante que exista uma consulta no explorador de dados para procurar por “edições desatualizadas” que podem ser revisadas em busca de spam. Eu a examinei, mas não encontrei nada obviamente ruim aqui no meta. A consulta já considera links.
Agora temos detecção de spam por IA. Eu a recomendo fortemente!
