O filtro de spam Akismet é muito bom em encontrar postagens duplicadas entre o fórum Docker e, digamos, sites do Stack Exchange (principalmente Stack Overflow), GitHub e Reddit. Essas postagens acabam em revisão, mas não revelam onde o Akismet pode ter encontrado a postagem correspondente:
Acho que queria perguntar se o plugin Akismet poderia ser configurado para mostrar URLs de outras ocorrências. Mas, na verdade, quero mais…
Frequentemente, apenas copiar e colar parte do texto no Google revela a origem, afinal. E nos fóruns Docker, eu tendo a rejeitar o sinal (aprovar a postagem duplicada), mas também adiciono um aviso da equipe para os voluntários que estão respondendo às perguntas. Assim como:
Então, me pergunto: alguém já tentou automatizar algo semelhante?
Observações:
Eu também tendo a postar um link de volta para o fórum no Stack Overflow; isso é uma ação manual de qualquer maneira. Portanto, se for automatizado, talvez se queira ser notificado de qualquer forma.
Eu uso com bastante frequência a mesma abordagem para “Novo usuário digitou sua primeira postagem suspeitosamente rápido, comportamento suspeito de bot ou spammer”, que não é detectado (ou marcado) como duplicado pelo Akismet (ainda).
Eu não sabia que o Akismet filtrava cópias duplicadas online; suponho que foi a inclusão de certas marcações usadas nesses exemplos que ativou o Akismet.
Não consigo encontrar menção de o Akismet fornecer esse serviço, você poderia dar orientações? Se essa informação estiver disponível através do serviço deles, talvez possamos aproveitá-la.
Hmmm, você pode estar certo. Presumi ousadamente que o Stack Exchange também estava usando Akismet (o que, na verdade, não sei). Acho, mas precisarei encontrar exemplos, que também vi a revisão ser acionada para postagens existentes, depois que ela foi duplicada para o Stack Exchange. Na maioria das vezes, parece que a postagem do Stack Exchange era mais antiga, o que também explica a cópia e colagem acionando a revisão “digitou sua primeira postagem suspeitosamente rápido”.
Além disso, por algum tempo, certamente vimos muitos falsos positivos após a edição de postagens. Isso me fez supor que o filtro estava confuso por seu próprio algoritmo para encontrar duplicatas, não entendendo que a duplicata de algum banco de dados online era a mesma postagem no mesmo fórum. Ao procurar a causa disso, não encontrei nenhuma referência nos serviços do Akismet.
Então, muitas suposições. Tentarei encontrar alguns exemplos, mas talvez ainda mais postagens sejam duplicadas entre o fórum e outros lugares, e talvez eu só tenha encontrado poucas delas, afinal.
Claro, o Akismet poderia ainda se inscrever no feed público de posts do Stack Exchange, mas não é o objetivo deles encontrar duplicatas. (Ou talvez as duplicatas do Stack Exchange que o Akismet sinalizou também fossem duplicadas em outros lugares. Enfim.)
@maiki Não me deparei com exemplos para confirmar que isso parece ter acontecido. Certamente o Akismet sinalizou posts existentes como spam após algum tempo, mas não tenho ideia de seus mecanismos internos para determinar isso.