Spam copia-incolla guidato da umani

codinghorror · 8 Giugno 2019, 8:02pm

Let us know if you’re still seeing this today.

jsha · 9 Giugno 2019, 6:51pm

Yes, still seeing it.

For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.

mbauman · 23 Agosto 2019, 2:48pm

Anche sul nostro sito abbiamo notato questo fenomeno, o almeno il suo precursore. Finora, i nostri utenti e il nostro staff sono stati molto veloci a individuare i contenuti plagiati fuori luogo e a segnalare i post come sospetti prima che lo spammer inserisse i link spam.

Si tratta di qualcosa che potrebbe essere automatizzato per i primi post? Sarebbe ottimo poter segnalare automaticamente i nuovi thread che contengono copie esatte di post esistenti.

codinghorror · 23 Agosto 2019, 11:35pm

Al momento no, verificare un singolo post confrontandolo con il testo di letteralmente ogni altro post mai pubblicato è… piuttosto costoso.

Di norma, qualsiasi post strano e non pertinente proveniente da nuovi utenti dovrebbe essere esaminato con molta scetticismo. Questo mi permette di individuarli nella maggior parte dei casi.

jsha · 30 Agosto 2019, 1:33am

Questo funziona bene per le risposte, ma meno per i nuovi argomenti. Dato che il nostro forum offre supporto, la maggior parte dei nuovi utenti pone domande che sembrano abbastanza simili ad altre già fatte (e a volte le domande sono copiate da altri siti, come Reddit, anche se molte sono copiate dal nostro stesso sito).

codinghorror · 30 Agosto 2019, 1:59am

Sì, sono estremamente difficili da individuare. Ne ho vista qualcuna anch’io su un’altra installazione di Discourse.

Sono copie esatte o sono state modificate in qualche modo?

mbauman · 30 Agosto 2019, 5:29am

Nel nostro caso, il corpo del messaggio è stato quasi sempre una copia quasi esatta. Spesso la formattazione va persa, ma non sempre. A volte si tratta solo di una parte del post. Inoltre, sono sempre stati nuovi thread. Il titolo, per qualche motivo, a volte è stato lo stesso e altre volte è stato incomprensibilmente il titolo originale con la parola “nome” aggiunta alla fine. Concordo sul fatto che questo sembri guidato da esseri umani: penso che qualcuno stia effettivamente copiando e incollando manualmente, e questo processo è soggetto a perdite. Quindi, no, un semplice controllo hash non funzionerà nella stragrande maggioranza dei casi.

Non abbiamo ancora visto questo schema concretizzarsi, qualunque cosa sia. In un caso abbiamo perso un post per 14 giorni e non è mai stato seguito. L’ho scoperto grazie a un IP condiviso con un altro account che faceva la stessa cosa. Abbiamo anche abbassato molto le nostre impostazioni antispam perché, anche con questi post strani, quasi non abbiamo mai spam vero e proprio. Gli utenti TL0 possono pubblicare link in uscita e immagini immediatamente. Possono modificare i post. Allora perché questa farsa? È tutto molto strano.

Modifica: ah, la farsa è perché non solo evitano il filtro antispam automatico, ma sfuggono anche allo sguardo (e alle segnalazioni) della comunità attiva, dato che le modifiche non fanno ripartire l’argomento a meno che non sia anche l’ultimo post. Quindi, per essere efficaci, non devono solo sembrare innocui, ma devono anche suscitare una risposta.

jsha · 30 Agosto 2019, 5:52pm

Come Matt, le nostre sono per lo più esatte, ma spesso con qualche formattazione persa o un sottoinsieme del post. Vediamo questo tipo di spam principalmente su nuovi thread, ma anche in alcune risposte fuori tema su thread esistenti.

mnordhoff · 30 Agosto 2019, 5:58pm

Non riesco a ricordare i dettagli, ma credo che a volte modificassero anche i link o gli URL contenuti nei post originali. Immagino fosse per aggirare i nuovi limiti sui link per i nuovi utenti e perché nessuno vuole fare spam sul sito web di qualcun altro.

(Modificherebbero ancora di più i link originali quando editano lo spam in seguito.)

(Edizione: Tre Matt!)

codinghorror · 7 Settembre 2019, 10:04am

Buone notizie! Abbiamo aggiunto una funzione per aiutare in questo senso: i livelli di fiducia più bassi hanno meno tempo per modificare i post. Questo dovrebbe contribuire a mitigare i giochi sporchi legati alle modifiche.

Come puoi vedere, gli utenti TL0 e TL1 sono limitati di default a 1 giorno di tempo per le modifiche @jsha @mnordhoff e @mbauman: potreste voler ridurre ulteriormente questa soglia.

mbauman · 7 Settembre 2019, 5:27pm

Grazie! Ho anche modificato una query di Data Explorer per fornire una bella tabella delle “modifiche obsolete” che gli amministratori possono occasionalmente rivedere:

SELECT
    p.id AS post_id,
    p.updated_at,
    (p.updated_at - p.created_at) AS staleness,
    u.trust_level,
    (p.cooked LIKE '%href%') AS has_links
FROM posts p
    JOIN users u
        ON u.id = p.user_id
    JOIN topics t
        ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
    AND p.self_edits > 0
    AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
    AND p.deleted_at IS NULL
    AND t.deleted_at IS NULL
    AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500

jsha · 6 Novembre 2019, 12:13am

È fantastico! Grazie mille. Avevamo già aumentato il “limite di tempo per la modifica dei post” a 1 giorno (1440 minuti) e lo manterremo così per ora. Ma ho appena aumentato il “limite di tempo per la modifica dei post tl2” a 30 giorni (43200 minuti), il che dovrebbe rendere le cose molto più piacevoli per i nostri utenti attivi. Apprezziamo davvero il lavoro e il pensiero che il team di Discourse ha messo in questo.

codinghorror · 6 Novembre 2019, 12:57am

Fantastico! Fateci sapere come va. Suggerirei di ridurre il limite di modifica predefinito a meno di un giorno, ora che i livelli TL2 e superiori hanno un’impostazione separata.

LotusJeff · 23 Luglio 2025, 8:45pm

Suggerirei di aggiungere la seguente riga alla clausola WHERE:

    AND p.cooked ~ 'href=\"http[s]?://'\

Questo cerca solo i post che contengono link. Uno degli attributi di questo tipo di spam è l’inclusione di link.

tobiaseigen · 24 Luglio 2025, 10:58pm

È interessante che ci sia una query di esplorazione dati per cercare “modifiche obsolete” che possono essere esaminate per individuare spam. L’ho esaminata ma non ho trovato nulla di palesemente negativo qui su meta. La query tiene già conto dei link.

Ora abbiamo il rilevamento dello spam tramite IA. Lo consiglio vivamente!

Argomento		Risposte	Visualizzazioni
Spam bots tricking Discourse filter by editing Support	26	3340	Settembre 9, 2019
Free to edit post at any time Feature	33	15605	Maggio 22, 2023
Diagnosing spam attack of 100 topics Feature	34	3097	Maggio 29, 2017
People editing posts into spam Support	13	1462	Novembre 20, 2019
Editing Old Posts and Adding Links Doesn't Alert Anybody Feature	23	7812	Ottobre 7, 2014

Spam copia-incolla guidato da umani

Argomenti correlati