Spam copia-incolla guidato da umani

Let us know if you’re still seeing this today.

Yes, still seeing it.

For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.

6 Mi Piace

Anche sul nostro sito abbiamo notato questo fenomeno, o almeno il suo precursore. Finora, i nostri utenti e il nostro staff sono stati molto veloci a individuare i contenuti plagiati fuori luogo e a segnalare i post come sospetti prima che lo spammer inserisse i link spam.

Si tratta di qualcosa che potrebbe essere automatizzato per i primi post? Sarebbe ottimo poter segnalare automaticamente i nuovi thread che contengono copie esatte di post esistenti.

1 Mi Piace

Al momento no, verificare un singolo post confrontandolo con il testo di letteralmente ogni altro post mai pubblicato è… piuttosto costoso.

Di norma, qualsiasi post strano e non pertinente proveniente da nuovi utenti dovrebbe essere esaminato con molta scetticismo. Questo mi permette di individuarli nella maggior parte dei casi.

1 Mi Piace

Questo funziona bene per le risposte, ma meno per i nuovi argomenti. Dato che il nostro forum offre supporto, la maggior parte dei nuovi utenti pone domande che sembrano abbastanza simili ad altre già fatte (e a volte le domande sono copiate da altri siti, come Reddit, anche se molte sono copiate dal nostro stesso sito).

4 Mi Piace

Sì, sono estremamente difficili da individuare. Ne ho vista qualcuna anch’io su un’altra installazione di Discourse.

Sono copie esatte o sono state modificate in qualche modo?

1 Mi Piace

Nel nostro caso, il corpo del messaggio è stato quasi sempre una copia quasi esatta. Spesso la formattazione va persa, ma non sempre. A volte si tratta solo di una parte del post. Inoltre, sono sempre stati nuovi thread. Il titolo, per qualche motivo, a volte è stato lo stesso e altre volte è stato incomprensibilmente il titolo originale con la parola “nome” aggiunta alla fine. Concordo sul fatto che questo sembri guidato da esseri umani: penso che qualcuno stia effettivamente copiando e incollando manualmente, e questo processo è soggetto a perdite. Quindi, no, un semplice controllo hash non funzionerà nella stragrande maggioranza dei casi.

Non abbiamo ancora visto questo schema concretizzarsi, qualunque cosa sia. In un caso abbiamo perso un post per 14 giorni e non è mai stato seguito. L’ho scoperto grazie a un IP condiviso con un altro account che faceva la stessa cosa. Abbiamo anche abbassato molto le nostre impostazioni antispam perché, anche con questi post strani, quasi non abbiamo mai spam vero e proprio. Gli utenti TL0 possono pubblicare link in uscita e immagini immediatamente. Possono modificare i post. Allora perché questa farsa? È tutto molto strano.

Modifica: ah, la farsa è perché non solo evitano il filtro antispam automatico, ma sfuggono anche allo sguardo (e alle segnalazioni) della comunità attiva, dato che le modifiche non fanno ripartire l’argomento a meno che non sia anche l’ultimo post. Quindi, per essere efficaci, non devono solo sembrare innocui, ma devono anche suscitare una risposta.

2 Mi Piace

Come Matt, le nostre sono per lo più esatte, ma spesso con qualche formattazione persa o un sottoinsieme del post. Vediamo questo tipo di spam principalmente su nuovi thread, ma anche in alcune risposte fuori tema su thread esistenti.

4 Mi Piace

Non riesco a ricordare i dettagli, ma credo che a volte modificassero anche i link o gli URL contenuti nei post originali. Immagino fosse per aggirare i nuovi limiti sui link per i nuovi utenti e perché nessuno vuole fare spam sul sito web di qualcun altro.

(Modificherebbero ancora di più i link originali quando editano lo spam in seguito.)

(Edizione: Tre Matt!)

4 Mi Piace

Buone notizie! Abbiamo aggiunto una funzione per aiutare in questo senso: i livelli di fiducia più bassi hanno meno tempo per modificare i post. Questo dovrebbe contribuire a mitigare i giochi sporchi legati alle modifiche.

Come puoi vedere, gli utenti TL0 e TL1 sono limitati di default a 1 giorno di tempo per le modifiche @jsha @mnordhoff e @mbauman: potreste voler ridurre ulteriormente questa soglia.

12 Mi Piace

Grazie! Ho anche modificato una query di Data Explorer per fornire una bella tabella delle “modifiche obsolete” che gli amministratori possono occasionalmente rivedere:

SELECT
    p.id AS post_id,
    p.updated_at,
    (p.updated_at - p.created_at) AS staleness,
    u.trust_level,
    (p.cooked LIKE '%href%') AS has_links
FROM posts p
    JOIN users u
        ON u.id = p.user_id
    JOIN topics t
        ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
    AND p.self_edits > 0
    AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
    AND p.deleted_at IS NULL
    AND t.deleted_at IS NULL
    AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500
6 Mi Piace

È fantastico! Grazie mille. Avevamo già aumentato il “limite di tempo per la modifica dei post” a 1 giorno (1440 minuti) e lo manterremo così per ora. Ma ho appena aumentato il “limite di tempo per la modifica dei post tl2” a 30 giorni (43200 minuti), il che dovrebbe rendere le cose molto più piacevoli per i nostri utenti attivi. Apprezziamo davvero il lavoro e il pensiero che il team di Discourse ha messo in questo.

8 Mi Piace

Fantastico! Fateci sapere come va. Suggerirei di ridurre il limite di modifica predefinito a meno di un giorno, ora che i livelli TL2 e superiori hanno un’impostazione separata.

7 Mi Piace

Suggerirei di aggiungere la seguente riga alla clausola WHERE:

    AND p.cooked ~ 'href=\"http[s]?://'\

Questo cerca solo i post che contengono link. Uno degli attributi di questo tipo di spam è l’inclusione di link.

2 Mi Piace

È interessante che ci sia una query di esplorazione dati per cercare “modifiche obsolete” che possono essere esaminate per individuare spam. L’ho esaminata ma non ho trovato nulla di palesemente negativo qui su meta. La query tiene già conto dei link.

Ora abbiamo il rilevamento dello spam tramite IA. Lo consiglio vivamente!

1 Mi Piace