Human-driven copy-paste spam

codinghorror · 08.Июнь.2019 20:02:19

Let us know if you’re still seeing this today.

jsha · 09.Июнь.2019 18:51:55

Yes, still seeing it.

For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.

mbauman · 23.Август.2019 14:48:53

Мы тоже наблюдаем это на своём сайте, или, по крайней мере, его предвестника. Наши пользователи и сотрудники до сих пор довольно быстро замечают неуместный плагиат и помечают такие сообщения как подозрительные ещё до того, как спамер добавит спам-ссылки.

Можно ли автоматизировать это для первых сообщений? Было бы здорово помечать новые темы, содержащие точные копии существующих постов.

codinghorror · 23.Август.2019 23:35:35

В данный момент нет — проверка одного сообщения на соответствие тексту буквально каждого другого сообщения, когда-либо сделанного, — это довольно затратно.

Как правило, к странным сообщениям, не имеющим логической связи, от новых пользователей следует относиться с большим скептицизмом. Это помогает мне в большинстве случаев.

jsha · 30.Август.2019 01:33:10

Это хорошо работает для ответов, но менее эффективно для новых тем. Поскольку наш форум предоставляет поддержку, большинство новых пользователей задают вопросы, которые выглядят довольно похоже на уже задававшиеся ранее (иногда эти вопросы скопированы с других сайтов, например Reddit, хотя многие также взяты с нашего собственного сайта).

codinghorror · 30.Август.2019 01:59:22

Да, их действительно очень сложно отследить. Я сам видел несколько таких на другой платформе Discourse.

Они являются точными копиями или как-то изменены?

mbauman · 30.Август.2019 05:29:26

В нашем случае текст почти полностью копируется. Часто форматирование теряется, но не всегда. Иногда копируется лишь часть поста. Все такие посты — новые темы. По какой-то причине заголовок иногда совпадает с оригинальным, а иногда inexplicably к оригинальному заголовку добавляется слово «name» в конце. Я согласен, что это выглядит как работа человека — кто-то вручную копирует и вставляет текст, и этот процесс с потерями. Поэтому нет, простая проверка хеша в большинстве случаев не сработает.

Мы ещё не видели, чтобы эта схема действительно была реализована, что бы она ни подразумевала. В одном случае мы пропустили пост на 14 дней, и он так и не получил продолжения. Я обнаружил его через общий IP с другим аккаунтом, который делал то же самое. У нас также настройки спам-фильтра сильно ослаблены, потому что, несмотря на эти странные посты, реального спама у нас почти не бывает. Пользователи с уровнем TL0 могут сразу публиковать внешние ссылки и изображения. Они могут редактировать посты. Так зачем же эта мизансцена? Всё это очень странно.

Редактирование: ах, эта мизансцена нужна потому, что они не только обходят автоматический спам-фильтр, но и избегают внимания (и жалоб) со стороны активного сообщества, поскольку редактирование не поднимает тему наверх, если это не самый последний пост. Таким образом, чтобы быть эффективными, они должны не только выглядеть безобидно, но и спровоцировать ответ.

jsha · 30.Август.2019 17:52:25

Как и у Мэтта, у нас они в основном точные, но часто с потерей форматирования или содержат лишь часть сообщения. Мы видим такой спам в основном в новых темах, но иногда и в офф-топичных ответах в существующих темах.

mnordhoff · 30.Август.2019 17:58:16

Я не помню деталей, но, насколько я знаю, они также иногда изменяли ссылки или URL-адреса, содержащиеся в оригинальных постах. Я полагаю, это делалось для обхода новых ограничений на количество ссылок для новых участников, а также потому, что никто не хочет спамить на чужих сайтах.

(При редактировании спама позже они изменяли оригинальные ссылки ещё сильнее.)

(Редакция: Трое Мэттов!)

codinghorror · 07.Сентябрь.2019 10:04:54

Хорошие новости! Мы добавили функцию, которая поможет решить эту проблему — у пользователей с низким уровнем доверия теперь меньше времени на редактирование постов. Это должно помочь снизить количество злоупотреблений, связанных с редактированием.

Как видите, пользователи с уровнями доверия TL0 и TL1 теперь по умолчанию ограничены одним днём на редактирование @jsha @mnordhoff и @mbauman — возможно, вам стоит ещё больше сократить это время.

mbauman · 07.Сентябрь.2019 17:27:22

Спасибо! Я также изменил запрос в Data Explorer, чтобы создать удобную таблицу «устаревших правок», которую администраторы могут периодически просматривать:

SELECT
    p.id AS post_id,
    p.updated_at,
    (p.updated_at - p.created_at) AS staleness,
    u.trust_level,
    (p.cooked LIKE '%href%') AS has_links
FROM posts p
    JOIN users u
        ON u.id = p.user_id
    JOIN topics t
        ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
    AND p.self_edits > 0
    AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
    AND p.deleted_at IS NULL
    AND t.deleted_at IS NULL
    AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500

jsha · 06.Ноябрь.2019 00:13:18

Это замечательно! Большое спасибо. Мы уже увеличили «лимит времени на редактирование постов» до 1 дня (1440 минут) и пока оставим его на этом уровне. Но я только что увеличил «лимит времени на редактирование постов для tl2» до 30 дней (43200 минут), что должно сделать работу гораздо удобнее для наших активных пользователей. Искренне благодарим команду Discourse за проделанную работу и вложенные усилия.

codinghorror · 06.Ноябрь.2019 00:57:24

Отлично! Дайте знать, как всё пойдёт. Я предлагаю, возможно, уменьшить лимит по умолчанию на редактирование даже меньше, чем 1 день, теперь, когда у TL2 и выше есть отдельная настройка.

LotusJeff · 23.Июль.2025 20:45:47

Я бы предложил добавить следующую строку в предложение WHERE:

    AND p.cooked ~ 'href="http[s]?://'

Это позволит отфильтровать только сообщения, содержащие ссылки. Одним из признаков такого спама является наличие ссылок.

tobiaseigen · 24.Июль.2025 22:58:23

Интересно, что существует запрос в Data Explorer для поиска «устаревших правок», которые можно проверить на наличие спама. Я изучил его, но не нашёл ничего явно подозрительного здесь, на Meta. Запрос уже учитывает ссылки.

Теперь у нас есть обнаружение спам-сообщений с помощью ИИ. Настоятельно рекомендую его!

Тема		Ответов	Просм.
Spam bots tricking Discourse filter by editing Support	26	3334	09.09.2019
Free to edit post at any time Feature	33	15600	22.05.2023
Diagnosing spam attack of 100 topics Feature	34	3091	29.05.2017
People editing posts into spam Support	13	1460	20.11.2019
Editing Old Posts and Adding Links Doesn't Alert Anybody Feature	23	7811	07.10.2014

Human-driven copy-paste spam

Связанные темы