Let us know if you’re still seeing this today.
Yes, still seeing it.
For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.
当サイトでも同様の事象、あるいはその前兆が確認されています。これまで、ユーザーやスタッフは不自然な盗用コンテンツを素早く発見し、スパマーがスパムリンクを貼る前に投稿を「不審」として報告してくれています。
ただ、これは新規投稿に対して自動化できるものでしょうか?既存の投稿と完全に一致するスレッドを自動的に検知してフラグを立てられると大変助かります。
現時点では、すべての投稿のテキストを照合するのは非常にコストがかかります。
新規ユーザーによる奇妙で文脈に合わない投稿は、原則として疑わしいものとして扱うべきです。これにより、私の場合、ほとんどのケースで検出できています。
これは返信にはよく機能しますが、新規スレッドにはそれほど効果的ではありません。当フォーラムはサポートを提供しているため、ほとんどの新規ユーザーは、過去にすでに質問されたもの(時にはRedditなどの他のサイトからコピーされたものですが、当サイトからコピーされたものも多いです)と非常に似た質問をしています。
ああ、あれは特定するのが非常に難しいですよね。別の Discourse サイトでもいくつか目にしたことがあります。
それらは完全に同一のコピーですか、それとも何か変更が加えられていますか?
私たちの場合、本文はほぼ完全にコピーされています。フォーマットが失われることもよくありますが、常にそうとは限りません。時には投稿の一部だけがコピーされることもあります。また、これらは常に新しいスレッドとして投稿されています。タイトルについては、理由不明ですが、同じものが使われることもあれば、元のタイトルの末尾に「name」という単語が inexplicably に追加されていることもあります。これは人間が操作しているように思えます—誰かが実際に Ctrl+C、Ctrl+V で手動でコピー&ペーストしており、このプロセスは情報損失を伴うものです。したがって、単純なハッシュチェックでは、ほとんどすべてのケースで機能しません。
この手口が実際にどのような形で実現するかは、まだ確認できていません。あるケースでは、14 日間投稿を見逃していましたが、その後フォローアップは行われませんでした。私は、同じことをしている別のアカウントと共有された IP アドレスを通じてそれを見つけました。また、スパム設定は非常に緩くしています。なぜなら、これらの奇妙な投稿があっても、実際のスパムはほとんど発生しないからです。TL0(新規ユーザー)は、外部リンクや画像をすぐに投稿でき、投稿の編集も可能です。では、なぜこのような芝居が必要なのでしょうか?すべてが非常に奇妙です。
編集: ああ、この芝居が必要な理由は、自動スパムフィルターを回避するだけでなく、アクティブなコミュニティの目(およびフラグ)も回避するためです。編集だけではトピックが更新されないため、最新の投稿でもない限りトピックがトップに移動しないからです。したがって、効果的であるためには、単に無害に見えるだけでなく、返信を得る必要もあります。
マットと同じで、 ours はほとんどが完全に同じですが、フォーマットの一部が失われたり、投稿の一部だけが含まれたりすることがよくあります。このようなスパムは、新しいスレッドで最も多く見られますが、既存のスレッドへのトピック外返信としても見られます。
詳細は覚えていませんが、元の投稿に含まれていたリンクや URL も、時折変更されていたと思います。新しい投稿者のリンク制限を回避するため、また、他の人のウェブサイトにスパムを送りたくないという理由からだと思われます。
(後でスパムを編集する際、元のリンクはさらに変更されていました。)
(編集:3人のマット!)
いい知らせです!これに役立つ機能を追加しました。信頼レベルが低いユーザーは投稿を編集できる時間が短縮されます。これにより、編集に関連するトラブルを軽減できるはずです。
ご覧の通り、TL0 と TL1 のユーザーはデフォルトで編集可能時間が 1 日に制限されるようになりました @jsha @mnordhoff @mbauman。さらに制限を厳しくすることも検討してください。
ありがとうございます!管理者が定期的に確認できるように、「古い編集」のリストを出力する Data Explorer クエリも作成しました。
SELECT
p.id AS post_id,
p.updated_at,
(p.updated_at - p.created_at) AS staleness,
u.trust_level,
(p.cooked LIKE '%href%') AS has_links
FROM posts p
JOIN users u
ON u.id = p.user_id
JOIN topics t
ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
AND p.self_edits > 0
AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
AND p.deleted_at IS NULL
AND t.deleted_at IS NULL
AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500
素晴らしいですね!ありがとうございます。当サイトでは「投稿編集時間制限」を1日(1440分)に引き上げ、当面はそのままにします。しかし、先ほど「TL2の投稿編集時間制限」を30日(43200分)に引き上げました。これにより、アクティブなユーザーの方々の利用がより快適になるでしょう。Discourse チームがこれに注いでくれた労力と配慮に心から感謝しています。
素晴らしい!結果を教えてください。TL2 以上で別設定が導入された今、デフォルトの編集制限を 1 日未満に引き下げることをお勧めします。
Where句に次の行を追加することをお勧めします。
AND p.cooked ~ 'href="http[s]?://'
これにより、リンクを含む投稿のみが検索されます。このタイプのスパムの属性の1つは、リンクが含まれていることです。
レビュー対象の「古い編集」を探すデータエクスプローラークエリがあるのは興味深いですね。スパムの可能性があるものを見つけるのに役立ちます。確認しましたが、ここメタでは明らかに悪いものは見つかりませんでした。クエリはすでにリンクを考慮しています。
これでAIスパム検出が利用可能になりました。強くお勧めします!
