Saif
(Saif Murtaza )
2024 年 1 月 24 日午前 1:26
1
AI搭載スパムをコミュニティメンバーから聞きたいと思っています。
これは、ChatGPTベースのように見え、人間らしくない、または幻覚(LLMの一般的な問題)を起こしているように見える質問への回答を具体的に見ることになります。
AIベースのスパムを経験しています
回答がはい の場合、興味があります…
これはどのくらいの頻度で発生していますか?
あなたのコミュニティ内でどれほどの問題を引き起こしていますか?
現在、それについて何をしていますか?
回答がいいえ の場合、知りたいです…
これを防ぐためにどのようにしていますか?
あなたのコミュニティが本質的にこの問題に直面しない理由は何ですか?
「いいね!」 12
私たちはAIを知識を探求するためのツール、あるいはちょっとした世間話に使うだけです。
コミュニティは小さいかもしれませんが、「幻覚は悪い ことだ」という常識 があります。
「いいね!」 4
maiki
(maiki)
2024 年 1 月 24 日午前 3:39
3
プライベートコミュニティ(ログイン必須、招待制)。
「いいね!」 7
Jagster
(Jakke Lehtonen)
2024 年 1 月 24 日午前 6:53
4
スパムを止める最も効果的な方法は、非常に小さく難しい言語のメンバーになることだと思います。手作業を行う連中を排除できます。
さて、スパマーはそれほど賢くなく、自動トラフィックは言語、ジャンル、さらにはサイズを気にしないことを皆知っています。では、なぜ一部のフォーラムやサイトがあらゆる種類のゴミにとってハチミツの壺のようになり、他のサイトが問題なく機能するのか、別の理由があるはずです。
スパマーがそこに入力でき、システムとセットアップが同一であるはずなのに他の場所ではできない理由については、答えがありません。しかし、確かなことが一つあります。管理者または他のバックグラウンドの力がグローバルなオーディエンスからの急速な成長を望むと、ボットとスパムの問題につながるでしょう。
「いいね!」 2
Saif Murtaza :
ここ2週間ほどで、私たちのサイトで急増が見られました。新しいアカウントからの新しい返信に、隠されたリンクを持つ典型的なスパムが見られます。新しい投稿を作成するための評判を上げたところ、AI生成の応答が増加し、ボットが偽のアカウントで評判をゆっくりと上げようとしているように見えました。これらの応答には明白な偽のリンクはなく、質問に答えるのに貢献しない一般的なAIテキストが含まれているだけです。
Saif Murtaza :
コミュニティ内でどの程度の問題を引き起こしていますか?
週末にスパム投稿の大量の急増に見舞われ、誰かがフォーラムにスパムが多すぎると言う新しいトピックを作成するほどでした。それ以来、管理者は偽のAI投稿をクリーンアップするために毎日サイトをチェックする必要があります。また、過去に作成され、アクティビティがなかったアカウントでもAI投稿が見られ、一部のスパムボットがしばらくの間アカウントをシードし、アクティビティなしで放置していたように見えます。現在、新しいトピックを投稿してエンゲージメント制限をゆっくりとクリアしようとしています。
Saif Murtaza :
上記のように、新しいトピックを投稿するための信頼レベルを上げました。Akismetも有効にしました。しかし、これはAIスパム投稿を止めていません。現在、管理者はフラグ付けされた投稿を確認し、クリーンアップするために毎日フォーラムをチェックする必要があります。一部は挑戦的で、人間のように見える場合があるため、2人で確認する必要があります。
ユーザーにAIのように見える投稿をフラグ付けして支援するように促したところ、それが役立ちました。
私たちのフォーラムは比較的低トラフィックで、長年非常に低い管理クリーンアップとメンテナンスで運営されてきましたが、AIボットが見つけたようです。AIを止めるにはAIが必要だと思いますか?
「いいね!」 6
sam
(Sam Saffron)
2024 年 3 月 26 日午後 11:11
6
ええ、残念ながら。それか、一時的に新規ユーザーをすべて審査し、「ユーザーがサインアップしてから」投稿するまでの時間を遅くする必要があります。
以下があります。
AI triage is designed to enhance the management and moderation of forum posts by automating the process of classifying posts.
Please note that this feature requires both the discourse-automation and discourse-ai plugins to function.
Use Cases
Automated Post Categorization: AI triage can automatically categorize topics based on their content. This is particularly beneficial for large forums where manual categorization can be time-consuming. You can apply the rules to a subset of topics (firs…
フラグ付けもサポートしているので、今日から使用できます。
「いいね!」 3
Saif
(Saif Murtaza )
2024 年 5 月 27 日午後 3:13
8
Saif Murtaza :
その点について、ちょうどガイドを公開しました!
これに続いて、誰か試してみましたか?フィードバックをいただけると嬉しいです。
「いいね!」 1
j127
2024 年 5 月 27 日午後 6:19
9
まだ多くは見ていませんが、私のフォーラムでは最初の数件の投稿をモデレーションしており、特定のヒントからスパマーかどうかを判断できます。トピックに明らかに沿った投稿をするまで、疑わしい投稿はTL0でロックします。
これは「ランダムなことについてチャットする」フォーラムではないので、最初の投稿で興味を偽っているかどうかを判断することは通常可能です。
「いいね!」 3
j127
2024 年 5 月 27 日午後 8:46
10
実は、AI(ChatGPTなど)で投稿しているユーザーを一人見つけました。見逃しているスパムアカウントが他にもあるかもしれません。
対策のアイデアをいくつかご紹介します。
VPNプロバイダーのデータベースを作成する。このユーザーのIPアドレスはVPNサービスプロバイダーである「M247 Europe SRL」からのものです。新しいアカウントがVPNを使用している場合に通知を受け取れるようにしたいと思っていました。現在は手動で行っています。
閲覧時間、訪問日数、閲覧したトピック/投稿を記録する。このユーザーはサイトの閲覧に8分しか費やしていないのに、6件のコメントを投稿し、登録日当日は3回しか訪問していませんでした。このユーザーは、コメントを投稿した以外は何もしていないため、自然にTL0のままです。
このページ のコメントに、さらにアイデアを記述しました。
サイト滞在時間と投稿単語数の比率、さらにVPN、コピー&ペーストされたコンテンツ、注入されたコンテンツなどの他のシグナルに基づいて、ユーザーを大まかに分類することは可能でしょうか。疑わしいアカウントはレビューのためにマークすることができます。
編集:この迅速なData Explorerクエリで、さらにいくつか見つかりましたが、すでに停止されているものもありました。
SELECT
u.id,
u.created_at,
u.username,
u.trust_level,
us.time_read,
us.days_visited,
us.topics_entered,
us.post_count,
us.topic_count
FROM users u
LEFT JOIN user_stats us
ON us.user_id = u.id
WHERE u.trust_level < 1
AND u.created_at > '2023-01-01'
AND us.time_read < 1000 -- seconds
AND us.post_count > 1
「いいね!」 3
Saif
(Saif Murtaza )
2024 年 5 月 27 日午後 10:14
11
これは、より高いTLにアップグレードするために、1日で「偽のアクティビティ」を行う可能性のあるユーザーを排除するための興味深いアプローチです。
ユーザーを分類するための追加の方法を使用するというここの推奨事項は気に入っています。検討する価値がありそうです!
「いいね!」 4
1日1件。約2000人のユーザーがいるフォーラム(年間500人新規)でのパターン:
「一時ドメイン」カテゴリのメールドメイン(例:「cetnob.com 」)で新規ユーザーがサインアップする。
数時間以内に、新しいトピックを作成するか、既存のトピックに返信する。
英語セクションのみでテキストを作成する(バイリンガルサイトで、90%以上が英語以外)。
時折、テキストにURLを含めるが、含まないこともある。
テキストは実際の質問やコメントのように見えるが、フォーラム固有の単語や関連資料を使用している。
しかし、テキストはややトピックから外れているように感じるが、非常に巧妙であるため、経験の浅いサポートエンジニアでは検出できない。
これは、以下の記事で説明されているパターンと非常によく似ている:
OK. So now we are seeing an increase in spam posts esp. using AI to generate plausible looking posts.
Is there a way to require a review of posts which:
Are made by TL0; and
Contains a link (http://)?
Currently the first x posts are reviewed, but esp. with AI, spammers post x amount of innocuous posts before posting the spam links.
Hotmail、Gmail、その他の大手コンシューマー向けドメインは、明示的なリストを使用して既にブロックしているが、この種のアプローチで使用されることが知られているドメインは少なくとも10,000件ある。自社ソフトウェアには明示的なリストと、UserCheckでのリアルタイムチェックがある(無料版を使用し、サインアップ時のみ自社アプリとキャッシュでチェックするため、月5000回のルックアップで十分)。
私の見たところでは、この特定の問題は、一時的な/スパムのメールドメインを自動的にブロックすることで対処できる。
TL0(新規ユーザー)がリンクを使用することをブロックすることは、すべての新規リクエストをモデレートすることよりも実際的ではない。多くのユーザーは最初のサインアップ直後に投稿するため、このサイトはサポートポータルである。
これに対応するプラグインがあるが、メンテナンスされていないようだ(https://meta.discourse.org/t/plugin-to-detect-reject-disposable-emails-on-signup/162569を参照)。
このアプローチが、例えば大規模なフォーラムやコンシューマーメールアドレスを受け入れるフォーラムのすべての問題を解決できるかどうかはわからない。
「いいね!」 5
j127
2024 年 10 月 10 日午後 5:07
14
最近AIスパマーが多くて、一つ一つ確認するのが大変です。
現在確認しているスパマーは、完璧な英語で書かれており、VPNを使用し、メールアドレスはStopForumSpamに登録されており、キーボードに存在しないダッシュ文字が使われていることから、コピー&ペーストされたコンテンツだと判断できます。これらすべてを自分で手動で確認する必要があり、今朝もまだいくつか確認すべきものがあります。
別のアイデアをブレインストーミングします。
投稿が保存された際に、Discourseは投稿のJSONBフィールドに以下の追加データを記録できます。
IPアドレス
is_vpn? — maxmindで組織を検索し、VPNかどうかを確認します(例:PacketHub S.A.)。
StopForumSpamでメールアドレスを簡単に検索します。
エディタに出力された文字数と、出力生成文字の入力回数の比較(矢印キー、Ctrlなどは除く)。例えば、ユーザーが生のコンテンツに1,000文字を出力したが、出力生成キーの入力は10回だけだった場合(コンテンツが貼り付けられ、ユーザーが単語を編集した可能性を示唆)。
キーボードショートカットまたは右クリックを使用してコンテンツがコピーまたはカットされた回数。
キーボードショートカットまたは右クリックを使用してコンテンツが貼り付けられた回数。コピー/ペースト回数の差が、さらなる手がかりとなります。
モデレーターは、投稿でそのデータを小さなテーブルで表示できます。異常な値はハイライト表示され、疑わしい投稿が目立つようになります。
検出を自動化する完璧な方法はないかもしれませんが、より多くの情報があれば、モデレーションプロセスを迅速化できます。
「いいね!」 4
Saif
(Saif Murtaza )
2024 年 10 月 11 日午後 2:38
15
以下のガイドのいずれかが役に立ったかどうか気になります。スパムは時間とともにますます巧妙になっているためです。
j127
2024 年 10 月 11 日午後 4:55
16
AIをフォーラムで使用したことがありません。高価だからです。また、コンテンツは正常に見えるため、AIがこの問題を解決できるとは確信していません。それでも、疑わしい投稿はすべて手動で調査する必要があります。
NSFWコンテンツに問題はありませんでした。
私の問題は、コンテンツに何か問題があるということではありません。それについて疑わしい唯一の点は、新規ユーザーが登録後数分以内にそのような投稿をしないこと、そしてコンテンツがいくぶん曖昧であることです。私のメインフォーラムは非常に特定のトピックを持っており、最初の投稿がそのトピックとの関係について具体的に言及していない場合、調査プロセスを開始します。そうでなければ、彼らの投稿に気づかないかもしれません。
例をいくつか挙げます。コンテンツは調査プロセスを開始するには十分曖昧ですが、手動で行う必要があるため時間がかかります。
コンテンツのみに基づいてこのユーザーを禁止することはできません。それがスパマーであることを示しているのは、他の手がかりです。
このIPアドレスはノルウェーのVPNであり、コンテンツは曖昧すぎました。メールアドレスがドイツのIPアドレスを持つStopForumSpamにあったため、確認できました。
これは単なる独り言ですが、次のような投稿に小さなテーブルがあれば、これらのユーザーのモデレーションが速くなるでしょう。
location
Oslo, Norway [from maxmind]
organization
PacketHub S.A. [from maxmind]
is_vpn
true
email
whatever@example [sometimes this provides clues]
stopforumspam
true [link]
characters_output
1,234
characters_output_pressed
10 [this doesn’t match the number of chars in the post, so it’s a clue]
num_cut_or_copy
0 [didn’t copy text from editor]
num_paste
1 [did make one paste]
seconds_editor_open
20 [suspicious for a post of that length]
テーブルは、疑わしい値がある場合を除いて折りたたむことができるかもしれません。または、モデレーターが特定のユーザーを「おそらくスパムではない」とフラグ付けでき、その場合、そのユーザーのすべての投稿でテーブルが折りたたまれたり、将来のルックアップが停止されたりするかもしれません。または、ユーザーがTL2に到達すると自動的に安全とマークされるかもしれません。
それはいくつかのことの組み合わせです。
VPNまたはIPアドレスは、SEO企業が多い少数の国(インド、パキスタン、ウクライナ、ベトナム、バングラデシュ)にある傾向があります。
時々、メールアドレスはStopForumSpamにあります。
コンテンツの多くはエディタに貼り付けられていますが、おそらくすべてではありません。
メールアドレスはユーザー名と一致しないことがよくあります。たとえば、ユーザー名は「Bob Smith」ですが、メールアドレスはstevenjohnee1234@exampleのような別のものになります。
生のコンテンツには、スマートクォートやmdashのようなフォーマットされた句読文字が使用されていることがあり、コンテンツがDiscourseエディタで書かれたものではないことを示唆しています。
「いいね!」 5
j127
2024 年 10 月 13 日午後 4:57
17
フォーラムの投稿 1622105 を確認してください。登録から3分後に投稿され、QuoraからStack Exchangeへのリンクを変更するために手動で編集されており、英語は問題ありませんが、Discourseには関連性のないテクノロジーについて話しています。投稿者に通知してしまうため、リンクは貼りたくありません。
上記で言及したデータが投稿内に表示されると役立つのは、そのような投稿です。
「いいね!」 1
sam
(Sam Saffron)
2024 年 10 月 14 日午前 12:27
18
これは、AIとスタッフの経験の差のように感じます。トピックに適切な担当者を呼びます。
既存の「高速タイピング」検出を強化することは、非常に魅力的だと思います。SFSをコアに統合することも魅力的かもしれません。
もちろん、深い哲学的な疑問があります。
AIによって生成されたものであっても、フォーラムに価値を加えるものであれば、それはスパムですか?
人間によって生成されたものであっても、フォーラムに価値を加えないものであれば、フォーラムから削除されるべきですか?
どちらの質問にも、非常に明確な答えはありません。
「いいね!」 5
Ed_S
(Ed S)
2024 年 10 月 14 日午後 1:00
20
モデレーターが利用できるメタデータを増やすという提案は、自動機能の改善とは別に、良いものだと思います。
「いいね!」 4
j127
2024 年 10 月 15 日午前 1:17
21
Sam Saffron:
フォーラムに価値をもたらす(AI生成であっても)のであれば、それはスパムですか?
フォーラムに価値をもたらさない(人間が生成したものであっても)のであれば、フォーラムから削除されるべきですか?
どちらにも明確な答えはありません。
フォーラムによって異なる可能性があります。
スパマーの投稿が議論を促す場合はいくつかオンラインに残しますが、ほとんどは削除されます。品質は非常に低く、AIが書いたものであることはしばしば容易にわかります。AIによって書かれたと感じる場合、その情報源への信頼を失い始めます。私はAIルッダイトではありませんが、AIによって生成されたコンテンツであると知らされていない限り、AIによって生成されたコンテンツを読みたくありません。
フォーラムで誰かがAIを使用しているのを見た場合、信頼できるコンテンツはフォーラムの最も重要な資産の1つであるため、すぐにそれを止めます。
また、2024年の人間には許容できるように見えるものが、2034年には人々がAIであると検出するのが容易になる可能性があります。数十年前はリアルに見えた映画の効果が、今では偽物としてすぐに検出できるようなものです。2024年のAI生成コンテンツは、最終的には時代遅れになると思います。
「いいね!」 2