LLM クローラーのアクティビティ追跡:どのトピックが最も頻繁にインデックス/クロールされているかを特定できますか?

AIクローラーが最も頻繁にインデックス作成・クロールしている特定トピックを特定し、最も「引用」されているコンテンツがLLMのハルシネーションに寄与しないようにしたいと考えています。Data Explorerを使って、クローラーのヒットを個々のトピックIDに帰属させる方法はありますか?

もしかしたら間違っているかもしれませんが、Discourse はカテゴリやトピックレベルでのウェブクローラーのトラフィックを記録していないと思います。(何か計算式を適用して数値を導き出すことはできるでしょうか?:thinking:

大半の AI クローラーは、ユーザーエージェントを通じて自身を識別しません。一般的には、古いバージョンの Chrome であると偽装しています。これらを特定できる唯一の方法は、単一のページのみを訪問し、サイト内に留まって 2 番目のページを訪れないという点です。これらは多くの場合データセンターに存在しますが、モバイルや住宅用 IP からの単一ページトラフィックも多数確認されており、これは侵害されたデバイス経由によるものだと推測しています。

ほとんどの AI クローラーはユーザーエージェントを通知します。あなたが言及しているのは、SEO ボット/クローラーや、その他の悪意のある/乱用的/望ましくない非人間のエージェントです。