LLM クローラーのアクティビティ追跡：どのトピックが最も頻繁にインデックス/クロールされているかを特定できますか？

noahl · 2026 年 4 月 20 日午後 9:41

AIクローラーが最も頻繁にインデックス作成・クロールしている特定トピックを特定し、最も「引用」されているコンテンツがLLMのハルシネーションに寄与しないようにしたいと考えています。Data Explorerを使って、クローラーのヒットを個々のトピックIDに帰属させる方法はありますか？

Lilly · 2026 年 4 月 20 日午後 9:59

もしかしたら間違っているかもしれませんが、Discourse はカテゴリやトピックレベルでのウェブクローラーのトラフィックを記録していないと思います。（何か計算式を適用して数値を導き出すことはできるでしょうか？）

github.com/discourse/discourse

app/models/web_crawler_request.rb

e9f4e0dca


      
          # == Schema Information
          #
          # Table name: web_crawler_requests
          #
          #  id         :bigint           not null, primary key
          #  date       :date             not null
          #  user_agent :string           not null
          #  count      :integer          default(0), not null
          #
          # Indexes
          #
          #  index_web_crawler_requests_on_date_and_user_agent  (date,user_agent) UNIQUE
          #

elmuerte · 2026 年 4 月 21 日午前 5:09

大半の AI クローラーは、ユーザーエージェントを通じて自身を識別しません。一般的には、古いバージョンの Chrome であると偽装しています。これらを特定できる唯一の方法は、単一のページのみを訪問し、サイト内に留まって 2 番目のページを訪れないという点です。これらは多くの場合データセンターに存在しますが、モバイルや住宅用 IP からの単一ページトラフィックも多数確認されており、これは侵害されたデバイス経由によるものだと推測しています。

Jagster · 2026 年 4 月 21 日午前 5:26

ほとんどの AI クローラーはユーザーエージェントを通知します。あなたが言及しているのは、SEO ボット/クローラーや、その他の悪意のある/乱用的/望ましくない非人間のエージェントです。

トピック		返信	表示
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4804	2023 年 12 月 2 日
Discourse is Agent Ready: Here’s How Blog	9	630	2026 年 5 月 24 日
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2371	2023 年 10 月 18 日
User-agent: lfc-discourse-public-crawler Bug	3	127	2026 年 7 月 9 日
Have AI identify and flag web crawlers Feature ai	1	264	2023 年 7 月 11 日

LLM クローラーのアクティビティ追跡：どのトピックが最も頻繁にインデックス/クロールされているかを特定できますか？

関連トピック