LLM-Crawler-Aktivitäten verfolgen: Können wir identifizieren, welche Themen am häufigsten indiziert/crawlt werden?

noahl · 20. April 2026 um 21:41

Wir möchten herausfinden, welche spezifischen Themen am häufigsten von AI-Crawlern indiziert bzw. durchsucht werden, um sicherzustellen, dass unsere am häufigsten zitierten Inhalte keine Halluzinationen von LLMs speisen. Gibt es eine Möglichkeit, mit dem Data Explorer Crawler-Treffern einzelne Topic-IDs zuzuordnen?

Lilly · 20. April 2026 um 21:59

Ich könnte mich irren, aber ich glaube nicht, dass Discourse Webcrawler-Traffic auf Kategorie- oder Themenebene verfolgt.

github.com/discourse/discourse

app/models/web_crawler_request.rb

e9f4e0dca


      
          # == Schema Information
          #
          # Table name: web_crawler_requests
          #
          #  id         :bigint           not null, primary key
          #  date       :date             not null
          #  user_agent :string           not null
          #  count      :integer          default(0), not null
          #
          # Indexes
          #
          #  index_web_crawler_requests_on_date_and_user_agent  (date,user_agent) UNIQUE
          #

elmuerte · 21. April 2026 um 05:09

Die meisten Al-Crawler-Aktivitäten identifizieren sich nicht über den User-Agent. Sie geben sich in der Regel als veraltete Chrome-Versionen aus. Der einzige Weg, sie zu erkennen, ist die Tatsache, dass sie nur eine einzige Seite besuchen und nicht auf der Website bleiben, um eine zweite Seite aufzurufen. Oft stammen sie aus einem Rechenzentrum, aber ich habe auch viele Ein-Seiten-Traffics von mobilen und privaten IP-Adressen gesehen, die ich auf kompromittierte Geräte zurückführe.

Jagster · 21. April 2026 um 05:26

Die meisten KI-Crawler geben ihren User-Agent an. Die von dir erwähnten sind SEO-Bots/Crawler sowie andere bösartige, missbräuchliche oder unerwünschte nicht-menschliche Akteure.

Thema		Antworten	Aufrufe
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4798	2. Dezember 2023
Discourse is Agent Ready: Here’s How Blog	9	628	24. Mai 2026
Discourse SEO overview (sitemap / robots.txt) Site Management seo , explanation	0	2369	18. Oktober 2023
User-agent: lfc-discourse-public-crawler Bug	3	127	9. Juli 2026
Have AI identify and flag web crawlers Feature ai	1	264	11. Juli 2023

LLM-Crawler-Aktivitäten verfolgen: Können wir identifizieren, welche Themen am häufigsten indiziert/crawlt werden?

Verwandte Themen