Dashboard-Bericht - Web-Crawler User Agents

Dies ist eine SQL-Version des Dashboard-Berichts für Web-Crawler-User-Agents.

Dieser Dashboard-Bericht listet die Top-Web-Crawler-User-Agents auf, sortiert nach Seitenaufrufen, und gibt Einblicke, welche Crawler auf einer Website am aktivsten sind.

--[params]
-- date :start_date = 2024-01-06
-- date :end_date = 2024-02-07

SELECT
  user_agent,
  SUM(count) AS pageviews
FROM web_crawler_requests
WHERE date BETWEEN :start_date AND :end_date
GROUP BY user_agent
ORDER BY pageviews DESC

Erklärung der SQL-Abfrage

  • Parameter: Die Abfrage akzeptiert zwei Parameter, :start_date und :end_date, die den Zeitraum für den Bericht definieren. Beide Datumsparameter akzeptieren das Format JJJJ-MM-TT.
  • SELECT: Die Abfrage ruft Daten aus der Tabelle web_crawler_requests ab, die Anfragen von Web-Crawlern an das Forum protokolliert. Jeder Datensatz in dieser Tabelle enthält den user_agent des Crawlers und eine count von Seitenaufrufen.
  • SUM: Die Funktion SUM(count) berechnet die Gesamtzahl der Seitenaufrufe für jeden user_agent innerhalb des angegebenen Datumsbereichs.
  • Filterung: Die Klausel WHERE filtert Datensätze, um nur diejenigen einzuschließen, die in den angegebenen Datumsbereich fallen, und verwendet die Spalte date.
  • Aggregation: Die Klausel GROUP BY gruppiert die Ergebnisse nach user_agent, um sicherzustellen, dass die Daten für jeden Web-Crawler einzeln zusammengefasst werden.
  • Sortierung: Die Klausel ORDER BY sortiert die Ergebnisse in absteigender Reihenfolge von pageviews, wodurch die aktivsten Web-Crawler am Anfang des Berichts platziert werden.

:discourse: Datensätze aus der Tabelle web_crawler_requests werden automatisch nach 30 Tagen gelöscht. Ergebnisse für diesen Bericht sind nur für die letzten 30 Tage ab dem Zeitpunkt der Berichterstellung verfügbar. Sie können die Datenparameter für diese Abfrage jedoch weiterhin verwenden, um Ergebnisse innerhalb der letzten 30 Tage zu filtern.

Beispielergebnisse

user_agent pageviews
Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com) 1406
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 724
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) 533
2 „Gefällt mir“

Ich habe einen kleinen Wunsch auf meiner Wunschliste. Manche User-Agent-Strings sind so lang, dass man sie ohne Mouseover nicht vollständig sehen kann. Und ich kann keine Crawler-Info-URL aus einem Mouseover kopieren:

Es wäre schön, wenn der Bericht eine enthaltene URL parsen und einen Link oder Button anzeigen könnte:

1 „Gefällt mir“