Ich habe zwischen dem 15. und 16. Februar 2022 in unserer selbst gehosteten DigitalOcean Discourse-Instanz etwas Merkwürdiges bemerkt. Wie das Bild unten zeigt, sprang die Zahl der anonymen Benutzer pro Tag von etwa 1.000 pro Tag auf durchschnittlich 10.000 pro Tag. Ich habe versucht, den Ursprung davon zu verstehen, aber ohne Erfolg.
Ich kann es weder mit den Aufrufen unserer Inhalte noch mit den Statistiken von Google Search Console oder Google Analytics in Einklang bringen. Wir haben auch versucht, die Protokolle zu überprüfen, aber ohne viel Erfolg.
Das wäre fast unmöglich, wenn nicht schwierig, so zu beantworten, dass es sich auf Ihre spezifische Website bezieht. Was Sie jedoch tun können, um herauszufinden, ob es von Crawlern verursacht wird, ist, den Crawler-Bericht in Ihrem Dashboard zu überprüfen.
Außerdem habe ich den Titel Ihres Themas bearbeitet, um ihn aussagekräftiger zu machen
Die Entität, die die Anfrage stellt, ist diejenige, die sich entweder als „normaler“ Benutzer oder als Bot identifiziert. Es ist ein Ehrensytem mit all seinen Höhen und Tiefen.
Die meisten böswilligen Akteure im Bot-Ökosystem werden sich nicht als solche identifizieren und Anfragen als „normale“ Benutzer getarnt stellen, und es gibt nicht viel, was Discourse in diesen Fällen tun kann.
Wenn Sie mit der Befehlszeile vertraut sind, melden Sie sich bei Ihrem Server an und verwenden Sie Folgendes, um zu verfolgen, woher die meisten Anfragen kommen:
Natürlich ist nichts weiter nötig, als dass sich ein Bot als Benutzer identifiziert. Das Ändern eines User-Agents ist wirklich trivial – selbst Ihr Browser kann das. Und Discourse kennt nur die Bots, die … nun ja, bekannte UAs verwenden
Sicher, das können auch echte Benutzer sein, wenn irgendwo auf einer Website mit mehr Traffic ein Link zu Ihnen ist.
Meine Vermutung ist, dass die dort hochgeladene PDF-Datei irgendwo anders verlinkt wurde und viele Leute sie direkt herunterladen? Ist diese PDF-Datei etwas, das von einem böswilligen Akteur hochgeladen wurde und aus irgendeinem Grund viel Traffic erhält?
Danke, @pfaffman, aber es gibt kein Problem mit dem PDF, ich habe es tatsächlich selbst hochgeladen. Ich habe nur das Bild gezeigt, um anzuzeigen, dass es keine Korrelation mit den Tausenden von anonymen Benutzern gibt, die Discourse anzeigt.
Ok, danke.
Danke @Falco
Der von Ihnen angegebene Befehl hat uns geholfen, die IPs zu verfolgen, die für den Sprung verantwortlich sind. Vorerst werden wir unsere Beobachtung fortsetzen, bevor wir entscheiden, ob wir die Crawler blockieren wollen.
Nur zur Info, in meinem Fall handelt es sich bei der großen Mehrheit der Zugriffe um POSTs an einen Message-Bus-Endpunkt. Mit anderen Worten, wahrscheinlich die Browser der Benutzer. In einem Fall jede Minute und in einem anderen Fall viel öfter.
Das sind in der Tat die meisten Anfragen auf jeder Discourse-Seite, aber sie werden nicht als Seitenaufrufe gezählt und spiegeln sich daher nicht im Diagramm „Konsolidierte Seitenaufrufe“ auf dem Dashboard wider, was dies etwas vom Thema ablenkt.