Anonyme Ansichten plötzlich sehr hoch

Ich weiß nie, was ich von den anonymen Aufrufzahlen halten soll, aber sie scheinen in keiner sinnvollen Weise mit den Google Analytics-Daten übereinzustimmen.

Die letzten vier Tage haben dies in den Fokus gerückt, da es einen enormen anhaltenden Anstieg an anonymen Aufrufen gab, was ungewöhnlich ist.

Es mag zufällig sein, seit dem Upgrade auf 3/3.1, aber könnte es damit zusammenhängen, da es kurz danach begann.

Gleichzeitig scheint die Zahl der Anmeldestatistiken erheblich gesunken zu sein, was besorgnErregend ist.

Im Allgemeinen ist es schwer, die Aufrufzahlen für Anmeldungen zu vergleichen, da sie nicht mit den Analysezahlen übereinstimmen, aber wenn man nur das Dashboard betrachtet, gibt es einen seltsamen neuen Trend.

Was die Diskrepanz zwischen Google Analytics und Dashboard-Statistiken betrifft, hier ist ein einfaches Beispiel: Sie sehen 500 eindeutige Besuche bei Google Analytics für einen Tag, aber im Discourse-Dashboard 2000 Anmeldungen, 50000 anonyme Aufrufe und 5000 Crawler.

Was passiert insgesamt mit diesen Statistiken?

Wie sollen wir die Daten behandeln und was können sie uns in Bezug auf die Verwaltung eines Discourse-Forums sagen?

Sind anonyme Aufrufe ein Hinweis auf unerwünschten, gefarmten Traffic und eine Verschwendung von Ressourcen?

Solcher Traffic wird aus Google Analytics herausgefiltert, wenn Sie die richtige Option wählen – vielleicht liegt es nicht an Discourse und könnte auf eine Art niedrigstufigen DDOS-Traffic aus welchen bizarren und fadenscheinigen Gründen auch immer hindeuten, der wieder Ressourcen verschwendet, aber möglicherweise echte Anmeldungen beeinträchtigt?

Bisher keine Berichte über Anmeldeprobleme.

Wie interpretieren wir insgesamt die Dashboard-Zahlen?

Vielen Dank für jegliche Einblicke und Tipps.

4 „Gefällt mir“

Hallo @agemo!

Ich sehe in den letzten Monaten ähnliches Verhalten. Konnten Sie etwas darüber herausfinden?

Wahrscheinlich Bots, möglicherweise KI-Scraping-Bots.

Was mir immens geholfen hat, waren die Webcrawler-Berichte im Adminbereich, nachdem ich darauf aufmerksam gemacht wurde (ich hatte sie vorher nie bemerkt), und damit habe ich verschiedene Crawler gesperrt. Das hat die anonymen Aufrufe reduziert. Ich glaube, dass Crawler auch anonyme Aufrufe verursachen. Ich habe keine Ahnung, wie.

Die Berichte geben Ihnen auch die Namen von Crawlern (User Agents) an, die Sie für jeden Crawler nachschlagen können, um zu sehen, ob er von Wert ist.

Dieses Thema könnte auch von Nutzen sein

3 „Gefällt mir“

Das könnte sein, ich weiß auch nicht, wie, außer dass es wahrscheinlich davon abhängt, wie das System Bots von Benutzern identifiziert.

Ich habe einen Anstieg von Crawlern gesehen, als mehr Text veröffentlicht wurde, und vor ein paar Tagen auch einen scheinbar zufälligen Anstieg von anonymen Ansichten.

Wir haben jetzt eine neue Metrik, die anonyme Seitenaufrufe in „wahrscheinlich menschlich“ und „wahrscheinlich Bot“ aufteilt, damit die Leute Letzteres eher wie Crawler betrachten können (was sie wahrscheinlich sind, aber sich nicht als solche identifizieren).

Der Bericht ist Teil der Standardberichte und kann unter /admin/reports/consolidated_page_views_browser_detection gefunden werden.

Es gibt auch weitere Arbeiten in Arbeit, um dies auch auf Themenansicht-Metriken anzuwenden, um Bot-Aufblähungen zu verhindern.

3 „Gefällt mir“

Dieser neue Graph ist hilfreich, es sieht so aus, als ob die Kategorie „wahrscheinlich Bot“ als „andere Seitenaufrufe“ gekennzeichnet ist:

Bei den frechen neuen Bots, die sich nicht richtig vorstellen, gibt es eine Möglichkeit, diese zu verlangsamen oder ihre Quelle zu identifizieren?

Kann die Berichte über User-Agents von Web-Crawlern überprüfen, aber wenn sie dort nicht auftauchen, bin ich mir nicht sicher, was ich sonst noch untersuchen soll.

1 „Gefällt mir“

Nein. Wenn der Programmierer dieses Bots so arbeitet, wie sie es oft tun, d. h. es gibt einen Teil des Textes in der User-Agent-Zeichenkette, im Gerät, im System usw., der immer gleich ist, dann können Sie sie vollständig blockieren, aber Sie benötigen einen Reverse-Proxy. robots.txt ist nur eine Richtlinie für gut funktionierende Bots.

Protokolle von Discourse geben mehr oder weniger nur einen groben Überblick. Solche detaillierten Daten müssen Sie aus den Protokollen von Nginx extrahieren, was bedeutet: Willkommen auf der Konsole :smirking_face:

WordPress kann wegen Bots leicht in die Knie gezwungen werden, aber mit Discourse ist die Situation eher ärgerlich. Content-Diebstahl ist heute an der Tagesordnung und das schon seit langem.

2 „Gefällt mir“

Reverse Proxy scheint ein guter erster Schritt zu sein, ist Cloudflare dafür gut geeignet?

Kenne einen lokalen Webentwickler-Kumpel, der empfohlen hat, Cloudflare-Nameserver zur Sicherheit zu verwenden, das kann gut sein.

Ich bin nicht allzu besorgt darüber, dass veröffentlichte Inhalte „gestohlen“ werden. Wenn Text öffentlich veröffentlicht wird, haben die Leute das Recht, ihn aufzuzeichnen, solange sie nicht versuchen, ihn als ihre eigene Kreation zu verkaufen, das wäre dann ein Problem.

1 „Gefällt mir“

Ich würde Nginx oder Varnish vorschlagen. Aber vielleicht funktioniert Cloudflare auch, ich kenne es nicht, habe es nie benutzt.

2 „Gefällt mir“

Gestern, am 17. August, gab es einen ungewöhnlichen Anstieg von 152 Bot-„Seitenaufrufen“ (andere), was sehr zufällig für eine meist inaktive Website ist, die normalerweise nur etwa 15-20 davon pro Tag hat.

Völlig normal. Ich habe die besten Ergebnisse erzielt, indem ich die schlimmsten User Agents und Geo-Blogging zusammen blockiert habe (mein Forum ist nicht global, daher kann ich das leicht tun).

Meinen Sie geografisches Sperren von IP-Adressen aus anderen Ländern als Finnland? Das scheint eine gute Idee für lokal fokussierte Websites zu sein.

Ja. Im Moment würde ich viel Traffic aus Russland, Singapur und China bekommen. Früher waren es Indien, Pakistan, Ägypten, Iran und Irak. Und ich wette, die können nicht Finnisch :wink: Mit Russland ist es möglich, aber… nein.

Die größten drei sind die USA, Frankreich und die Niederlande, und Deutschland wächst. Aber das liegt an Rechenzentren und deshalb kann ich diese nicht sperren.

Aber wieder, mit Discourse sind das hauptsächlich nur nervige. Mit WordPress (und anderen LAMP-Stacks würde ich sagen) erzeugen diese eine so große Last, dass die Situation näher an DDoS herankommt.

Und die meisten sind von dummen Script-Kiddies, die versuchen, Discourse mit alten WordPress-Problemen zu Fall zu bringen.

Aber heutzutage sind SEO und KI-Bots zu einem echten Fragezeichen geworden.

Aber wenn man ein lokales Forum hat, ist Geo-Banning einfach ein kluger Schachzug.

1 „Gefällt mir“

Das könnte ein besorgniserregendes Tempo annehmen.

Ich habe gesehen, was ich für KI-gesteuerten Bot-Traffic halte, der sich einem DDoS-Level näherte, da der Discourse-Dienst zu klagen begann.

Kein hochleistungsfähiges Setup, aber für die erwartete normale Nachfrage gibt es normalerweise etwas Spielraum.

Dieses Mal zeigte es sich als riesiger anonymer Traffic und anderes.

Dies entsprach perfekt den erhöhten Server-CPU-, Last- und Festplatten-I/O-Statistiken.

Als Benutzer hier habe ich viel Kritik und viele (temporäre) Sperren erhalten, weil ich die wild enthusiastische Übernahme von KI angeprangert habe, die nun auf so viele Arten zurückschlägt (wie Arbeitsplatzverluste, aber und jetzt dies, was eine Fortsetzung des OP sein könnte und nichts anderes als der neueste KI-gesteuerte Web-Bot-Traffic ist, der sich bemerkbar macht, oh Junge.

Damals war meine Ansicht, dass es (auch) an der Zeit war, über alle Strategien nachzudenken, um für den Kunden/Endbenutzer Abhilfe zu schaffen, nicht einfach nur am Wettrüsten als Subunternehmer teilzunehmen. Diese Logik im Musk-Stil besagt, wenn du sie nicht schlagen kannst, schließe dich ihnen an, in diesem Fall ist das leicht gesagt, aber nicht die richtige Option und der Ruf nach Regulierung ist naiv.

Zurücktreten?

Vielleicht ist es jetzt zu spät.

Der KI-Traffic kommt vielleicht menschlicher daher: Technisch weiß ich nicht, wie das funktioniert (aber ich weiß, wie wir hierher gekommen sind), außer dass er sich wahrscheinlich leichter als menschlicher Traffic ausgibt und einen unauffälligeren Traffic darstellt, der auch aus Googles Sicht wünschenswert erscheint, aber oh je, das könnte ein größeres neues Problem sein.

Nichts ist jemals KOSTENLOS, ich weiß nicht, wie viele (wieder) von diesem geblendet wurden und keine menschliche Vorsicht walten ließen und eine Rückzugsoption wählten.

Im Moment kommt dieser Traffic immer noch aus sehr spezifischen Regionen, und selbst ASN-Blöcke reichen aus, um die Hitze chirurgisch zu entfernen.

Wie lange noch?

Das ist ziemlich normal, ich betreibe eine Reihe von Websites und Cloudflare zeigt normalerweise etwa das 10- bis 30-fache meines tatsächlichen Traffics an. Wenn sie keine Analysen auslösen, sind es Bots oder Suchmaschinen-Crawler. Da die meisten Bots nicht das für Analysen verwendete Javascript ausführen.

1 „Gefällt mir“

CloudFlare ist kostenlos :wink:

2 „Gefällt mir“

Diese erschienen in Google Analytics. Das war, wenn ich mich recht erinnere, das, was anders war.

Wenn Sie sich wirklich Sorgen machen, holen Sie sich CloudFlare und sperren Sie die betreffenden Länder per Firewall. Wenn Ihre IP bereits im DNS war. Holen Sie sich eine neue IP-Adresse. Das gilt, wenn Sie angegriffen werden.

1 „Gefällt mir“

Tatsächlich war der Server bereits bei den CF DNS, aber nicht weitergeleitet, da ich immer noch dachte, dass dies aufgrund alter Einrichtungshinweise nicht funktionierte. Du weißt, die Angst vor der orangefarbenen Wolke ist groß. :sweat_smile:

Ich habe es jedoch während einer der Wellen ausprobiert und das Volumen nach einiger Beobachtung relativ einfach gemildert. Es scheint auch viel mehr Verkehr als nur das herausgefiltert zu haben.

Ist der einzige Weg, eine neue IP-Adresse zu bekommen, zu einem neuen Server zu wechseln?

Hängt von Ihrem Hosting-Anbieter ab. Einige, wie DigitalOcean, können einfach eine neue statische IP-Adresse im Dashboard zuweisen, einige. Sie müssen sie möglicherweise fragen. Ich schalte es nie aus. Wenn ich die orangefarbene Wolke ausschalte, betrachte ich diese IP als kompromittiert. Wenn Sie durch das Einschalten Traffic verlieren, ist Ihre SSL-Einstellung wahrscheinlich nicht richtig konfiguriert. Oder das Caching ist nicht richtig. Live-Wechsel zu Cloudflare können schwierig sein, wenn Sie SSL noch nicht richtig eingerichtet haben. Da es schwierig ist, eine nicht zwischengespeicherte IP-Adresse vom DNS zu erhalten, um damit zu testen.

1 „Gefällt mir“