Sehe anonymen Benutzer- und Crawler-Traffic, obwohl die Website privat ist

Ich betreibe eine private Discourse-Instanz und habe bemerkt, dass in meinem Dashboard anonymes Benutzer- und Webcrawler-Traffic aufgezeichnet wird. Bei genauerem Hinsehen stelle ich fest, dass dies bereits zuvor der Fall war, jedoch in geringerem Umfang.

Die Option „Anmeldung erforderlich" ist aktiviert, und unser SSO ist so konfiguriert, dass nur Benutzer mit bestimmten Kriterien eine Anmeldung durchführen können. Gibt es noch eine weitere Einstellung, die ich aktivieren sollte? Danke! : )

Es sollte nichts Weiteres erforderlich sein… Dieser Crawler-Verkehr stammt wahrscheinlich von Crawlern, die auf community.yoursite.com/login zugreifen. Wenn Sie community.example.com/admin/reports/web_crawlers überprüfen, können Sie sehen, wie häufig bestimmte Crawler auf Ihre Seite zugreifen.

Es gibt ein paar Dinge, die Sie tun können, um den Crawler-Verkehr zu reduzieren…

  • Versuchen Sie, /login in der robots.txt-Datei für Crawler zu sperren (community.example.com/admin/customize/robots)… Sie würden wahrscheinlich einen Rückgang des Crawler-Verkehrs feststellen (allerdings wahrscheinlich nicht vollständig, da es Crawler gibt, die die robots.txt-Datei nicht einhalten)

  • Schauen Sie sich die schlimmsten Übeltäter unter /admin/reports/web_crawlers an und fügen Sie deren User-Agents zur Site-Einstellung „blockierte Crawler-User-Agents“ hinzu

Zusätzlich zu dem, was Kris geschrieben hat, wird zu Beginn jeder SSO-Anmeldung auch eine anonyme Anfrage an die Anmeldeseite oder die Startseite Ihrer Website gestellt.

Die Seiten für die Nutzungsbedingungen (TOS) und den Datenschutz Ihrer Website können wahrscheinlich ebenfalls von anonymen Benutzern abgerufen werden.

Wenn du einen VPS nutzt oder Nginx (Apache funktioniert ebenfalls, aber Nginx ist einfacher :wink: ) vor Discourse läuft, ist das Bannen von Bots deutlich einfacher. Die Benutzeroberfläche von Discourse ist … nicht besonders benutzerfreundlich, da es draußen eine Flut an Bots gibt. Die robots.txt ist nahezu nutzlos, da ihr nur wenige folgen, nicht einmal Google.

Das Problem sind nicht die Angreifer, die versuchen, dein Discourse zu erreichen. Es geht um alles andere, wonach sie suchen:

  • Hunderte Script Kiddies testen, ob du WordPress hast, und suchen nach Schwachstellen, meist veralteten, aber dennoch
  • SEO-Scraper und andere Spiders versuchen, deinen Inhalt zu analysieren, meist weil sie damit Geld verdienen wollen
  • plus natürlich Suchmaschinen

Diese richten keinen echten Schaden an, indem sie sich Zugang verschaffen, aber ihre Bedienung kostet reines Geld.

Das Problem ist, dass dein Server auf alle von ihnen antworten muss. Sehr schnell stammt der Großteil der Last von Bots, nicht von echten Nutzern. Es ist eine völlig normale Situation, wenn du etwa 50 bis 500 Bots pro tatsächlichem Nutzer hast.

Und dafür wirst du bezahlen.

Ich habe keine globale Zielgruppe, da meine Seiten, einschließlich Discourse, rein finnisch sind. Daher habe ich auch ein mächtiges Werkzeug, das jedoch nur auf einem VPS eingesetzt werden kann: Geo-Blocking.

Es tut mir sehr leid, liebe Freunde aus Russland, China, Indien, Pakistan, Iran, Irak und Vietnam, aber als ich diese Länder blockiert habe, sank meine Bot-Last um etwa 90 %.

Der Kampf gegen Bots ist ein nie endender Kampf. Und die Werkzeuge von Discourse sind, wenn ein Forum nicht privat ist, sehr begrenzt. Aber sicher besser als nichts.

Versteh mich nicht falsch. Ich möchte nicht, dass eine App etwas tut, was Aufgabe des Servers ist. Ich meine nur, dass du dich nicht auf Discourse verlassen kannst.