Was können Crawler sehen?

PVIcpaq · 3. Februar 2024 um 19:15

Es gibt ein paar Crawler auf unserer Website. Besteht die Gefahr, dass sie Zugriff auf die Inhalte haben?

Was ist eine « akzeptable Crawler-Auslastung/Risiko », bevor ich Blockierungsverfahren einleiten müsste, von denen ich wenig bis gar keine Ahnung habe?

HAWK · 3. Februar 2024 um 19:35

Sie können nur öffentliche Websites crawlen, was bedeutet, dass es keine Sicherheitslücke gibt. Aber ja, sie können auf öffentliche Inhalte zugreifen.

Jagster · 3. Februar 2024 um 20:53

Wenn die Auslastung so hoch ist, dass sie negative Auswirkungen hat und Sie mehr CPU und/oder RAM kaufen sollten. Nun, ich weiß nicht, wie leicht das bei Discourse passieren kann, weil die Lösung anders ist, aber PHP-basiertes WordPress ist ziemlich einfach in die Knie zu zwingen. Aber Discourse liefert statische und leichte Inhalte für Bots, wenn es weiß, wer Mensch und wer nicht ist. Und wenn ein Bot einen stark falschen User-Agent angibt, was kann er bekommen… viele Texte in JSON?

Wenn ein Bot seinen Weg durch Login, Vertrauensstufenbarriere usw. findet, würde ich vermuten, dass das Team im Panikmodus sein wird und jede Hand sofort wieder an die Arbeit muss

HAWK · 4. Februar 2024 um 01:40

Beachten Sie auch, dass Sie Crawler einfach über Ihre Admin-Einstellungen blockieren können.

PVIcpaq · 4. Februar 2024 um 02:19

Ich wäre Ihnen sehr dankbar, wenn Sie mir sagen könnten, wie…

HAWK · 4. Februar 2024 um 02:41

Web-Crawler für eine Website steuern

Jagster · 4. Februar 2024 um 03:37

Hoffentlich ist das nicht nur eine Bearbeitung der robots.txt, da diese nur mit gut funktionierenden Bots funktioniert. Es gibt eigentlich nur eine effektive, aber etwas schwierigere Lösung: Reverse Proxy.

HAWK · 4. Februar 2024 um 05:43

Dieser Ansatz ist effektiv – wir nutzen ihn selbst und empfehlen ihn unseren Kunden, die bei uns hosten.

Jagster · 4. Februar 2024 um 07:11

Sollte ich lesen, dass Discourse Filter verwendet?

HAWK · 4. Februar 2024 um 19:31

Ich bin mir nicht sicher, was Sie fragen. Wir blockieren standardmäßig nichts, aber wir stellen Administratoren die Werkzeuge zur Verfügung, um selektiv zu sein.

Jagster · 4. Februar 2024 um 19:36

Sie vertrauen also darauf, dass Bots a) die robots.txt lesen und b) die Regeln befolgen. Nun, schlecht benehmende tun keines von beiden. Und wir sind wieder am Anfang: Wenn Bots irgendein Problem darstellen, ist ein Reverse-Proxy die beste Lösung.

Danke. Das würde ich gerne wissen.

HAWK · 4. Februar 2024 um 20:43

Ah, ich verstehe, was Sie meinen. Nein, wir gehen nicht davon aus, dass sich alle Bots als Crawler identifizieren oder die Regeln befolgen – es ist definitiv keine exakte Wissenschaft. Ich habe dem OP lediglich einen ersten Lösungsansatz angeboten.

Wir arbeiten derzeit an Möglichkeiten, den Datenverkehr spezifischer einzuschränken, aber das ist keine leichte Aufgabe.

anon36555649 · 4. Februar 2024 um 22:39

Habe bemerkt, dass die Crawler-Zahlen auf der gehosteten Discourse-Site viel niedriger sind als auf der Digital-Ocean-Server-Site, mit den Standard-Admin-Einstellungen für diese.

Die gehostete Website hat normalerweise weniger als zehn Crawler pro Tag, im Durchschnitt etwa 4. Manchmal gibt es Spitzen, wie am letzten Tag des letzten Januars, an dem es an diesem Tag 77 Crawler gab.

Die Digital-Ocean-Site mit fast keiner Aktivität hat durchschnittlich etwa 30 Crawler pro Tag. Ich weiß nicht, warum das wichtig ist, ob die Art des Servers oder der Domain mehr Crawler hat?

Diese durchsuchen/indizieren im Allgemeinen öffentliche Websites + Inhalte, damit Suchmaschinen sie finden können, was für Websites gut sein kann, wenn Sie ein breiteres Publikum erreichen möchten, dann können die Leute Ihre Website finden, wenn sie nach etwas suchen, das auf einer Discourse-Site besprochen wird.

Es mag andere Zwecke für Crawler geben, ich weiß nicht, wofür sie alle sind. Diese werden standardmäßig in den Einstellungen verweigert, was Sie wahrscheinlich bereits wissen:

PVIcpaq · 5. Februar 2024 um 02:37

Als relativ computerunerfahrener Mensch habe ich Ihre Expertenmeinungen zum Crawling mit einer gewissen Behinderung verfolgt, ähnlich wie ein Zuschauer, der das Endspiel der US Open beobachtet… Vielen Dank, dass Sie mich in diesen verwirrenden Teil der Website-Sicherheit eingeführt haben.

Unser Forum, das so effizient von Discourse gehostet wird, ist ein sehr vertrauliches Forum. Benutzer, die auf Einladung beitreten, sind sehr nervös wegen der Vertraulichkeit, und ich versuche, sie so gut wie möglich zu beruhigen. Crawler sind vielleicht nicht allzu schädlich (?!), aber ich möchte sie, wenn möglich, komplett fernhalten, da sie uns keinen Nutzen bringen und wir kein Interesse daran haben, dass unsere Inhalte indiziert oder in irgendeiner Weise bekannt werden.

Mir ist jetzt bewusst, dass die Optimierung der Einstellungen das Erste ist, was getan werden muss. Ist es möglich, dass meine Einstellungen in dieser Hinsicht von einer der Communitech-Supportgruppen überprüft werden?

Vielen Dank für Ihre Aufmerksamkeit.

rahim123 · 5. Februar 2024 um 03:17

Ah, das ist gut zu sehen, ich dachte, es würde sich nur auf Redis verlassen, um kürzlich gerenderte Inhalte schneller bereitzustellen. Wie Sie erwähnen, hat mein Forum, als es auf Drupal lief, manchmal die schlechten Bots und sogar die Suchmaschinen-Crawler in die Knie gezwungen. Aber ich habe ein Plugin installiert, das eine statische HTML-Datei-Cache für anonym abgerufene Seiten erstellte und automatisch Nginx-Rewrite-Regeln dafür erstellte. Nginx würde diese ohne Bootstrapping des Drupal PHP-Codes bereitstellen, und es war einfach blitzschnell und konnte viel mehr anonymen Traffic bewältigen.

HAWK · 5. Februar 2024 um 04:04

Hallo. Es ist ziemlich wichtig zu beachten, dass dies keine Auswirkungen auf die Sicherheit hat. Crawler haben nur Zugriff auf öffentliche Websites. Wenn Sie eine Website haben, die nur mit Login zugänglich ist, haben sie keinen Zugriff.

Eine weitere Klarstellung ist, dass Communiteq in keiner Weise mit uns verbunden ist. Wenn sie also Ihr Hoster sind, werden Sie nicht von Discourse gehostet.

RGJ · 5. Februar 2024 um 16:47

Ich hatte vor, eine private Antwort zu senden, aber dies könnte auch für andere hilfreich sein, daher poste ich sie hier.

Sie greifen nur auf Ihre Startseite (Anmeldeseite) zu und können nicht auf den Inhalt zugreifen.

Sie können es sein. Je nach Art des Crawlers könnten sie Informationen zugänglich machen, die Sie nicht zugänglich machen wollten. Technisch gesehen kann ein Crawler nur auf öffentliche Informationen zugreifen, aber ein Crawler (und die damit verbundenen Suchmaschinen) sind sehr gut darin, Informationen zu entdecken und zugänglich zu machen.

Lassen Sie uns also Ihre Situation betrachten.

Ihre robots.txt zeigt

User-agent: *
Disallow: /

damit ist sie so eingestellt, dass alle Suchmaschinen-Crawler abgewiesen werden.

Dies allein reicht jedoch nicht aus, da robots.txt auf Höflichkeit basiert und von “schlechten” Robots nicht beachtet wird. Ein schlechter Roboter kann einfach robots.txt ignorieren. Es ist wie ein “Zutritt verboten!”-Schild – ein Einbrecher wird es nicht beachten.

Die Hauptsicherheit Ihres Forums beruht auf der Tatsache, dass Sie Login erforderlich aktiviert haben. Das reicht aus, um jeden Crawler fernzuhalten.

Obwohl wir bereits festgestellt haben, dass Crawler nicht eindringen können, ist es vielleicht gut, noch einen Schritt weiter zu gehen.

Sie haben auch Nur Einladung und Neue Registrierungen zulassen aktiviert, und Einladungen erlaubte Gruppen ist auf TL2 eingestellt. Das bedeutet, dass beliebige Personen sich nicht anmelden können, aber jeder Benutzer ab TL2 kann andere Benutzer in die Community einladen. Als Sicherheitsnetz haben Sie Benutzer genehmigen aktiviert, das ist also gut. Der einzige Weg, Zugang zu Ihrer Community zu erhalten, ist, von jemandem eingeladen zu werden, der bereits ein vertrauenswürdiges Mitglied der Community ist, und ein Administrator muss Sie hineinlassen.

Bitte wenden Sie sich an support@communiteq.com oder nutzen Sie die Option "Support" in unserem Control Panel, wenn Sie Supportfragen zu einem von uns gehosteten Forum haben.

Thema		Antworten	Aufrufe
How to protect myself from bots crawling my Discourse instance? Support	6	1604	17. Januar 2022
Controlling Web Crawlers For a Site Site Management how-to	10	2372	19. Juli 2025
Smarter handling of random crawler traffic Feature	2	3499	29. März 2018
MegaIndex bot did about 4,000 pageviews on one day Community	40	4520	2. Dezember 2023
How to allow user-agent access to private discourse? Support	10	2017	25. November 2018

Was können Crawler sehen?

Verwandte Themen