Webcrawler

anon65426961 · 16. Juli 2023 um 06:41

Ich habe in einem anderen Thread gehört, wie @simon erwähnte, dass es eine Einstellung gibt, um Crawler zu stoppen/zu vernichten. Ich kann diese Einstellung nicht finden. Wie mache ich das? Weiß jemand, wo sie ist und wie sie funktioniert?

Am 14. Juli gab es einen ungewöhnlichen Anstieg von 48 Crawlern auf meiner Website. Ich mag diese kleinen Biester nicht. Was machen sie?

pfaffman · 16. Juli 2023 um 09:57

Durchsuche die Website-Einstellungen nach „Crawler“. Du kannst nach User-Agent blockieren oder verlangsamen.

Zumindest werden einige deine Website indizieren, damit sie in Suchmaschinen erscheint. Das magst du wahrscheinlich.

simon · 16. Juli 2023 um 13:48

Sehen Sie sich auch den Bericht „Web-Crawler-Benutzer-Agents“ an, um den Namen des Crawlers zu ermitteln, der das Problem verursacht:

anon65426961 · 16. Juli 2023 um 18:16

Danke, jetzt habe ich es gefunden. Ich sehe, dass standardmäßig fünf Crawler-Namen blockiert sind. Ich schätze, das sind bekannte Problem-Spider.

Es scheint eine Option zu geben, eine Whitelist für gute Crawler zu verwenden, die, wenn sie verwendet wird, automatisch allen anderen elektrischen Käferwesen den Zutritt verweigert. Ich weiß nicht, was die guten sein könnten?

Ich habe die Berichte über User-Agents von Webcrawlern gefunden, die Top-Hits sind „YandexBox/3.0 und
CensysInspect/1.1
\n\n https://about.censys.io/

Es wäre gut, in einigen Suchmaschinen aufzutauchen, wenn Kunden das brauchen.

Ich erhalte viele Anrufe von Marketingunternehmen, die Abonnementdienste für Hilfe dabei und für den Website-Aufbau anbieten. Das könnte gut sein, aber es ist irgendwie nervig, all diese Anrufe dazu zu bekommen.

Ed_S · 16. Juli 2023 um 18:58

Es ist erwähnenswert, dass User Agents leicht gefälscht werden können. Wenn es Google ist, können Sie ziemlich sicher sein, dass dies auch angegeben wird. Aber nur weil es Google sagt, bedeutet das nichts.

(Gleiche Situation wie bei robots.txt, dies sind Mechanismen, die Vertrauen voraussetzen. Nicht vertrauenswürdige Parteien können einfach andere Regeln befolgen.)

anon65426961 · 16. Juli 2023 um 19:06

Täuschende Betrüger, schlimmer als Wiesel, die sie sein können:

https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html

„# So überprüfen Sie, ob ein Roboter zu Yandex gehört

Einige Roboter können sich als Yandex-Roboter ausgeben, indem sie den entsprechenden User Agent angeben. Sie können die Echtheit eines Roboters mithilfe einer Reverse-DNS-Abfrage überprüfen.

Gehen Sie dazu wie folgt vor:

Ermitteln Sie die IP-Adresse des betreffenden User Agents mithilfe Ihrer Serverprotokolle.
Verwenden Sie eine Reverse-DNS-Abfrage der IP-Adresse, um den Host-Domainnamen zu ermitteln.
Überprüfen Sie, ob der Host zu Yandex gehört. Alle Namen von Yandex-Robotern enden auf yandex.ru, yandex.net oder yandex.com. Wenn der Hostname eine andere Endung hat, gehört der Roboter nicht zu Yandex.
Stellen Sie sicher, dass der Name korrekt ist. Verwenden Sie eine Forward-DNS-Abfrage, um die IP-Adresse zu erhalten, die dem Hostnamen entspricht. Sie sollte mit der IP-Adresse übereinstimmen, die in der Reverse-DNS-Abfrage verwendet wurde. Wenn die IP-Adressen nicht übereinstimmen, bedeutet dies, dass der Hostname gefälscht ist.“

JammyDodger · 17. Juli 2023 um 07:20

Es gibt auch eine Anleitung, auf die Sie hier verweisen können:

anon65426961 · 26. Juli 2023 um 15:58

Wissen Sie zufällig, ob Webcrawler wie diese Websites für Sprachsuchsysteme indizieren?

Ich erhalte täglich ein paar automatisierte Anrufe darüber, dass mein Unternehmen nicht bei den wichtigsten KI-Sprachsuchmaschinen registriert ist. Dies scheinen nur Drittanbieterfirmen zu sein, die das tun, und ich bin mir nicht sicher, ob dies legitim ist, was sie tun.

Insbesondere: Abrechnung eines Abonnementdienstes für die „Registrierung“ eines Unternehmens bei der Suche oder Unterstützung von Unternehmen, die auf der ersten Seite der Suchergebnisse erscheinen.

pfaffman · 26. Juli 2023 um 16:13

Ich weiß es nicht. Ich bezweifle es.

Ich habe mit einigen Leuten interagiert, von denen ich glaube, dass sie tatsächlich helfen können, einige mit legitimen Methoden. Sie scheinen meiner Meinung nach die Ausnahme zu sein.

anon65426961 · 26. Juli 2023 um 19:49

Ich weiß auch nichts über Sprachsuche und möchte nicht einmal unbedingt, dass mein Unternehmen jemals von diesen indiziert wird.

anon65426961 · 26. Juli 2023 um 20:28

Das ist heutzutage besonders wichtig zu bedenken, da Betrüger immer raffinierter werden.

Die Anrufe, die ich erhalte, lauten oft: „Ihr Google-Eintrag wurde zur Überprüfung markiert“, was darauf hindeutet, dass Google anruft, aber Google ruft nie an. Einige Unternehmen nennen sich selbst eine „Google Partner Company“, ich bin mir nicht sicher, was das bedeutet, ob das überhaupt eine Sache ist.

anon65426961 · 31. Juli 2023 um 19:57

Von einem Mitarbeiter habe ich gehört, dass es etwa/mindestens 40 verschiedene Unternehmen gibt, die dies tun, Start-up-Unternehmen anrufen, um sie auf Voice-Search-Plattformen zu registrieren, was erklärt, warum so viele Anrufe getätigt werden.

Thema		Antworten	Aufrufe
How to block all crawlers but Google's Feature	1	4043	21. Juli 2019
Crawlers very high? Support	5	1028	13. Mai 2020
Controlling Web Crawlers For a Site Site Management how-to	10	2651	19. Juli 2025
Crawler-mania - what happened there? Support	2	555	18. Januar 2021
Have AI identify and flag web crawlers Feature ai	1	261	11. Juli 2023

Webcrawler

Verwandte Themen