Ich habe in einem anderen Thread gehört, wie @simon erwähnte, dass es eine Einstellung gibt, um Crawler zu stoppen/zu vernichten. Ich kann diese Einstellung nicht finden. Wie mache ich das? Weiß jemand, wo sie ist und wie sie funktioniert?
Am 14. Juli gab es einen ungewöhnlichen Anstieg von 48 Crawlern auf meiner Website. Ich mag diese kleinen Biester nicht. Was machen sie?
Danke, jetzt habe ich es gefunden. Ich sehe, dass standardmäßig fünf Crawler-Namen blockiert sind. Ich schätze, das sind bekannte Problem-Spider.
Es scheint eine Option zu geben, eine Whitelist für gute Crawler zu verwenden, die, wenn sie verwendet wird, automatisch allen anderen elektrischen Käferwesen den Zutritt verweigert. Ich weiß nicht, was die guten sein könnten?
Ich habe die Berichte über User-Agents von Webcrawlern gefunden, die Top-Hits sind „YandexBox/3.0 und
CensysInspect/1.1
\n\n https://about.censys.io/
Es wäre gut, in einigen Suchmaschinen aufzutauchen, wenn Kunden das brauchen.
Ich erhalte viele Anrufe von Marketingunternehmen, die Abonnementdienste für Hilfe dabei und für den Website-Aufbau anbieten. Das könnte gut sein, aber es ist irgendwie nervig, all diese Anrufe dazu zu bekommen.
Es ist erwähnenswert, dass User Agents leicht gefälscht werden können. Wenn es Google ist, können Sie ziemlich sicher sein, dass dies auch angegeben wird. Aber nur weil es Google sagt, bedeutet das nichts.
(Gleiche Situation wie bei robots.txt, dies sind Mechanismen, die Vertrauen voraussetzen. Nicht vertrauenswürdige Parteien können einfach andere Regeln befolgen.)
„# So überprüfen Sie, ob ein Roboter zu Yandex gehört
Einige Roboter können sich als Yandex-Roboter ausgeben, indem sie den entsprechenden User Agent angeben. Sie können die Echtheit eines Roboters mithilfe einer Reverse-DNS-Abfrage überprüfen.
Verwenden Sie eine Reverse-DNS-Abfrage der IP-Adresse, um den Host-Domainnamen zu ermitteln.
Überprüfen Sie, ob der Host zu Yandex gehört. Alle Namen von Yandex-Robotern enden auf yandex.ru, yandex.net oder yandex.com. Wenn der Hostname eine andere Endung hat, gehört der Roboter nicht zu Yandex.
Stellen Sie sicher, dass der Name korrekt ist. Verwenden Sie eine Forward-DNS-Abfrage, um die IP-Adresse zu erhalten, die dem Hostnamen entspricht. Sie sollte mit der IP-Adresse übereinstimmen, die in der Reverse-DNS-Abfrage verwendet wurde. Wenn die IP-Adressen nicht übereinstimmen, bedeutet dies, dass der Hostname gefälscht ist.“
Wissen Sie zufällig, ob Webcrawler wie diese Websites für Sprachsuchsysteme indizieren?
Ich erhalte täglich ein paar automatisierte Anrufe darüber, dass mein Unternehmen nicht bei den wichtigsten KI-Sprachsuchmaschinen registriert ist. Dies scheinen nur Drittanbieterfirmen zu sein, die das tun, und ich bin mir nicht sicher, ob dies legitim ist, was sie tun.
Insbesondere: Abrechnung eines Abonnementdienstes für die „Registrierung“ eines Unternehmens bei der Suche oder Unterstützung von Unternehmen, die auf der ersten Seite der Suchergebnisse erscheinen.
Ich habe mit einigen Leuten interagiert, von denen ich glaube, dass sie tatsächlich helfen können, einige mit legitimen Methoden. Sie scheinen meiner Meinung nach die Ausnahme zu sein.
Das ist heutzutage besonders wichtig zu bedenken, da Betrüger immer raffinierter werden.
Die Anrufe, die ich erhalte, lauten oft: „Ihr Google-Eintrag wurde zur Überprüfung markiert“, was darauf hindeutet, dass Google anruft, aber Google ruft nie an. Einige Unternehmen nennen sich selbst eine „Google Partner Company“, ich bin mir nicht sicher, was das bedeutet, ob das überhaupt eine Sache ist.
Von einem Mitarbeiter habe ich gehört, dass es etwa/mindestens 40 verschiedene Unternehmen gibt, die dies tun, Start-up-Unternehmen anrufen, um sie auf Voice-Search-Plattformen zu registrieren, was erklärt, warum so viele Anrufe getätigt werden.