ウェブクローラー

anon65426961 · 2023 年 7 月 16 日午前 6:41

別のスレッドで @simon さんがクローラーを停止/ブロックする設定があると言っていましたが、その設定が見つかりません。どこにあるのか、どのように機能するのか、誰か知っていますか？

7月14日に私のサイトで異常なクローラーの急増が48件ありましたが、これらの厄介者は何をしているのでしょうか？

pfaffman · 2023 年 7 月 16 日午前 9:57

「クローラー」をサイト設定で検索します。ユーザーエージェントごとにブロックまたは低速化できます。

少なくとも一部は検索エンジンに表示されるようにサイトをインデックス化しています。おそらくあなたもそれを好むでしょう。

simon · 2023 年 7 月 16 日午後 1:48

また、「Webクローラーのユーザーエージェント」レポートを確認して、問題を引き起こしているクローラーの名前を確認してください。

anon65426961 · 2023 年 7 月 16 日午後 6:16

ありがとうございます。これでわかりました。デフォルトでブロックされているクローラーが5つありますが、これらは既知の問題のあるスパイダーだと思います。

良いクローラーのための許可リストを使用するオプションがあるようですが、これを使用すると、他のすべての電気的なバグの存在を自動的に拒否します。良いものが何であるかわかりません。

ウェブクローラーのユーザーエージェントレポートを見つけました。上位は「YandexBox/3.0」と「CensysInspect/1.1」です。

検索エンジンに表示されると、顧客が必要とする場合に役立つでしょう。

マーケティング会社から、そのサービスやウェブサイト構築の支援のためにサブスクリプションサービスを請求する多くの電話を受けていますが、それについてはすべてこれらの電話が少し迷惑です。

Ed_S · 2023 年 7 月 16 日午後 6:58

特筆すべきは、ユーザーエージェントは完全に偽装可能であるということです。Googleである場合、そのように表示されることはほぼ確実ですが、Googleであると表示されているからといって、それが真実であるとは限りません。

（robots.txtと同じ状況で、これらは信頼を前提としたメカニズムです。信頼できない当事者は、異なるルールで対応できます。）

anon65426961 · 2023 年 7 月 16 日午後 7:06

ずる賢い偽装者はイタチよりも悪い場合があります。

https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html

「# ロボットが Yandex のものであることを確認する方法

一部のロボットは、関連するユーザーエージェントを指定することで、Yandex ロボットになりすますことができます。逆引き DNS ルックアップを使用して、ロボットの認証を確認できます。

次の手順に従ってください。

サーバーログを使用して、対象のユーザーエージェントの IP アドレスを特定します。
IP アドレスの逆引き DNS ルックアップを使用して、ホストドメイン名を取得します。
ホストが Yandex に属しているかどうかを確認します。すべての Yandex ロボット名は、yandex.ru、yandex.net、または yandex.com で終わります。ホスト名が異なる場合は、ロボットは Yandex に属していません。
名前が正しいことを確認します。順引き DNS ルックアップを使用して、ホスト名に対応する IP アドレスを取得します。これは、逆引き DNS ルックアップで使用された IP アドレスと一致する必要があります。 IP アドレスが一致しない場合は、ホスト名が偽であることを意味します。」

JammyDodger · 2023 年 7 月 17 日午前 7:20

こちらにも参照できるガイドがあります。

anon65426961 · 2023 年 7 月 26 日午後 3:58

これらのウェブクローラーは、音声検索システムのためにサイトをインデックス化することをご存知ですか？

毎日、私の会社が主要なAI音声検索エンジンに登録されていないという自動通話が数件ありますが、これはサードパーティの会社が行っているだけで、これが正当なものかどうかはわかりません。

具体的には、会社を検索に「登録」するためのサブスクリプションサービスに料金を請求したり、会社が検索結果の最初のページに表示されるのを支援したりすることです。

pfaffman · 2023 年 7 月 26 日午後 4:13

知りません。疑わしいです。

これに実際に役立つと思われる人々とやり取りしましたが、合法的な方法を使用している人もいます。私の推定では、それらは例外のようです。

anon65426961 · 2023 年 7 月 26 日午後 7:49

音声検索についても何も知りませんし、会社が音声検索にインデックスされることを望んでもいません。

anon65426961 · 2023 年 7 月 26 日午後 8:28

これは、特に最近では、詐欺師がますます巧妙になっていることを覚えておくことが重要です。

私が受ける電話は、「Googleリスティングがレビューのためにフラグ付けされました」とよく言われますが、これはGoogleから電話がかかってきていることを示唆していますが、Googleは決して電話をかけてきません。一部の会社は「Googleパートナー会社」と名乗っていますが、それが実際に存在するのかどうかはわかりません。

anon65426961 · 2023 年 7 月 31 日午後 7:57

ある担当者から、この事業を行っている企業が40社ほど、少なくとも40社あると聞きました。ボイスサーチプラットフォームに登録するためにスタートアップ企業に電話をかけているのです。だから、こんなに多くの電話があるのですね。

トピック		返信	表示
How to block all crawlers but Google's Feature	1	4049	2019 年 7 月 21 日
Crawlers very high? Support	5	1035	2020 年 5 月 13 日
Controlling Web Crawlers For a Site Site Management how-to	10	2665	2025 年 7 月 19 日
Crawler-mania - what happened there? Support	2	557	2021 年 1 月 18 日
Have AI identify and flag web crawlers Feature ai	1	264	2023 年 7 月 11 日

ウェブクローラー

関連トピック