Warum erhalte ich viele Suchanfragen von chinesischen Websites?

Yassine_Yousfi · 1. Juli 2020 um 22:04

In der Liste gibt es weit mehr als das. Hast du eine Idee?

RGJ · 1. Juli 2020 um 22:12

Ich habe das heute in den Logs eines unserer Kunden gesehen, also ist das mehr als nur ein Zufall.

EDIT: Nein, ich denke, es ist doch ein Zufall. Eine Suche nach ymwears.cn zeigt weitere Beschwerden über Referral-Spam, zum Beispiel diese (älter als ein Jahr): Relevanssi shows weird search queries on my page | WordPress.org und Block specific referrer or agent to enter url | WordPress.org

pfaffman · 1. Juli 2020 um 22:19

Ich hatte letzten Monat einen Kunden, der sich darüber beschwerte. Ich habe einige IP-Adressen blockiert und erwogen, fail2ban so zu konfigurieren, dass IPs blockiert werden, die nach bestimmten dieser URLs gesucht haben, habe aber nie wirklich etwas unternommen. Ich habe mich mit der Blockierung nach geografischer Region beschäftigt, aber es schien, als bräuchte man dafür eine Datenbank für 20 $ pro Monat.

Yassine_Yousfi · 3. Juli 2020 um 03:19

Interessant, seid ihr euch einer Lösung bewusst, die funktionieren könnte, ohne dass man den Server selbst anfassen muss?

@pfaffman @RGJ

RGJ · 3. Juli 2020 um 05:33

Referrer-Spam ist ein ziemlich großes Problem, das selbst die großen Player (z. B. Google Analytics) nicht zu 100 % erfolgreich bekämpfen. Im Moment fällt mir nur ein, diese Einträge manuell zu entfernen.

Da diese Seiten anscheinend – zumindest teilweise – auf mehreren unabhängigen Discourse-Instanzen identisch sind (angesichts der Tatsache, dass unsere Screenshots fast die gleiche Liste zeigen), wäre eine (dynamische) Blacklist vielleicht eine Idee? @codinghorror hast du einen Vorschlag?

neounix · 3. Juli 2020 um 05:42

Wir haben dieses Problem über Jahre hinweg in großem Maßstab gesehen, angegangen und gemildert. Die zuverlässigste Methode, die wir in den letzten Jahren gefunden haben, um bösartige Bots zu blockieren, ist die Blockierung basierend auf der User-Agent (UA)-Zeichenkette (manchmal in Kombination mit GeoIP-Informationen).

Wir haben im Laufe der Jahre Hunderte von Millionen Treffer chinesischer Bots blockiert und dabei selten festgestellt, dass das Blockieren von IP-Adressen über die Zeit so gut funktioniert wie das Blockieren von Clients basierend auf UA-Zeichenketten.

Hier ist ein Code-Ausschnitt, den wir als Beispiel auf einer unserer Websites verwenden:

$user_agents = explode('|',$string_of_bad_user_agents,-1);
$hide_content_useragent = $_SERVER['HTTP_USER_AGENT'];
$IS_A_BAD_BOT = FALSE;

foreach($user_agents as $hcag) {
    trim($hcag);
    if (preg_match("/$hcag/i", "$hide_content_useragent")) {
        $IS_A_BAD_BOT = TRUE;
        break;
    }
}

Fast alle (nicht alle) bösartigen Bots verwenden UA-Zeichenketten, die relativ leicht identifiziert und blockiert werden können (in dieser Ära; ob das in Zukunft auch so ist, hängt von der Weiterentwicklung ab). Deshalb haben wir vor Jahren die Methode aufgegeben, bösartige Bots basierend auf IP-Adressen zu blockieren. Der Grund dafür ist, dass viele Länder wie China, Russland, Nordkorea und viele weitere ihre Bot-Farmen mittlerweile von Servern in anderen Ländern betreiben. IP-Adressen sind kein guter Indikator für den tatsächlichen Ursprung oder die Absicht. Zudem können beim Blockieren großer IP-Adressblöcke auch legitime Adressen blockiert werden, was legitimen Nutzern den Zugriff verwehrt.

Beispielsweise betreibt China riesige Serverfarmen mit Bots in Brasilien und anderen Ländern, die geografisch näher an den USA liegen, um ihren Ursprung zu verschleiern und Daten schneller abzurufen (kürzerer Internetweg).

Manchmal stimmt die WHOIS-Datenbank mit einer physischen Adresse aus China, Nordkorea oder Russland (als Beispiele) überein, manchmal jedoch nicht, und es werden lokale physische Adressen verwendet. Wir haben in den letzten Jahren viele bösartige chinesische Bots gesehen, die bei brasilianischen Unternehmen registriert waren, wobei wir sehen und bestätigen konnten, dass die User-Agent-Zeichenketten mit bösartigen Bots aus China übereinstimmten. Außerdem sehen wir bei Google-Suchen nach diesen UA-Zeichenketten, dass andere ebenfalls viele derselben UA-Zeichenketten als chinesisch identifiziert haben.

Zusammenfassend lässt sich sagen: Obwohl viele Menschen sofort darauf zurückgreifen, IP-Adressen zu blockieren, um bösartige Bot-Aktivitäten einzudämmen, sind die meisten hochentwickelten Bot-Farmen sehr gut darin, ihre Bots aus anderen Ländern heraus zu betreiben. Es ist einfach, in den meisten Ländern einen VPS einzurichten, und je näher der Bot am Zielland liegt, desto mehr Daten kann er scrapen. VPS-Instanzen können innerhalb von Minuten kommen und gehen, und Bot-Software kann in fast jedem VPS-Rechenzentrum weltweit sehr schnell bereitgestellt werden.

In den letzten Jahren hat sich die Blockierung basierend auf UA-Zeichenketten als zuverlässigere Methode erwiesen (manchmal in Kombination mit GeoIP-Informationen, manchmal nicht). Natürlich beginnen auch Spammer, Bot-Master und deren Agenten, die UA-Zeichenketten zu verschleiern, so wie sie dies bereits seit vielen Jahren mit ihren IP-Adressen tun.

Hoffentlich hilft das weiter.

Cheers & viel Erfolg bei der Jagd auf Bots!

RGJ · 3. Juli 2020 um 07:02

Ja, ich stimme absolut zu, dass IP-Blocking nicht effektiv ist.

Das Blockieren von User-Agents funktioniert in der Regel recht gut, außer wenn Spammer sie ständig ändern.

Deshalb habe ich darüber nachgedacht, einfach die eigentliche URL zu blacklisten, die für Referrer-Spam genutzt wird.

Es fühlt sich einfach „besser

neounix · 3. Juli 2020 um 07:24

Gute Überlegungen.

Es gibt keine universelle Lösung, um bösartige und böswillige Bots zu stoppen; jede Website muss selbst prüfen, welche Kontrollmechanismen für sie am besten funktionieren.

In einem ähnlichen Zusammenhang…

Websites, die sich hauptsächlich auf Blacklists und Datenbanken für Spam oder böswillige Bots verlassen, können ebenfalls Probleme haben. Nehmen wir an, jemand mag die Website www.our-arch-rival.com nicht, weil es sich um einen Konkurrenten handelt (oder weil uns diese Seite einfach wütend gemacht oder beleidigt hat). Dann werden einige Leute die Website www.our-arch-rival.com bei einer Blacklist oder Datenbank eintragen, und andere Seiten werden daraufhin eine legitime Website filtern, nur wegen dieser Art von „negativen Konsequenzen

RGJ · 3. Juli 2020 um 11:52

Das ist ein weiterer Grund, sich von der IP-Sperre fernzuhalten: Die Spammer werden wissen, dass Sie Maßnahmen ergreifen.

Yassine_Yousfi · 3. Juli 2020 um 16:13

Ich denke, man kann die meisten Spammer über Cloudflare blockieren, bin mir aber nicht sicher, was man bei den Regeln für den Browser-Agent eintragen soll.

@neounix, was meinst du mit „UA-Strings“? Und wie können sie in Cloudflare-Firewall-Regeln verwendet werden?

pfaffman · 3. Juli 2020 um 18:45

Aber das ist doch gar keine Referrer-Spam, oder? Sie suchen einfach nur nach dieser URL, also passiert dabei eigentlich nichts, oder? Habe ich den Bericht völlig falsch verstanden? Der ist doch nur für Admins zugänglich, oder?

markersocial · 3. Juli 2020 um 20:59

Ich denke, du hast recht, @pfaffman. Der Bericht scheint sich nur auf Suchanfragen im Forum zu beziehen. Er enthält auch die CTR, was bei einem Referrer-Bericht keinen Sinn ergeben würde.

RGJ · 3. Juli 2020 um 21:55

Nein, technisch gesehen ist das keine Referrer-Spam, aber ich bin mir nicht sicher, ob es ein Wort für genau diese Art von Missbrauch gibt. Ich denke, das kommt der Referrer-Spam sehr nahe, nur eben für einen Suchanfragen-Bericht?

Referrer-Spam führt nie zu Aktionen; sie soll lediglich in Berichten erscheinen.

neounix · 3. Juli 2020 um 22:22

[quote=“Yassine_Yousfi, post:10, topic:156524”]
@neounix, was genau meinst du mit „UA-Strings

Thema		Antworten	Aufrufe
How do I stop someone from spamming "Trending Search Terms"? Support	28	2245	26. Februar 2026
Pageviews from Anonymous Users have exploded but Google Analytics showed no traffic growth. How to find about where the increase come from? Data & reporting	23	2502	5. Januar 2021
View IP address of guests / anonymous visitors? Data & reporting	13	1508	13. Januar 2022
User-agent: lfc-discourse-public-crawler Bug	3	127	9. Juli 2026
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4804	2. Dezember 2023

Warum erhalte ich viele Suchanfragen von chinesischen Websites?

Verwandte Themen