Просмотры страниц от анонимных пользователей резко выросли, но Google Analytics не показывает роста трафика. Как узнать, откуда пришел этот рост?

За последние две недели количество просмотров страниц (PV) от анонимных пользователей резко выросло. Однако Google Analytics (GA) показывает другую картину. Как видно из данных, в GA даже зафиксирован небольшой спад. Мне радостно видеть рост, но я хотел бы узнать больше о том, откуда пришли эти внезапные анонимные пользователи.

Есть ли способ увидеть сайты-источники для анонимных пользователей?

Ранее я нашел эту тему: Is the info Top Referred Topics/ Top Traffic Sources stored in a table in the database? - #9 by simon. Правильно ли я двигаюсь в этом направлении?

Привет, @zhenniwu

Это не «рост». Скорее всего, ваш сайт посетил неавторизованный бот, который не соблюдает правила robots.txt и уже помечен Google как «неавторизованный бот», поэтому их трафик исключается из их статистики.

Вы мало что можете с этим сделать, если только не готовы потратить много времени и сил на обнаружение и блокировку ботов, что в большинстве случаев является пустой тратой времени.

Это просто «жизнь в сети, какой мы её знаем», и в основном не стоит даже обращать на это внимание.

@neounix Большое спасибо за ваши подсказки! Это подтвердило наши подозрения. Мы планируем обновление Discourse и надеемся, что оно ограничит скорость работы некачественных ботов. Мы продолжим отслеживать просмотры страниц от анонимных пользователей.

Кстати, знаете ли вы, есть ли способ подтвердить, является ли пользователь ботом? Большое спасибо за вашу помощь!

Привет, @zhenniwu

Вы уже подтвердили, что это бот, проанализировав его поведение и поняв, что это аномалия.

Обнаружение ботов становится простым, когда строка пользовательского агента (UA) клиента прямо или косвенно заявляет: «Я БОТ». Однако «незаконные боты» не указывают в своих строках UA, что они являются ботами, поэтому мы вынуждены обнаруживать ботов и аналогичную активность, основываясь на их поведении.

Вы можете написать код для автоматизации этого процесса, если хотите; однако обнаружение всех классов ботов — задача нетривиальная, поскольку у ботов множество различных поведенческих характеристик, и они проявляются не только в частоте запросов (как вы наблюдаете).

Прежде чем приступать к созданию решения для обнаружения, задайте себе вопрос: «Чего вы хотите добиться, обнаруживая их?».

Почему это для вас важно, @zhenniwu?

Кстати, вот статья от июля 2017 года, написанная редактором Research Gate именно на эту тему. Приятного чтения!

https://www.researchgate.net/blog/post/researchers-render-cyberspace-in-3d-like-a-video-game-to-make-identifying-threats-easier

Ты думаешь, это те изменения для robots, которые мы внесли для Google, @sam?

Может быть и так, но единственный способ убедиться — посмотреть на реальный трафик.

Подавляющее большинство ботов не учитывает файл robots.txt.

Более того, многие неправомерные боты читают robots.txt, чтобы получить информацию о тех разделах, куда администраторы не хотят, чтобы боты заходили, а затем пытаются извлечь данные из этих областей!

Иными словами, robots.txt неэффективен для контроля поведения 99,9% (можно взять любую большую долю) ботов в интернете; кроме того, он может раскрывать информацию о «чувствительных» разделах сайта.

Это не соответствует действительности, судя по нашим 7 годам работы в сфере хостинга. Я уверен, что вредоносные боты существуют, но они далеко не распространены.

Понятно. Значит, этот взрыв мог быть вызван не rogue-ботами.

@codinghorror @sam, мы с радостью предоставим наши данные для любого анализа и отладки. Просто дайте знать, что именно вам нужно, и я всё передам. Заранее спасибо!

Привет, Джефф!

Тогда вам повезло! Я прикрепил статью из ResearchGate под названием «Виртуализированное киберпространство — Визуализация паттернов и аномалий для когнитивной кибербезопасности», в которой показаны части описанной мной проблемы!

Кроме того, для информации, вот наш «краткий» список частичных строк User Agent, которые НЕ соблюдают robots.txt и сканируют наши сайты (обновлено):

AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot

Приведённый выше список лишь частичный и давно не обновлялся, поэтому он не «идеален» и довольно «устарел»… :slight_smile:

Наш прямой опыт за два десятилетия, включая написание большого количества кода для обнаружения ботов и визуализации (а также публикацию ряда статей, видео и презентаций по этой теме), показывает, что лишь горстка ботов соблюдает robots.txt, и те, кто это делает, принадлежат крупным компаниям, таким как Google, Bing (Microsoft) и т.д.

Самые агрессивные боты подделывают свою строку User Agent, чтобы выглядеть как «не-боты».

Более того, самые злостные нарушители — это боты из Китая, России и Кореи; у нас есть плагин для наших устаревших форумов, который обнаруживает этих вредоносных ботов с помощью техники «горшочка с мёдом» (honey pot) и других поведенческих паттернов. Результаты вы можете увидеть в прикреплённой статье, где есть красивые цветные изображения ботов в киберпространстве.

Например, исходя из нашего опыта и прямых исследований в области визуализации кибербезопасности, все боты, перечисленные в robots.txt по умолчанию для Discourse, не соблюдают robots.txt, включая DotBot, semrushbot и ahrefsbot (у нас была очень большая проблема с ahrefsbot, которая освещена в другой презентации, см. иллюстрацию):

User-agent: DotBot
Disallow: /

User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /

В далёком прошлом мы перечисляли этих ботов (и до сих пор делаем это) в robots.txt (плюс многие другие!), и обнаружили, что «почти ноль» из перечисленных выше ботов соблюдают директивы robots.txt.

Вам очень повезло, если ваш хостинг-сайт имеет иной опыт!

Мы провели обширное тестирование и написали много кода для визуализации, и мы точно знаем, основываясь на рецензируемых исследованиях, что большинство ботов не соблюдают robots.txt, и лишь горстка ботов от «ведущих технологических компаний» это делает.

Хотя эта наша статья (ниже) не перечисляет всех ботов, она даёт пример того, насколько подробно мы тестировали и писали код (в игровом движке Unity и на платформах LAMP) в этой области:

https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness

Также приложил эту статью в качестве ссылки, так что нет необходимости скачивать её с ResearchGate.

Наслаждайтесь!

Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)

PS: Я планирую в 2021 году перенести много своего устаревшего кода обнаружения ботов с LAMP на Rails, если будет время!

Также см.:

https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace

(также приложено ниже)

anomalies_cyberspace_v01.pdf (3.3 MB)

Пример графика из презентации, показывающий более 200 китайских ботов Baidu, маскирующихся под обычных пользователей (используя нормальную строку User Agent, а не «бот-строку»), которые сканируют сайт с IP-адресов Бразилии (а не Китая).

Интересно узнать, какие именно изменения. Есть коммит или CL?

Да, и наши клиенты пришли бы в ярость, если бы дело обстояло так, ведь они фактически платят за каждый просмотр страницы. Злоумышленные боты, генерирующие чрезмерное количество просмотров, обходятся им в деньги и могут заставить их уйти с нашей хостинговой платформы. Вот почему мы, например, так сильно ограничили Bing — если хотите, можете проверить это сами.

Так что да, наш более чем семилетний опыт хостинга показывает, что злоумышленные веб-краулеры и боты, хотя они и существуют, не являются значительной проблемой.

(Я бы сказал то же самое и о Stack Overflow, который входит в топ-100 веб-ресурсов и который я соосновал.)

Привет, Джефф!

Отличный разговор!

Недавно я участвовал в конференции с финансовым директором одной из крупнейших технических рекламных сетей, базирующейся в Нью-Йорке, и он сказал, что они (и их рекламодатели) считают ботовый трафик (как злонамеренный, так и нет) одной из своих главных проблем и тратят на эту тему (разделение легитимного трафика пользователей и ботового трафика) значительные средства.

Так что вам действительно повезло, если ваши сайты не сталкиваются с теми же проблемами, которые мучают Уолл-стрит и их рекламодателей, постоянно с этим борющихся.

Честно говоря, многие компании, с которыми я работаю в сфере кибербезопасности и борьбы с мошенничеством на протяжении последних двух десятилетий, имели ровно противоположный опыт, чем тот, который вы описываете.

Отличная работа, Джефф!

Кстати, вам может быть это интересно. Статья «устарела» (пять лет назад), но проблема с тех пор, с 2015 года, не стала «лучше»:

Цитата из CSOonline выше (2015 год):

«Хорошие боты» составили 36% трафика в этом году, что больше 21% в прошлом году. «Плохие боты» были ответственны за 23% трафика в этом году, что немного меньше 24% в прошлом году — не потому, что объёмы снизились, как повторил Эссайд, а потому, что количество «хороших ботов» резко выросло. Трафик от людей составил всего 41%, что меньше 55% в прошлом году.

Компания определяет «плохие боты» как тех, кто не уважает файлы «robots.txt» и не приносит пользы сайтам, которые они посещают.

Я постараюсь найти ссылки, более близкие к 2020 году, и опубликую их, так как 2015 год уже немного устарел за пять лет!

Мой опыт работы с клиентами в сфере кибербезопасности показывает, что показатели трафика от «плохих ботов» в 2020 году намного выше, чем в отчёте CSO за 2015 год; поэтому любой, у кого нет проблемы с «плохими ботами», действительно очень удачлив! Мы написали множество решений для «обнаружения и классификации плохих ботов» за последнее десятилетие, и это больно, поскольку программисты ботов становятся всё более «хитрыми» :slight_smile: и хорошо умеют менять свои строки User-Agent (вместе с таймингом и поведением ботов), чтобы выглядеть как легитимный человеческий трафик (задолго до существования CloudFlare).

Очень приятно услышать от Джеффа, что сайты на Discourse в основном невосприимчивы к этому трафику «плохих ботов» и не нуждаются в сложном коде обнаружения ботов для решения проблем, с которыми сталкиваются другие.

Все ли хостинги Discourse находятся за CloudFlare? CloudFlare разработан для защиты от этого.

Как я уже говорил, мы бы буквально разорились, если бы то, что вы описываете (дикие повсеместные вредоносные боты, скачивающие миллионы страниц в секунду), было правдой, так что, полагаю, это своего рода чудо! Не уверен, как объяснить это противоречие между тем, во что вы верите, и реальными бизнес-фактами, с которыми я сталкивался в Stack Overflow (2008–2012) и Discourse (2012–настоящее время).

С другой стороны, рекламные сети и боты — это совершенно другая тема, поскольку боты, притворяющиеся пользователями и кликающие по рекламе, позволяют создателям ботов печатать «бесплатные» деньги.

Возможно, разница в том, что большинство наших клиентов не полагаются на рекламу? И даже в Stack Overflow баннерная реклама составляла лишь небольшую часть бизнеса. Возможно, стоит иметь в виду это важное различие, когда вы размышляете об этом.

Привет, Джефф,

К твоему сведению, это общепринятое знание, а не мое личное мнение, что бот-трафик превышает трафик, генерируемый людьми, в интернете.

Также общепринято, а не мое личное мнение, что значительная часть бот-трафика приходится на ботов, которые не уважают robots.txt. Некоторые оценивают это как минимум в половину, а мой опыт показывает, что это «зависит от сайта и темы».

Я рад, что у тебя в компаниях, которые ты основал и построил, сложился иной опыт, и искренне радуюсь за тебя.

С другой стороны, факт таков: в 2020 году бот-трафик составлял примерно от 55 до 60 процентов всего трафика; из этого бот-трафика, возможно, около половины приходится на ботов, не уважающих robots.txt. Некоторые исследования дают цифру «плохих ботов» даже на уровне 35 процентов от всего трафика, другие — выше, в зависимости от источника. Я не выдумываю, это хорошо задокументировано.

Если у тебя есть научные статьи или статистика, выходящие за рамки твоего опыта хостинга в Discourse или предыдущей деятельности, показывающие, что «плохой бот-трафик» ничтожно мал, я с большим удовольствием ознакомлюсь с ними, потому что лично я никогда не видел ни одной научной статьи или ссылки, где утверждалось бы, что трафик «плохих ботов» настолько незначителен, как ты здесь утверждаешь.

Извини, если несогласие с тобой тебя расстраивает. Я привел ссылки и могу предоставить дополнительные (это не мое мнение), если ты открыт к фактам о трафике в интернете.

В противном случае я прекращу обсуждение этой темы, чтобы не надоедать тебе :slight_smile:, так как не хочу спорить с тобой по поводу чего-то, в чем у тебя сильное мнение, на форуме, где у меня нет прав администратора :slight_smile:

Счастливых праздников!

Возможно, для рекламных сетей, которые ведут смертельную борьбу с ботами и фальшивыми кликами ради рекламных долларов. Но на Stack Overflow и в Discourse? Это в основном не проблема.

Если вам нравится спорить о гипотетических ситуациях, основанных на теориях, пожалуйста, делайте это сколько душе угодно. Проводите весь день каждый день в теоретизировании на полную катушку. Надеюсь, это теоретизирование приносит вам огромную радость и счастье в жизни! А пока у нас есть бизнесом, которым нужно управлять, поэтому я предпочитаю принимать решения на основе реальных данных, собранных в наших реальных компаниях. Думаю, я немного сумасшедший в этом плане. Извините, если это вас беспокоит или сбивает с толку.

Отличного продолжения дня!

Хм… Возможно, я что-то упускаю, но исследование, которое вы привели выше, на самом деле не демонстрирует общих тенденций в интернете.

Оно, по-видимому, сосредоточено на отображении трафика сайта таким образом, чтобы выявление и количественная оценка… сомнительного… трафика становилась довольно простой визуальной задачей, что само по себе интересно. Однако нет никаких указаний на то, какие именно сайты были представлены, и даже какие типы сайтов. Трудно оценить, репрезентативны ли показанные примеры для интернета в целом.

Примечание: я не ставлю под сомнение, что бот-трафик в целом огромен, или что существует много «плохих» ботов… но (доступные через поиск) статистические данные немного разнятся с результатом поиска, который вы привели в скриншоте.

Более полезным был бы статистический анализ того, какие типы сайтов, как правило, становятся объектом агрессивных атак со стороны тех или иных типов ботов. (Я бы, например, ожидал, что FaceBook и подобные платформы привлекают непропорционально большое внимание со стороны определённой части этих ботов. Другая часть, вероятно, занимается исключительно сайтами с большим количеством рекламы.)

Привет, Джефф,

Если ты хочешь изобразить меня «сумасшедшим теоретиком», который ничего не знает о сетевых операциях в интернете, то пусть будет так; но правда совсем не такова, как это знают все, кто меня знает :slight_smile:

У автора темы был всплеск. Скорее всего, его вызвал бот. Думаю, мы можем с этим согласиться :slight_smile:

Отличного дня, Джефф, и чудесных праздников!

Также спасибо, что познакомил меня с Ruby on Rails. Если бы не ты и Discourse, я бы не писал код на Ruby каждый день (за пределами Discourse), и это было бы лучшим техническим событием в моей жизни в 2020 году! Я просто обожаю Ruby.

Ещё раз спасибо, Джефф!

Привет, @Sailsman63

Я привёл дополнительные ссылки по ряду вопросов; при этом я не публиковал и не заявлял, что публикую детальное исследование или обзор всего интернет-трафика во всех операционных сценариях.

На мой взгляд, любой инженер, который потратит хотя бы 60 минут на исследование в интернете и обладает разумными навыками анализа и работы с информацией, (1) найдёт множество ссылок на операционные отчёты (а не теоретические работы) о том, какой процент сетевого трафика в интернете приходится на ботов, и (2) найдёт ряд ссылок, которые также количественно оценивают, какая часть этого трафика приходится на «вредоносных ботов», не уважающих robots.txt.

Это не «теория» и не «моя идея». Это устоявшийся факт, и он не скрыт от тех, кто хочет в этом разобраться; с операционной точки зрения мы видим то же самое каждый день, анализируя файлы журналов и обрабатывая поведение трафика на веб-сайтах, например, создавая «медовые горшки» (honeypots), которые могут найти только боты (обычные пользователи туда никогда не заходят), и поэтому туда попадают только боты и так далее.

Я создал множество «медовых ссылок» на веб-сайтах и за свою практику поймал множество ботов; так что это не то, что я просто придумал «на пустом месте», LOL :). Другие в интернете делают то же самое (это распространённый метод кибербезопасности), это не только я, обещаю вам :slight_smile:

Хорошего дня!