Привет. У нас есть китайская версия нашего веб-сайта, но, к сожалению, темы форума не индексируются Baidu. Я заметил, что этот форум индексируется Baidu без каких-либо проблем. Вопрос как к администраторам этого форума, так и к участникам сообщества, которые запустили форум на китайском языке: что вы сделали, чтобы Baidu индексировал темы?
Форум был запущен в апреле, так что, я думаю, это не причина. Настройки чёрного списка краулеров такие же, как на вашем скриншоте. Кроме того, в robots.txt нет ограничений для бота Baidu.
Что говорит об этом поисковая система Baidu? Насколько я знаю, раньше существовал раздел (ziyuan.baidu), где можно было получить подробную информацию о статусе вашего сайта, добавленного в Baidu.
Discourse не требует дополнительной настройки для индексации. Если сканер не занесён в чёрный список, то проблем быть не должно.
Обновление по теме. Мы создали аккаунт на ziyuan.baidu.com. С ним, кажется, всё в порядке. Паук корректно получает содержимое страниц. Кроме того, мы внедрили логирование на сервере. Baidu делает десятки запросов в день к страницам тем, и сервер отвечает кодом 200.
Ещё один интересный момент: мы не одиноки. Я проверил индекс Baidu для ваших клиентов с соответствующей страницы. Как минимум у четырёх из них возникли аналогичные проблемы:
Пожалуйста, дайте знать, если у вас есть какие-либо идеи.
Возможно, Baidu предпочитает сайты, размещённые в Китае? Baidu — это региональный поисковик, конечно, он ищет и другие ресурсы, но его главная задача — качественный локальный поиск. Так что трудно сказать наверняка. Возможно, вам стоит провести небольшое исследование по этому вопросу. Как регион влияет на это. Может быть, у Baidu есть какие-то другие специальные требования?
Если Baidu получает страницу, и, как вы пишете, всё в порядке, то могут вступить в действие внутренние механизмы ранжирования. Они могут не зависеть от программного обеспечения.
Скорость обхода также зависит от множества факторов. Например, релевантности информации, частоты обновлений, скорости получения обратных ссылок и их частоты с других сайтов и т. д.
Почему бы вам не обратиться с этим вопросом к Baidu? Возможно, потому что контент вашего сайта (и требуемый номер телефона для регистрации) только на китайском языке. Если это так, то результат, который вы получили, вполне ожидаем.
Это лишь предположение, так как у нас нет ссылки на ваш сайт, но мы знаем, что Baidu отдает приоритет, среди прочего:
- упрощенному китайскому языку перед другими языками
- сайтам, размещенным в Китае, перед сайтами, размещенными за его пределами
- китайским доменным зонам, например, .cn
Именно поэтому бессмысленно изучать сайты клиентов Discourse, которые на английском языке, размещены за пределами Китая и не имеют китайского домена.
@Stranik @Remah
Спасибо за ваши ответы.
URL веб-сайта не является секретом – https://forum.cuba-platform.cn/.
Он находится в зоне .cn, сервер расположен в Гонконге, и используется только китайский язык.
Я предполагаю, что ваша проблема уже решена, так как я могу найти ваши темы в поиске. Они просто находятся немного ниже в результатах поиска, чем я ожидал: те, которые я искал, оказались на второй странице результатов, даже при точном совпадении заголовка темы.
Скорее всего, ваш сайт ещё не набрал достаточного авторитета в глазах Baidu. Или, возможно, у Baidu есть дополнительные требования, которые ваш сайт пока не выполнил?
Какие запросы вы вводили, при которых наш форум отображался? Я проверяю это так: ввожу запрос site:forum.cuba-platform.cn в поиске Baidu. Сейчас я вижу только 5 ссылок, и ни одна из них не ведёт к темам.
Тем временем мы следовали рекомендациям Baidu и внедрили инструмент, который отправляет новые URL в Baidu с помощью cURL. Вернусь с результатами через некоторое время.
Вы правы, что темы не индексируются. Baidu находит заголовки тем в списках тем, но не в самих страницах тем.
Непонятно, почему Baidu индексирует список тем, но не отдельные темы? Это означает, что краулер работает на вашем сайте, но не сканирует темы. Поэтому в первую очередь проверьте конфигурацию вашего сайта.
У нас та же проблема.
