Не удалось onebox Amazon.co.uk (но amazon.com работает)

Всем привет,

Запущен Discourse v2.4.0.beta6+119

У нас не работает onebox-превью ссылок на товары с amazon.co.uk

Например (здесь это работает, btw): Amazon.co.uk

Ссылки на amazon.com (и другие доменные зоны Amazon) работают без проблем.

В консоли браузера отображается ошибка 404 Not Found:

Я попробовал тест с блокировкой IP-адресов Vimeo, на случай если Amazon тоже заблокировал множество IP-адресов Digital Ocean, но странно, что с сервера напрямую ссылка скачивается нормально через wget:

xx@xx:~# wget https://www.amazon.co.uk/BG-Electrical-NBS22G-Brushed-Switched/dp/B004TRJYE8
--2019-10-23 14:49:47--  https://www.amazon.co.uk/BG-Electrical-NBS22G-Brushed-Switched/dp/B004TRJYE8
Resolving www.amazon.co.uk (www.amazon.co.uk)... 99.86.105.85
Connecting to www.amazon.co.uk (www.amazon.co.uk)|99.86.105.85|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: âB004TRJYE8â

B004TRJYE8                                            [   <=>          ] 711.64K   682KB/s    in 1.0s

2019-10-23 14:49:48 (682 KB/s) - âB004TRJYE8â saved [728716]

Есть какие-то идеи, что можно попробовать дальше? :thinking:

По моему опыту, Amazon очень быстро вас заблокирует, если вы будете часто обращаться к ним. Это автоматизированный процесс.

Наши участники всё чаще сталкиваются с этим, особенно учитывая, что мы аффилированы с Amazon UK и Amazon France.

Возможность использовать onebox и отображать рекомендуемые товары, релевантные обсуждению, очевидно, помогает нам, поскольку доходы нашего форума увеличиваются при покупке товара по аффилированной ссылке.

Однако то, что onebox теперь не отображается, — это безумие и не помогает никому. Позже я нашёл эту тему от @merefield:

Будьте осторожны с одностраничным отображением Amazon.

Меня исключили из их программы за это «нарушение».

Вместо этого я использую официальные ссылки на изображения, которые они предоставляют и генерируют в своей панели инструментов. Вы можете встроить их в разметку таблицы, чтобы они выглядели немного лучше. Конечно, это требует немного больше усилий, но всё зависит от того, как часто вам это нужно делать.

Как я уже говорил в своей первоначальной теме, одним из главных преимуществ этого является то, что они сами предоставляют эти изображения.

Спасибо, Роберт, предупреждение принято к сведению и передано дальше.

С юридической точки зрения это противоречит их правилам, но я согласен с Джеффом: время, когда меня «наказали», вероятно, было связано с придирчивым модератором, который был в плохом настроении (и, скорее всего, не знаком с Discourse).

Кстати, Amazon UK дважды отклонил мою заявку, сославшись на то, что я «форум» (это нигде не указано в их правилах!). В США такой проблемы нет. Невероятно раздражает, что они, похоже, применяют разные правила в зависимости от региона.

С юридической точки зрения это противоречит их условиям,

[/quote]

Как и в случае с поддержкой продавцов Amazon, всё зависит от того, кто получит ваш запрос или, в данном случае, заявку — именно от этого зависит полученный ответ!

Соглашение об участии в программе Amazon Associates было недавно обновлено: 6 сентября 2019 года (для Великобритании) и 1 октября — для .com.

Как всегда, в нём указано: «Мы оставляем за собой право изменять любые положения условий соглашения» (раздел 13), и если вам это не нравится… что ж, уходите (раздел 6)… работать с ними — одно удовольствие!

https://affiliate-program.amazon.co.uk/help/operating/agreement

Мы не являемся партнёрами Amazon, и ни один из наших участников, публикующих ссылки на товары Amazon на нашем форуме Discourse, также не является партнёром.

Наши участники иногда публикуют ссылки на товары Amazon, которые могут быть интересны нашему сообществу, но их не так много — по моим оценкам, в среднем одна ссылка на Amazon в день. Таким образом, мы не злоупотребляем системой.

Тем не менее, я до сих пор не до конца понимаю, почему я могу напрямую загрузить URL с сервера с помощью wget без каких-либо проблем :thinking:

Есть ли что-то ещё, что я мог бы попробовать или протестировать? Можно ли очистить какие-либо кэши или перезапустить какие-либо процессы, чтобы что-то «обновить»?

Сюжет усложняется / путаница продолжается…

Есть какие-то идеи, что здесь происходит? :thinking:

Первая ссылка показывает превью, хотя и с сообщением «Проверка на робота», говорит ли это что-то кому-нибудь?

Вторая ссылка не показывает превью вообще.

Речь о следующей ссылке: https://www.amazon.co.uk/dp/B0791RGQW3/

:man_shrugging:

Кстати, сообщение Robot Check здесь на meta не появляется, только пустой onebox:

Проверка на робота означает, что вы заблокированы как бот.

Не очень :confused:

Так как я могу wget страницу с самого сервера нормально, это не прямой IP-блок, как у Vimeo. Значит, мы знаем, как они выполняют эту проверку?

Есть какие-то советы по обходу? :thinking:

Вас каким-то образом определили как нежелательного. Блокировка серверов VP от скрапинга — очень распространенное явление. Вам понадобится сервис прокси-сканирования.

В моем плагине есть поддержка такого сервиса: onebox assistant

Спасибо за предложение. Краткий обзор показывает, что для этого мне нужно подписаться на платный сервис. Есть ли какие-либо другие обходные пути, которые я мог бы использовать?

Интересно, как Amazon узнаёт, что запрос делает Discourse, и блокирует его на лету, ведь маршрут wget на том же сервере всё ещё работает нормально.

Вероятно, дело в строке User Agent.

Что именно Discourse передаёт в поле User-Agent?

Можно ли подделать это значение, чтобы оно выглядело как обычный браузер Firefox или что-то в этом роде? :thinking: