Não é possível onebox Amazon.co.uk (mas amazon.com funciona)

Olá a todos,

Executando o Discourse v2.4.0.beta6+119

Não conseguimos criar onebox para links de produtos na amazon.co.uk

Exemplo (isso funciona aqui, btw): Amazon.co.uk

Conseguimos criar onebox para links na amazon.com (e em outros TLDs da Amazon) sem problemas.

O console do navegador mostra um erro 404 Not Found:

Tentei o teste de lista de bloqueio de IPs do Vimeo, caso a Amazon também tenha bloqueado vários endereços IP da Digital Ocean, mas, estranhamente, consigo fazer wget do link perfeitamente diretamente do servidor:

xx@xx:~# wget https://www.amazon.co.uk/BG-Electrical-NBS22G-Brushed-Switched/dp/B004TRJYE8
--2019-10-23 14:49:47--  https://www.amazon.co.uk/BG-Electrical-NBS22G-Brushed-Switched/dp/B004TRJYE8
Resolvendo www.amazon.co.uk (www.amazon.co.uk)... 99.86.105.85
Conectando a www.amazon.co.uk (www.amazon.co.uk)|99.86.105.85|:443... conectado.
Solicitação HTTP enviada, aguardando resposta... 200 OK
Tamanho: indefinido [text/html]
Salvando em: âB004TRJYE8â

B004TRJYE8                                            [   <=>          ] 711,64K   682KB/s    em 1,0s

2019-10-23 14:49:48 (682 KB/s) - âB004TRJYE8â salvo [728716]

Alguma sugestão do que eu poderia tentar a seguir? :thinking:

Na minha experiência, a Amazon te bane muito rápido se você faz muitas requisições a ela. E é automatizado também.

Nossos membros têm encontrado isso com frequência ultimamente, especialmente porque somos afiliados à Amazon UK e à Amazon France.

A capacidade de criar um onebox e exibir produtos sugeridos relevantes para a discussão obviamente nos ajuda, já que os fundos do nosso fórum aumentam quando um item é comprado por meio do link de afiliação.

Mas o fato de o onebox não estar mais aparecendo é absurdo e não ajuda ninguém. Desde então, encontrei este tópico de @merefield:

Cuidado ao fazer oneboxing da Amazon.

Fui expulso do programa deles por essa “transgressão”.

Em vez disso, uso os links de imagem oficiais que eles fornecem e que são gerados na barra de ferramentas deles. Você pode configurá-los dentro de tabelas em markdown para deixá-los com uma aparência um pouco melhor. É um pouco mais de trabalho, claro, mas depende de com que frequência você precisa fazer isso.

Como disse no meu tópico original, uma grande vantagem disso é que eles são os responsáveis por servir essas imagens.

Obrigado, Robert. O aviso foi recebido e repassado.

Legalmente, isso vai contra os termos deles, mas concordo com o Jeff: a vez em que fui “punido” provavelmente se deveu a um revisor muito exigente que estava tendo um dia ruim (e provavelmente não estava familiarizado com o Discourse).

Aliás, a Amazon UK me rejeitou duas vezes por “ser um fórum” (isso nem é mencionado em lugar nenhum nas regras deles!). Os EUA não têm problema. É extremamente frustrante como eles parecem seguir regras diferentes dependendo da região.

Assim como no suporte ao vendedor da Amazon, tudo depende de quem recebe sua consulta ou, neste caso, sua solicitação, para saber qual resposta você obterá!

O Acordo Operacional do Programa de Associados da Amazon foi atualizado recentemente em 6 de setembro de 2019 (Reino Unido) e em 1º de outubro na versão .com.

Como sempre, eles têm a cláusula de que “reservam-se o direito de modificar qualquer parte dos termos e condições do acordo” (seção 13), e se você não gostar… paciência, saia (seção 6)… são uma verdadeira alegria para se trabalhar!

https://affiliate-program.amazon.co.uk/help/operating/agreement

Não somos afiliados da Amazon, nem nenhum de nossos membros que publica links para produtos da Amazon em nosso Discourse.

Nossos membros às vezes publicam links para produtos na Amazon que podem ser de interesse para nossa comunidade, mas não serão muitos; diria que a média é tão baixa quanto um link da Amazon por dia. Portanto, não estamos realmente abusando do sistema.

Ainda não tenho certeza do motivo pelo qual consigo fazer wget da URL diretamente do servidor sem problemas :thinking:

Há algo mais que eu possa tentar ou testar? Algum cache que eu possa limpar ou processos que eu possa reiniciar para ‘atualizar’ algo?

O mistério se aprofunda / a confusão continua…

Alguém sabe o que está acontecendo aqui? :thinking:

O primeiro URL gera um onebox, embora com a mensagem Robot Check, isso revela algo a alguém?

O segundo URL não gera um onebox de forma alguma.

URL em questão: https://www.amazon.co.uk/dp/B0791RGQW3/

:man_shrugging:

Aliás, a mensagem Robot Check não aparece aqui no meta, apenas uma onebox em branco:

A verificação de robô significa que você está sendo bloqueado como um bot.

Não está bom :confused:

Como consigo wget a página do próprio servidor sem problemas, não é um bloqueio direto de IP como o Vimeo usa. Então, sabemos como eles estão realizando essa verificação?

Alguma dica para uma solução alternativa? :thinking:

De alguma forma, você está sendo identificado como indesejado. É muito comum que servidores VP sejam bloqueados para raspagem de dados. Você precisa de um serviço de proxy para raspagem.

Eu ofereço suporte a um no meu plugin: onebox assistant

Obrigado pela sugestão. Uma olhada rápida indica que preciso me inscrever em um serviço pago para que isso funcione. Há alguma outra solução alternativa que eu possa usar?

Estou curioso sobre como a Amazon sabe que o Discourse está fazendo a solicitação e a bloqueia em tempo real, já que a rota wget no mesmo servidor ainda funciona perfeitamente.

Provavelmente a string User Agent.

O que o Discourse apresenta como seu User-Agent?

Isso é algo que eu poderia falsificar para fazer parecer que é um navegador Firefox comum ou algo assim? :thinking: