Impossibile oneboxare Amazon.co.uk (ma amazon.com funziona)

Ciao a tutti,

Stiamo eseguendo Discourse v2.4.0.beta6+119

Non riusciamo a generare anteprime (onebox) per i link ai prodotti su amazon.co.uk

Ad esempio (questo funziona qui, tra l’altro): Amazon.co.uk

Possiamo generare anteprime per i link su amazon.com (e su altri domini TLD di Amazon) senza problemi.

La console del browser mostra un errore 404 Not Found:

Ho provato il test di blocco IP di Vimeo, nel caso Amazon abbia bloccato anche molti indirizzi IP di Digital Ocean, ma stranamente riesco a scaricare il link direttamente dal server con wget senza problemi:

xx@xx:~# wget https://www.amazon.co.uk/BG-Electrical-NBS22G-Brushed-Switched/dp/B004TRJYE8
--2019-10-23 14:49:47--  https://www.amazon.co.uk/BG-Electrical-NBS22G-Brushed-Switched/dp/B004TRJYE8
Risoluzione di www.amazon.co.uk (www.amazon.co.uk)... 99.86.105.85
Connessione a www.amazon.co.uk (www.amazon.co.uk)|99.86.105.85|:443... connessa.
Richiesta HTTP inviata, in attesa di risposta... 200 OK
Lunghezza: non specificata [text/html]
Salvataggio in: âB004TRJYE8â

B004TRJYE8                                            [   <=>          ] 711,64K   682KB/s    in 1,0s

2019-10-23 14:49:48 (682 KB/s) - âB004TRJYE8â salvato [728716]

Qualche suggerimento su cosa potrei provare dopo? :thinking:

Nella mia esperienza, Amazon ti banna molto velocemente se lo solleciti troppo. È anche automatizzato.

I nostri membri stanno riscontrando questo problema frequentemente ultimamente, specialmente dato che siamo affiliati ad Amazon UK e Amazon France.

La possibilità di utilizzare la onebox e mostrare prodotti pertinenti alla discussione ci aiuta ovviamente, poiché i fondi del nostro forum aumentano quando un articolo viene acquistato tramite il link di affiliazione.

Tuttavia, il fatto che la onebox non venga più visualizzata è assurdo e non aiuta nessuno. Nel frattempo ho trovato questo thread di @merefield:

Fai attenzione con il oneboxing di Amazon.

Sono stato espulso dal loro programma per quella “trasgressione”.

Invece, uso i link alle immagini ufficiali che forniscono e generano nel loro toolbar. Puoi impostarli all’interno del markdown delle tabelle per farli apparire un po’ meglio. Ovviamente, richiede un po’ più di lavoro, ma dipende tutto da quanto spesso devi farlo.

Come ho detto nel mio argomento originale, un grande vantaggio è che loro gestiscono l’hosting di queste immagini.

Grazie, Robert. Il tuo avviso è stato recepito e comunicato.

Legalmente è contro i loro termini, ma sono d’accordo con Jeff: la volta in cui sono stato ‘punito’ è probabilmente dovuto a un revisore pignolo che aveva una giornata storta (e probabilmente non conosceva Discourse).

Comunque, Amazon UK mi ha rifiutato due volte per ‘essere un forum’ (non menzionato da nessuna parte nelle loro regole!). Gli Stati Uniti non hanno problemi. È incredibilmente frustrante come sembrino osservare regole diverse a seconda della località.

Come per il supporto ai venditori di Amazon, tutto dipende da chi riceve la tua richiesta o, in questo caso, la tua candidatura, per determinare quale risposta otterrai!

L’Accordo Operativo del Programma Associati di Amazon è stato aggiornato di recente il 6 settembre 2019 (per il Regno Unito) e il 1° ottobre per .com.

Come sempre, si riservano il “diritto di modificare qualsiasi parte dei termini e delle condizioni dell’accordo” (sezione 13) e se non ti piace… pazienza, puoi andare via (sezione 6)… sono così un piacere lavorare con loro!

https://affiliate-program.amazon.co.uk/help/operating/agreement

Non siamo affiliati ad Amazon, né lo sono i nostri membri che pubblicano link a prodotti Amazon sul nostro Discourse.

I nostri membri a volte pubblicano link a prodotti su Amazon che potrebbero interessare la nostra comunità, ma non sono molti: direi che in media si arriva a un solo link ad Amazon al giorno. Quindi non stiamo davvero abusando del sistema.

Non sono ancora del tutto sicuro del motivo per cui posso wget l’URL direttamente dal server senza problemi, però :thinking:

C’è qualcos’altro che potrei provare o testare? Qualche cache da svuotare o processo da riavviare che possa ‘aggiornare’ qualcosa?

La trama si infittisce / la confusione continua…

Qualcuno ha idea di cosa stia succedendo qui? :thinking:

Il primo URL genera un riquadro, anche se con un messaggio Robot Check, questo rivela qualcosa a qualcuno?

Il secondo URL non genera alcun riquadro.

URL in questione: https://www.amazon.co.uk/dp/B0791RGQW3/

:man_shrugging:

A proposito, il messaggio Robot Check non appare qui su meta, ma solo una onebox vuota:

Robot Check significa che sei stato bloccato in quanto bot.

Non va bene :confused:

Dato che riesco a wget la pagina direttamente dal server senza problemi, non si tratta di un blocco IP totale come quello utilizzato da Vimeo. Sappiamo come stanno eseguendo questo controllo?

Qualche consiglio per una soluzione alternativa? :thinking:

In qualche modo sei stato identificato come indesiderabile. È molto comune che i server VP vengano bloccati dal web scraping. Hai bisogno di un servizio di crawling tramite proxy.

Ne sostengo uno nel mio plugin: onebox assistant

Grazie per il suggerimento. Un’occhiata veloce mi fa pensare che debba abbonarmi a un servizio a pagamento affinché funzioni. Ci sono altri workaround che potrei usare?

Sono curioso di sapere come Amazon sappia che la richiesta proviene da Discourse e la blocchi in tempo reale, dato che la rotta wget sullo stesso server funziona ancora perfettamente.

Probabilmente è la stringa User Agent.

Cosa presenta Discourse come suo User-Agent?

È qualcosa che potrei falsificare per farlo sembrare un normale browser Firefox o qualcosa del genere? :thinking: