CNN fallimento oneboxing

Su un altro forum di Discourse, @sam mi ha suggerito di segnalare un bug qui: Sembra esserci (almeno) un fallimento intermittente del oneboxing degli articoli della CNN. Poiché si tratta di un sito di alto profilo, sembra piuttosto significativo. Non è chiaro se si tratti di un problema di limitazione della frequenza, di un blocco dell’user-agent, di un problema lato Discourse, di un problema effettivo con i dati oEmbed, o altro.

Esempi:

(Esempi aggiuntivi rimossi a causa dello stato di Nuovo Utente.)

4 Mi Piace

Ciao @wazroth :wave: benvenuto in Meta. :slight_smile: Grazie per la segnalazione.

Sì, sono riuscito a riprodurre questo problema sulla mia istanza di sviluppo e su un sito ospitato. I link di CNN non vengono visualizzati affatto.

3 Mi Piace

Grazie @wazroth, abbiamo pianificato il debug per le prossime 4 settimane.

4 Mi Piace

@ted Ti ricordi per caso perché abbiamo ridotto max_download_kb per onebox da 10mb a 2mb in SECURITY: Prevent Onebox cache overflow by limiting downloads and URL… · discourse/discourse@95a82d6 · GitHub?

I link CNN segnalati non vengono sottoposti a onebox perché la dimensione della risposta è 2,7mb, che è maggiore del limite attuale di 2mb. Possiamo risolvere questo problema aumentando la dimensione predefinita, ma vorrei capire meglio il rischio di farlo.

4 Mi Piace

hmmm anche… per continuare, non sono tutte le informazioni di cui abbiamo bisogno nei primi 2mb comunque?

2 Mi Piace

Vedi anche Amazon Onebox broken, forse correlato?

Questa impostazione max_download_kb è codificata in modo fisso? Non è qualcosa che posso cambiare tramite il menu di amministrazione, vero?

Dipende dal motore onebox. Alcuni motori onebox come Amazon effettuano lo scraping di determinate informazioni come il prezzo dell’articolo all’interno del <body>. Per i motori opengraph, in teoria dovremmo aver bisogno solo di determinati tag come <meta> in <head>.

Il modo più efficiente sarebbe analizzare la risposta per le informazioni necessarie durante lo streaming della risposta, ma cambiare tutti i nostri motori per farlo richiederà probabilmente uno sforzo considerevole ed è una soluzione molto più complessa.

In realtà, Nokogiri, che utilizziamo per analizzare la risposta HTML, è in grado di analizzare testo HTML incompleto, quindi non è necessario scartare l’intera risposta quando è troppo grande. Penso che possiamo semplicemente continuare a limitare il corpo della risposta a 2 MB e, se la dimensione della risposta supera tale limite, provare ad analizzare i primi 2 MB.

1 Mi Piace

Questo è stato risolto da

Localmente, gli URL “problematici” segnalati in questo topic non mostrano più un errore quando proviamo a fare il onebox.

5 Mi Piace

Fantastico, grazie @tgxworld :smiley:

2 Mi Piace