CNN fallimento oneboxing

wazroth · 18 Febbraio 2024, 11:29pm

Su un altro forum di Discourse, @sam mi ha suggerito di segnalare un bug qui: Sembra esserci (almeno) un fallimento intermittente del oneboxing degli articoli della CNN. Poiché si tratta di un sito di alto profilo, sembra piuttosto significativo. Non è chiaro se si tratti di un problema di limitazione della frequenza, di un blocco dell’user-agent, di un problema lato Discourse, di un problema effettivo con i dati oEmbed, o altro.

Esempi:

(Esempi aggiuntivi rimossi a causa dello stato di Nuovo Utente.)

Lilly · 18 Febbraio 2024, 11:46pm

Ciao @wazroth benvenuto in Meta. Grazie per la segnalazione.

Sì, sono riuscito a riprodurre questo problema sulla mia istanza di sviluppo e su un sito ospitato. I link di CNN non vengono visualizzati affatto.

sam · 19 Febbraio 2024, 12:25am

Grazie @wazroth, abbiamo pianificato il debug per le prossime 4 settimane.

tgxworld · 7 Maggio 2024, 6:05am

@ted Ti ricordi per caso perché abbiamo ridotto max_download_kb per onebox da 10mb a 2mb in SECURITY: Prevent Onebox cache overflow by limiting downloads and URL… · discourse/discourse@95a82d6 · GitHub?

I link CNN segnalati non vengono sottoposti a onebox perché la dimensione della risposta è 2,7mb, che è maggiore del limite attuale di 2mb. Possiamo risolvere questo problema aumentando la dimensione predefinita, ma vorrei capire meglio il rischio di farlo.

sam · 7 Maggio 2024, 6:29am

hmmm anche… per continuare, non sono tutte le informazioni di cui abbiamo bisogno nei primi 2mb comunque?

Wingtip · 7 Maggio 2024, 5:11pm

Vedi anche Amazon Onebox broken, forse correlato?

Richie · 7 Maggio 2024, 5:27pm

Questa impostazione max_download_kb è codificata in modo fisso? Non è qualcosa che posso cambiare tramite il menu di amministrazione, vero?

tgxworld · 8 Maggio 2024, 4:10am

Dipende dal motore onebox. Alcuni motori onebox come Amazon effettuano lo scraping di determinate informazioni come il prezzo dell’articolo all’interno del <body>. Per i motori opengraph, in teoria dovremmo aver bisogno solo di determinati tag come <meta> in <head>.

Il modo più efficiente sarebbe analizzare la risposta per le informazioni necessarie durante lo streaming della risposta, ma cambiare tutti i nostri motori per farlo richiederà probabilmente uno sforzo considerevole ed è una soluzione molto più complessa.

In realtà, Nokogiri, che utilizziamo per analizzare la risposta HTML, è in grado di analizzare testo HTML incompleto, quindi non è necessario scartare l’intera risposta quando è troppo grande. Penso che possiamo semplicemente continuare a limitare il corpo della risposta a 2 MB e, se la dimensione della risposta supera tale limite, provare ad analizzare i primi 2 MB.

tgxworld · 8 Maggio 2024, 5:33am

Questo è stato risolto da

github.com/discourse/discourse

FIX: Attempt to onebox even if response body exceeds `max_download_kb`

main ← fix_dont_throw_away_response_body_when_max_download_exceeded

opened 05:28AM - 08 May 24 UTC

tgxworld

+45 -4

In 95a82d608d6377faf68a0e2c5d9640b043557852, we lowered the default for `Onebox….options.max_download_kb` from 10mb to 2mb for security hardening purposes. However, this resulted in multiple bug reports where seemingly nomral URLs stopped being oneboxed. It turns out that lowering `Onebox.options.max_download_kb` resulted in `Onebox::Helpers::DownloadTooLarge` being raised more often for more URLs in `Onebox::Helpers.fetch_response` which `Onebox::Helpers.fetch_html_doc` relies on. When `Onebox::Helpers::DownloadTooLarge` is raised in `Onebox::Helpers.fetch_response`, we throw away whatever response body which we have already downloaded at that point. This is not ideal because Nokogiri can parse incomplete HTML documents and there is a really high chance that the incomplete HTML document contains the information which we need for generating a reasonable onebox. Therefore, this commit updates `Onebox::Helpers.fetch_html_doc` to not throw away the response body when the size of the response body exceeds `Onebox.options.max_download_size`. Instead, we just take whatever we have and get Nokogiri to parse it.

Localmente, gli URL “problematici” segnalati in questo topic non mostrano più un errore quando proviamo a fare il onebox.

Richie · 8 Maggio 2024, 9:53am

Fantastico, grazie @tgxworld

Argomento		Risposte	Visualizzazioni
Issue with Onebox not working for videos larger than 5MB Support	0	44	Dicembre 20, 2025
Oneboxing large images fails with no visual cue Bug onebox	47	1606	Maggio 4, 2023
Onebox links result in large image downloads Feature	2	478	Dicembre 14, 2022
Can't override size of image oneboxes Feature	3	813	Giugno 18, 2017
Onebox issue with a specific site Support onebox	14	1639	Marzo 2, 2019

CNN fallimento oneboxing

Argomenti correlati