Échec de la mise en boîte CNN

wazroth · Février 18, 2024, 11:29

Sur un autre forum Discourse, @sam m’a suggéré de faire un rapport de bug ici : Il semble y avoir (au moins) une défaillance intermittente de l’intégration (oneboxing) des articles de CNN. Comme il s’agit d’un site très médiatisé, cela semble assez important. On ne sait pas s’il s’agit d’un problème de limitation de débit, d’un blocage de l’agent utilisateur, d’un problème côté Discourse, d’un problème réel avec les données oEmbed, ou autre chose.

Exemples :

(Exemples supplémentaires supprimés en raison du statut de nouvel utilisateur.)

Lilly · Février 18, 2024, 11:46

Salut @wazroth bienvenue sur Meta. Merci pour le rapport.

Oui, j’ai pu reproduire cela sur mon instance de développement et sur un site hébergé. Les liens CNN ne s’affichent pas du tout.

sam · Février 19, 2024, 12:25

Merci @wazroth, nous avons prévu de déboguer cela dans les 4 prochaines semaines.

tgxworld · Mai 7, 2024, 6:05

@ted Vous souvenez-vous pourquoi nous avons réduit max_download_kb pour onebox de 10 Mo à 2 Mo dans SECURITY: Prevent Onebox cache overflow by limiting downloads and URL… · discourse/discourse@95a82d6 · GitHub ?

Les liens CNN signalés ne sont pas mis en onebox car la taille de la réponse est de 2,7 Mo, ce qui est supérieur à la limite actuelle de 2 Mo. Nous pouvons résoudre ce problème en augmentant la taille par défaut, mais j’aimerais mieux comprendre le risque de le faire.

sam · Mai 7, 2024, 6:29

hmmm aussi… pour continuer, toutes les informations dont nous avons besoin ne se trouvent-elles pas de toute façon dans les 2 premiers Mo ?

Wingtip · Mai 7, 2024, 5:11

Voir aussi Amazon Onebox broken, est-ce lié ?

Richie · Mai 7, 2024, 5:27

Ce paramètre max_download_kb est-il codé en dur ? Ce n’est pas quelque chose que je peux changer via le menu d’administration, n’est-ce pas ?

tgxworld · Mai 8, 2024, 4:10

Dépend du moteur onebox. Certains moteurs onebox comme Amazon recherchent certaines informations, comme le prix de l’article, dans le <body>. Pour les moteurs opengraph, nous ne devrions en théorie avoir besoin que de certaines balises comme <meta> dans <head>.

La méthode la plus efficace consisterait à analyser la réponse pour obtenir les informations nécessaires pendant le streaming de la réponse, mais modifier tous nos moteurs pour ce faire nécessiterait probablement un effort considérable et constituerait une solution beaucoup plus complexe.

En fait, Nokogiri, que nous utilisons pour analyser la réponse HTML, est capable d’analyser du texte HTML incomplet, il n’est donc pas nécessaire de jeter toute la réponse lorsqu’elle est trop volumineuse. Je pense que nous pouvons simplement continuer à limiter le corps de la réponse à 2 Mo et si la taille de la réponse dépasse cela, nous essayons simplement d’analyser les 2 premiers Mo.

tgxworld · Mai 8, 2024, 5:33

Ceci est corrigé par

github.com/discourse/discourse

FIX: Attempt to onebox even if response body exceeds `max_download_kb`

main ← fix_dont_throw_away_response_body_when_max_download_exceeded

opened 05:28AM - 08 May 24 UTC

tgxworld

+45 -4

In 95a82d608d6377faf68a0e2c5d9640b043557852, we lowered the default for `Onebox….options.max_download_kb` from 10mb to 2mb for security hardening purposes. However, this resulted in multiple bug reports where seemingly nomral URLs stopped being oneboxed. It turns out that lowering `Onebox.options.max_download_kb` resulted in `Onebox::Helpers::DownloadTooLarge` being raised more often for more URLs in `Onebox::Helpers.fetch_response` which `Onebox::Helpers.fetch_html_doc` relies on. When `Onebox::Helpers::DownloadTooLarge` is raised in `Onebox::Helpers.fetch_response`, we throw away whatever response body which we have already downloaded at that point. This is not ideal because Nokogiri can parse incomplete HTML documents and there is a really high chance that the incomplete HTML document contains the information which we need for generating a reasonable onebox. Therefore, this commit updates `Onebox::Helpers.fetch_html_doc` to not throw away the response body when the size of the response body exceeds `Onebox.options.max_download_size`. Instead, we just take whatever we have and get Nokogiri to parse it.

Localement, les URL « problématiques » signalées dans ce sujet n’affichent plus d’erreur lorsque nous essayons de les onebox.

Richie · Mai 8, 2024, 9:53

Fantastique, merci @tgxworld

Sujet		Réponses	Vues
Issue with Onebox not working for videos larger than 5MB Support	0	58	Décembre 20, 2025
Oneboxing large images fails with no visual cue Bug onebox	46	1859	Mai 4, 2023
Onebox links result in large image downloads Feature	2	509	Décembre 14, 2022
Can't override size of image oneboxes Feature	3	832	Juin 18, 2017
Onebox issue with a specific site Support onebox	13	1725	Janvier 31, 2019

Échec de la mise en boîte CNN

Sujets connexes