Провал одностраничного вывода CNN

wazroth · 18.Февраль.2024 23:29:34

На другом форуме Discourse @sam предложил мне создать отчет об ошибке здесь: Похоже, что (по крайней мере) периодически возникает сбой при однобоксинге статей CNN. Поскольку это сайт с высоким уровнем известности, это кажется довольно значимым. Неясно, является ли это проблемой ограничения частоты запросов, блокировкой user-agent, проблемой на стороне Discourse, реальной проблемой с данными oEmbed или чем-то другим.

Примеры:

(Дополнительные примеры удалены из-за статуса нового пользователя.)

Lilly · 18.Февраль.2024 23:46:40

Привет @wazroth добро пожаловать в Meta. Спасибо за отчет.

Да, мне удалось воспроизвести это на моем локальном окружении для разработки и на размещенном сайте. Ссылки на CNN вообще не отображаются в виде карточек.

sam · 19.Февраль.2024 00:25:09

Спасибо, @wazroth. Мы запланировали отладку этого на один из дней в ближайшие 4 недели.

tgxworld · 07.Май.2024 06:05:18

@ted, не помнишь ли ты, почему мы снизили max_download_kb для onebox с 10 МБ до 2 МБ в SECURITY: Prevent Onebox cache overflow by limiting downloads and URL… · discourse/discourse@95a82d6 · GitHub?

Сообщённые ссылки на CNN не обрабатываются как onebox, потому что размер ответа составляет 2,7 МБ, что превышает текущий лимит в 2 МБ. Мы можем исправить это, увеличив размер по умолчанию, но я хотел бы лучше понять риски такого изменения.

sam · 07.Май.2024 06:29:36

хм, так… продолжая, разве вся нужная нам информация не содержится в первых 2 МБ?

Wingtip · 07.Май.2024 17:11:54

См. также Amazon Onebox broken, возможно, это связано?

Richie · 07.Май.2024 17:27:07

Эта настройка max_download_kb прописана в коде? Я не могу изменить её через меню администратора, верно?

tgxworld · 08.Май.2024 04:10:33

Зависит от движка onebox. Некоторые движки, например Amazon, извлекают определённую информацию, такую как цена товара, непосредственно из содержимого тега <body>. Для движков, использующих Open Graph, теоретически достаточно только определённых тегов, например <meta>, расположенных в <head>.

Наиболее эффективным способом будет парсинг ответа на лету по мере его поступления, однако переделка всех наших движков под такой подход потребует значительных усилий и является гораздо более сложным решением.

На самом деле, Nokogiri, который мы используем для парсинга HTML-ответов, способен обрабатывать неполный HTML-текст, поэтому нет необходимости отбрасывать весь ответ, если он слишком велик. Я считаю, что мы можем просто продолжать ограничивать размер тела ответа до 2 МБ, и если размер ответа превышает это значение, мы будем пытаться пропарсить только первые 2 МБ.

tgxworld · 08.Май.2024 05:33:07

Это исправлено в

github.com/discourse/discourse

FIX: Attempt to onebox even if response body exceeds `max_download_kb` (#26929)

main ← fix_dont_throw_away_response_body_when_max_download_exceeded

merged 11:00PM - 08 May 24 UTC

tgxworld

+45 -4

In 95a82d608d6377faf68a0e2c5d9640b043557852, we lowered the default for `Onebox….options.max_download_kb` from 10mb to 2mb for security hardening purposes. However, this resulted in multiple bug reports where seemingly nomral URLs stopped being oneboxed. It turns out that lowering `Onebox.options.max_download_kb` resulted in `Onebox::Helpers::DownloadTooLarge` being raised more often for more URLs in `Onebox::Helpers.fetch_response` which `Onebox::Helpers.fetch_html_doc` relies on. When `Onebox::Helpers::DownloadTooLarge` is raised in `Onebox::Helpers.fetch_response`, we throw away whatever response body which we have already downloaded at that point. This is not ideal because Nokogiri can parse incomplete HTML documents and there is a really high chance that the incomplete HTML document contains the information which we need for generating a reasonable onebox. Therefore, this commit updates `Onebox::Helpers.fetch_html_doc` to not throw away the response body when the size of the response body exceeds `Onebox.options.max_download_size`. Instead, we just take whatever we have and get Nokogiri to parse it.

Локально «проблемные» URL-адреса, о которых сообщалось в этой теме, больше не вызывают ошибку при попытке onebox.

Richie · 08.Май.2024 09:53:10

Отлично, спасибо @tgxworld

Тема		Ответов	Просм.
Issue with Onebox not working for videos larger than 5MB Support	0	57	20.12.2025
Oneboxing large images fails with no visual cue Bug onebox	46	1817	04.05.2023
Onebox links result in large image downloads Feature	2	507	14.12.2022
Can't override size of image oneboxes Feature	3	832	18.06.2017
Onebox issue with a specific site Support onebox	13	1723	31.01.2019

Провал одностраничного вывода CNN

Связанные темы