Наши пользователи жалуются, что недавно Onebox не работает для некоторых сайтов, включая The New York Times и The Washington Post. Недавно ли в Onebox произошли изменения? См. ссылки ниже. Первая ссылка — это подарочная ссылка.
Я заметил, что в последнее время появляется много прямых URL-ссылок. Сначала я думал, что это проблема самих сайтов, но теперь мне кажется, что дело может быть в чём-то большем
Недавно я добавил поддержку приватных onebox для GitHub, но это не должно влиять на другие сайты. Как правило, мы не можем создавать onebox для сайтов с платным доступом или приватных сайтов:
Я недавно заметил некоторые странности в Stable. Когда я публикую ссылки из других экземпляров Discourse (Tests-passed), иногда, казалось бы, случайно, ссылка не превращается в onebox.
Я не пробовал публиковать ссылки из своего стабильного форума на форум Tests-passed.
Я пробовал пересобрать HTML, но это не помогло превратить ссылку в onebox.
Кажется, я помню, что здесь (на Meta) была ещё одна тема, где я опубликовал скриншот.
The New York Times и The Washington Post всегда были платными изданиями. Хотя я не знаю, меняли ли они недавно структуру своих платных ограничений.
Однако, если мне можно предложить: если проблема в платном доступе и если на странице с ограниченным доступом визуально видны заголовок статьи и подпись, не должна ли функция onebox уметь извлекать эту информацию?
The New York Times ввёл платный доступ в 2011 году. Однако некоторое время он позволял читать несколько статей без регистрации и привязки банковской карты — если я правильно помню, пять. В то же время он разрешал индексацию и просмотр через Google. Более новая система полностью блокирует доступ, и после конфликта с Google компания полностью прекратила бесплатное чтение.
Могло ли отключение oneboxing произойти в то же время?
На 95% уверен, что onebox уже это делает. Если информации для отображения onebox’а достаточно, он её обязательно покажет, даже если контент в итоге закрыт платным доступом.
Я думаю, что дело в том, что эти сайты с платным доступом добавляют onebox в denylist из-за недавних краулеров/агентов LLM, поэтому он видит не тот же HTML, который мы могли бы увидеть в браузере.
Хотя я с радостью признаю свою ошибку. Если кто-то хочет быстро взглянуть и посмотреть, можно ли это как-то улучшить, pr-welcome