Falha no oneboxing da CNN

Em outro fórum Discourse, @sam sugeriu que eu fizesse um relatório de bug aqui: Parece haver (pelo menos) falha intermitente no oneboxing de artigos da CNN. Como este é um site de grande destaque, parece bastante significativo. Não está claro se é um problema de limitação de taxa, um bloqueio de user-agent, um problema do lado do Discourse, um problema real com os dados oEmbed, ou o quê.

Exemplos:

(Exemplos adicionais removidos devido a ser um Novo Usuário.)

4 curtidas

Olá @wazroth :wave: bem-vindo à Meta. :slight_smile: Obrigado pelo relatório.

Sim, eu consegui reproduzir isso na minha instância de desenvolvimento e em um site hospedado. Links da CNN não estão sendo exibidos.

3 curtidas

Obrigado @wazroth, estamos depurando isso com um tempo alocado nas próximas 4 semanas.

4 curtidas

@ted Você se lembra por que reduzimos max_download_kb para onebox de 10mb para 2mb em SECURITY: Prevent Onebox cache overflow by limiting downloads and URL… · discourse/discourse@95a82d6 · GitHub?

Os links da CNN reportados não estão sendo exibidos em onebox porque o tamanho da resposta é de 2,7mb, o que é maior que o limite atual de 2mb. Podemos corrigir isso aumentando o tamanho padrão, mas gostaria de entender melhor o risco de fazê-lo.

4 curtidas

hmmm também … para continuar, não estão todas as informações de que precisamos nos primeiros 2 MB de qualquer forma?

2 curtidas

Veja também Amazon Onebox broken, possivelmente relacionado?

Essa configuração max_download_kb é codificada? Não é algo que eu possa alterar pelo menu de administração, certo?

Depende do motor onebox. Alguns motores onebox como a Amazon raspam certas informações, como o preço do item, de dentro do <body>. Para motores opengraph, em teoria, só precisamos de certas tags como <meta> no <head>.

A maneira mais eficiente seria analisar a resposta em busca das informações necessárias enquanto transmitimos a resposta, mas mudar todos os nossos motores para fazer isso provavelmente exigirá um esforço considerável e é uma solução muito mais complexa.

Na verdade, o Nokogiri, que usamos para analisar a resposta HTML, é capaz de analisar texto HTML incompleto, portanto, não há necessidade de descartar toda a resposta quando ela é muito grande. Acho que podemos continuar limitando o corpo da resposta a 2 MB e, se o tamanho da resposta exceder isso, tentaremos analisar os primeiros 2 MB.

1 curtida

Isso é corrigido por

Localmente, as URLs “problemáticas” relatadas neste tópico não exibem mais um erro quando tentamos fazer onebox.

5 curtidas

Fantástico, obrigado @tgxworld :smiley:

2 curtidas