Fallo en la previsualización de CNN

En otro foro de Discourse, @sam sugirió que hiciera un informe de error aquí: Parece haber un fallo (al menos) intermitente de la función “oneboxing” de los artículos de CNN. Dado que se trata de un sitio de alto perfil, parece bastante significativo. No está claro si se trata de un problema de limitación de velocidad, un bloqueo de agente de usuario, un problema del lado de Discourse, un problema real con los datos de oEmbed, o qué.\n\nEjemplos:\nhttps://www.cnn.com/2024/02/16/politics/takeaways-donald-trump-fraud-ruling/index.html\n\nhttps://www.cnn.com/2024/02/18/politics/taylor-swift-maga-popular/index.html\n\n(Ejemplos adicionales eliminados debido a que soy un usuario nuevo).

4 Me gusta

Hola @wazroth :wave: bienvenido a Meta. :slight_smile: Gracias por el informe.

Sí, he podido reproducir esto en mi instancia de desarrollo y en un sitio alojado. Los enlaces de CNN no se están incrustando en absoluto.

3 Me gusta

Gracias @wazroth, hemos programado la depuración para dentro de las próximas 4 semanas.

4 Me gusta

@ted ¿Recuerdas por qué redujimos max_download_kb para onebox de 10 MB a 2 MB en SECURITY: Prevent Onebox cache overflow by limiting downloads and URL… · discourse/discourse@95a82d6 · GitHub?

Los enlaces de CNN reportados no se están procesando como onebox porque el tamaño de la respuesta es de 2,7 MB, lo que es mayor que el límite actual de 2 MB. Podemos solucionar esto aumentando el tamaño predeterminado, pero me gustaría comprender mejor el riesgo de hacerlo.

4 Me gusta

hmmm también … para continuar, ¿no está toda la información que necesitamos en los primeros 2 MB de todos modos?

2 Me gusta

Ver también Amazon Onebox broken, ¿posiblemente relacionado?

¿Está max_download_kb codificado de forma rígida? No es algo que pueda cambiar a través del menú de administración, ¿verdad?

Depende del motor de onebox. Algunos motores de onebox como Amazon buscan cierta información, como el precio del artículo, dentro del <body>. Para los motores opengraph, en teoría solo necesitamos ciertas etiquetas como <meta> en <head>.

La forma más eficiente será analizar la respuesta en busca de la información necesaria mientras transmitimos la respuesta, pero cambiar todos nuestros motores para hacer esto probablemente requerirá un esfuerzo considerable y es una solución mucho más compleja.

De hecho, Nokogiri, que usamos para analizar la respuesta HTML, es capaz de analizar texto HTML incompleto, por lo que no es necesario descartar toda la respuesta cuando es demasiado grande. Creo que podemos seguir limitando el cuerpo de la respuesta a 2 MB y, si el tamaño de la respuesta excede eso, simplemente intentamos analizar los primeros 2 MB.

1 me gusta

Esto se soluciona con

Localmente, las URL “problemáticas” reportadas en este tema ya no muestran un error cuando intentamos hacer onebox.

5 Me gusta

Fantástico, gracias @tgxworld :smiley:

2 Me gusta