CNN Oneboxing-Ausfall

Auf einem anderen Discourse-Forum schlug @sam vor, dass ich hier einen Fehlerbericht erstelle: Es scheint (zumindest) intermittierende Fehler beim Oneboxing von CNN-Artikeln zu geben. Da dies eine hochkarätige Seite ist, scheint dies ziemlich bedeutsam zu sein. Es ist unklar, ob es sich um ein Ratenbegrenzungsproblem, einen User-Agent-Block, ein Problem auf der Discourse-Seite, ein tatsächliches Problem mit den oEmbed-Daten oder etwas anderes handelt.

Beispiele:

(Weitere Beispiele wurden aufgrund des neuen Benutzers entfernt.)

4 „Gefällt mir“

Hallo @wazroth :wave: Willkommen bei Meta. :slight_smile: Danke für den Bericht.

Ja, ich konnte dies auf meiner Dev-Instanz und einer gehosteten Seite reproduzieren. CNN-Links werden überhaupt nicht oneboxed.

3 „Gefällt mir“

Danke @wazroth, wir haben das Debugging für die nächsten 4 Wochen eingeplant.

4 „Gefällt mir“

@ted Erinnerst du dich vielleicht, warum wir max_download_kb für Onebox von 10 MB auf 2 MB in SECURITY: Prevent Onebox cache overflow by limiting downloads and URL… · discourse/discourse@95a82d6 · GitHub reduziert haben?

Die gemeldeten CNN-Links werden nicht als Onebox angezeigt, da die Antwortgröße 2,7 MB beträgt, was über dem aktuellen Limit von 2 MB liegt. Wir können dies beheben, indem wir die Standardgröße erhöhen, aber ich möchte das Risiko dabei besser verstehen.

4 „Gefällt mir“

hmmm auch … um darauf aufzubauen, sind nicht alle Informationen, die wir brauchen, sowieso in den ersten 2 MB enthalten?

2 „Gefällt mir“

Siehe auch Amazon Onebox broken, möglicherweise verwandt?

Ist diese max_download_kb-Einstellung fest codiert? Das ist nichts, was ich über das Admin-Menü ändern kann, oder?

Hängt von der Onebox-Engine ab. Einige Onebox-Engines wie Amazon kratzen bestimmte Informationen wie den Preis des Artikels aus dem <body>. Für Opengraph-Engines sollten wir theoretisch nur bestimmte Tags wie <meta> im <head> benötigen.

Der effizienteste Weg wäre, die Antwort während des Streamings nach den notwendigen Informationen zu durchsuchen, aber alle unsere Engines dafür zu ändern, wird wahrscheinlich erheblichen Aufwand erfordern und ist eine weitaus komplexere Lösung.

Tatsächlich ist Nokogiri, das wir zum Parsen der HTML-Antwort verwenden, in der Lage, unvollständigen HTML-Text zu parsen, sodass es keinen Grund gibt, die gesamte Antwort zu verwerfen, wenn sie zu groß ist. Ich denke, wir können die Antwortgröße weiterhin auf 2 MB begrenzen und wenn die Antwortgröße diesen Wert überschreitet, versuchen wir einfach, die ersten 2 MB zu parsen.

1 „Gefällt mir“

Dies wird behoben durch

Lokal werden die in diesem Thema gemeldeten „problematischen“ URLs nicht mehr mit einem Fehler angezeigt, wenn wir versuchen, sie als Onebox darzustellen.

5 „Gefällt mir“

Fantastisch, danke @tgxworld :smiley:

2 „Gefällt mir“