Nuestros usuarios se han estado quejando de que Onebox se ha roto recientemente para algunos sitios, incluidos New York Times y Washington Post. ¿Cambió Onebox recientemente? Ver enlaces a continuación. El primero es un enlace de regalo.
Recientemente agregué soporte para oneboxes privadas de GitHub, pero eso no debería afectar a otros sitios. En general, no podemos hacer onebox de sitios privados o detrás de un muro de pago:
He notado recientemente algunos comportamientos extraños en Stable. Cuando publico enlaces de mis otras instancias de Discourse (Tests-passed). A veces, aparentemente al azar, el enlace no siempre se muestra como vista previa (onebox).
No he intentado publicar enlaces desde mi foro Stable en el foro Tests-passed.
He intentado reconstruir el HTML sin éxito para que el enlace se muestre como vista previa (onebox).
Creo recordar que hay otro tema aquí (en Meta) donde publiqué una captura de pantalla.
El New York Times y el Washington Post siempre han sido publicaciones de pago. Aunque no sé si han hecho algo recientemente para cambiar su estructura de muro de pago.
Sin embargo, si puedo hacer una sugerencia: si el muro de pago es el problema, y si uno puede ver visualmente el título y la descripción del artículo en la página con muro de pago, ¿no debería onebox poder capturar esa información?
The New York Times implementó el muro de pago en 2011. Pero permitía algunas lecturas sin registro y tarjeta de crédito algunas veces, cinco si mal no recuerdo. Al mismo tiempo, permitía la navegación de Google. Un sistema mucho más nuevo está bloqueando el acceso totalmente y, tras luchar con Google, cerraron totalmente la lectura gratuita.
¿Podría haberse producido la interrupción del oneboxing al mismo tiempo?
95% seguro de que el onebox ya hace eso. Si hay suficiente información para mostrar un onebox, lo hará, incluso si el contenido está finalmente detrás de un muro de pago.
Creo que lo que sucede es que el onebox está siendo incluido en la lista negra por estos sitios web con muros de pago debido a los recientes rastreadores/agentes de LLM, por lo que no ve el mismo HTML que podríamos ver al usar un navegador.
Sin embargo, estaré encantado de que me demuestren lo contrario. Si alguien quiere echar un vistazo rápido para ver si puede mejorarlo de alguna manera, pr-welcome