I nostri utenti si sono lamentati del fatto che Onebox è recentemente diventato non funzionante per alcuni siti, tra cui New York Times e Washington Post. Onebox è cambiato di recente? Vedi i link qui sotto. Il primo è un link regalo.
Ho recentemente aggiunto il supporto per le onebox private di GitHub, ma ciò non dovrebbe influire su altri siti. In generale, non possiamo creare onebox per siti privati o protetti da paywall:
Ho notato di recente alcuni comportamenti strani su Stable. Quando pubblico link dalle mie altre istanze di discourse (Tests-passed). A volte, apparentemente in modo casuale, il link non viene sempre “oneboxato”.
Non ho provato a pubblicare link dal mio forum Stable sul forum Tests-passed.
Ho provato a ricostruire l’HTML senza successo nell’ottenere il link “oneboxato”.
Credo, se non ricordo male, che ci sia un altro argomento qui (su Meta) dove ho pubblicato uno screenshot.
Il New York Times e il Washington Post sono sempre state pubblicazioni a pagamento. Anche se non so se abbiano fatto qualcosa di recente per cambiare la struttura del loro paywall.
Tuttavia, se posso fare un suggerimento: se il paywall è il problema, e se si può vedere visivamente il titolo dell’articolo e la didascalia nella pagina con paywall, non dovrebbe essere possibile per onebox catturare quelle informazioni?
Il New York Times ha introdotto il paywall nel 2011. Ma permetteva alcune letture senza registrazione e carta di credito, a volte cinque, se ricordo bene. Allo stesso tempo permetteva la navigazione di Google. Un sistema molto più recente blocca completamente l’accesso e dopo aver litigato con Google hanno bloccato completamente la lettura gratuita.
Potrebbe essere successo contemporaneamente il malfunzionamento di oneboxing?
Sono sicuro al 95% che il onebox faccia già questo. Se ci sono abbastanza informazioni da visualizzare in un onebox, lo farà sicuramente, anche se il contenuto è a pagamento.
Penso che succeda che il onebox venga messo in una lista di blocco da questi siti a pagamento a causa dei recenti crawler/agenti LLM, quindi non vede lo stesso HTML che potremmo vedere quando usiamo un browser.
Comunque, sono felice di essere smentito. Se qualcuno vuole dare una rapida occhiata per vedere se può migliorarlo in qualche modo, pr-welcome