Ciao! Noi di NLnet Labs abbiamo configurato Discourse per i nostri prodotti (community.nlnetlabs.nl). Un utente ha chiesto come ottenere il feed RSS per un argomento specifico (ad esempio, https://community.nlnetlabs.nl/c/cascade/10), poiché il suo lettore RSS non riusciva a trovarlo.
Ho provato a usare quella pagina specifica per l’argomento con il mio lettore RSS preferito e ha trovato due feed: “NLnet Labs Community - Latest Posts” (/posts.rss) e “NLnet Labs Community - Latest topics” (/latest.rss). So che /c/cascade/10.rss è un feed RSS valido, ma il mio lettore non è riuscito a trovarlo automaticamente. Questo è un po’ frustrante, poiché dovremo iniziare a comunicare noi stessi questi URL.
Ho indagato sulla scoperta automatica dei feed RSS per il mio sito web personale, quindi ho una certa esperienza in merito. Ho controllato l’ <head> della pagina web; ho notato i seguenti link:
<link rel="alternate" type="application/rss+xml" title="Latest posts" href="https://community.nlnetlabs.nl/posts.rss">
<link rel="alternate" type="application/rss+xml" title="Latest topics" href="https://community.nlnetlabs.nl/latest.rss">
<link rel="alternate nofollow" type="application/rss+xml" title="RSS feed of topics in the 'Cascade' category" href="https://community.nlnetlabs.nl/c/cascade/10.rss">
Quindi l’ <head> include un terzo link per il feed RSS specifico dell’argomento; ma sembra che alcuni lettori di feed RSS non apprezzino l’attributo rel=”nofollow”.
Naturalmente, ho controllato MDN ( HTML attribute: rel - HTML | MDN ); nofollow è documentato come:
Indica che l’autore o l’editore originale del documento corrente non approva il documento referenziato.
Ma anche:
Rilevante per
<form>,<a>e<area>, la parola chiavenofollowindica ai crawler dei motori di ricerca di ignorare la relazione del link. La relazione nofollow può indicare che il proprietario del documento corrente non approva il documento referenziato. Viene spesso inclusa dagli ottimizzatori per i motori di ricerca che fingono che le loro fattorie di link non siano pagine spam.
Ho cercato nel codice sorgente di Discourse su GitHub, e con alcune ricerche e Git blame sono riuscito a trovare FEATURE: add nofollow to RSS alternate link in topics and categories by rr-it · Pull Request #16013 · discourse/discourse · GitHub. Quindi suppongo che il secondo significato di rel=”nofollow” fosse quello inteso qui. Seguendo la discussione di background, sembra essere utile per guidare la prioritizzazione nei crawler del sito. C’è stato un ulteriore seguito in Search engines now blocked from indexing non-canonical pages - #4 by rrit, ma non sono riuscito a capire se rel=\"nofollow” sia ancora importante.
Non sono riuscito a trovare alcuna discussione su Discourse Meta riguardo a questo problema, anche se la PR è stata unita nel 2022. Chiaramente, c’è un malinteso nelle convenzioni riguardanti i <link> per i feed RSS, tra alcuni lettori di feed RSS e Discourse. Quindi chiedo:
rel=”nofollow”serve ancora al suo intento originale per migliorare la prioritizzazione dei crawler del sito, o è stato sostituito da altre tecniche?- Questo comportamento (cioè ignorare i link
rel=”nofollow”) nella autoscoperta dei feed RSS sembra essere comune? Altri possono replicarlo? Non sono a conoscenza di uno standard autorevole sulla scoperta automatica dei feed RSS. - C’è la volontà di supportare questo caso d’uso, affinché i lettori di feed RSS possano scoprire automaticamente i post giusti? L’esistenza di quei
<link>specifici per l’argomento, anche se non vengono utilizzati dal mio lettore, mi fa pensare di sì; forse la perdita di funzionalità è stata semplicemente trascurata quando è stato aggiuntorel=”nofollow”.
Agli sviluppatori di Discourse: grazie per averlo creato!