Scoprendo argomenti più vecchi: bere un lago con una cannuccia

TL;DR: Esistono plug-in o impostazioni che aggiungono una selezione di argomenti casuali in fondo a un argomento (non solo i più recenti) anche quando non si è effettuato l’accesso, in modo che un crawler possa scoprire tutti gli argomenti più vecchi?

Avendo ora unito un forum più vecchio al forum attuale, ho il curioso problema della “superficialità”/scopribilità.

Nelle visualizzazioni per categoria e più recenti, puoi vedere solo gli argomenti più recenti. Come la superficie di un lago. La visualizzazione contiene solo un numero limitato di post e lo scorrimento infinito rende difficile “andare in profondità”.

Avere più categorie allarga la “trappola”, ma anche se hai, diciamo, 50 categorie e guardi 100 in profondità, sono comunque solo 5000 argomenti in profondità.

Solo l’1-2% degli argomenti è accessibile, il resto è nascosto sotto la superficie.

Pensavo che sitemaps.xml potesse aiutare, ma questi espongono solo una manciata di argomenti nella configurazione predefinita.

Enormi blocchi di contenuto sono effettivamente bloccati dai crawler.

Mi stavo chiedendo, esistono plug-in o impostazioni che aggiungono una selezione di argomenti casuali in fondo a un argomento (non solo i più recenti) anche quando non si è effettuato l’accesso, in modo che un crawler possa scoprire tutti gli argomenti più vecchi.

1 Mi Piace

I crawler dovrebbero usare la sitemap. Non fare scraping casuale.

2 Mi Piace

Hai preso in considerazione la possibilità di aggiornare argomenti più vecchi? Sembra un modo più semplice per far riemergere vecchi argomenti senza creare plugin o altro.

Nelle impostazioni della categoria puoi trovare queste impostazioni

Questo funziona bene qui su meta poiché riporta argomenti vecchi che possono poi essere “aggiornati” con le ultime informazioni / chiusi. È anche un buon modo per curare i tuoi contenuti. Ecco un esempio del 2020 che è stato aggiornato

1 Mi Piace

Questione di gusti quanto sia valido il sistema di bumping. O se viene fatto a causa dei bot, non per gli umani.

Qui gli argomenti “bumpati” mi irritano parecchio. Non so perché dovrei vedere argomenti superati solo perché c’è qualche necessità non attuale di chiuderli.

1 Mi Piace

Aspetta… cosa? Perché pensi questo?

Ho esaminato la sitemap generata e conteneva solo mezzo mese di post in sitemap_1.xml. sitemap_recent.xml ne contiene ancora meno.

E hai controllato sitemap_2.xml eccetera?

Da qui la parola “recent” nel nome.

Questo è il problema, non ci sono altre pagine di sitemap oltre a sitemap_1.xml e quella ha meno dei 10k URL massimi specificati nelle impostazioni.

Lo so, lo menziono nel caso in cui le persone pensino che mi riferisca a quel file.

Vedrò se riesco a riattivare la generazione di una sitemap in qualche modo.

E tutti questi argomenti mancanti sono pubblici? Puoi pubblicare o inviare un messaggio privato del forum di cui si tratta?

La stragrande maggioranza degli argomenti è pubblica.

Vedo che sitemap_1 ha il massimo di 10k URL (generato poco meno di un’ora fa). Nessun’altra pagina sitemap. Aspetterò 15 minuti, quando dovrebbe avvenire la prossima generazione programmata, per vedere se le altre appaiono.

Vedo in Sidekiq che il processo di rigenerazione è stato eseguito, ma non so perché stia producendo solo sitemap_1.xml e non altre pagine.

Jobs::RegenerateSitemaps 48 minuti fa OK 257ms tra 11 minuti default

Posso inviarti il link del forum in privato se il processo di rigenerazione programmato tra 11 minuti non lo risolve. Ho anche aumentato a 50k URL, quindi anche se non genera ulteriori pagine, quella singola pagina avrà almeno 5 volte il numero di URL.

EDIT: Solo un aggiornamento. Il processo è stato eseguito e ha creato la nuova sitemap più grande da 50k, ma ancora una sola pagina.

EDIT2: Dopo aver lasciato che si stabilizzasse un po’, sono felice di segnalare che le pagine sitemap aggiuntive sono state generate nel processo più recente. Non sono sicuro del perché non si siano generate nei processi precedenti.

Sì, ma il bumping non è strutturato e di nuovo è solo una paglia sottile: anche se fai il bumping di 100 post al giorno in 50 categorie (il che renderebbe anche il forum inutile poiché farebbe il bumping di tutti i contenuti recenti) otterresti comunque solo il 2% degli argomenti.

Suppongo che potrei provare a implementare qualcosa come i ‘suggerimenti di argomenti’ in fondo a ogni thread, ma con un algoritmo diverso per favorire l’esplorazione.

Stai aggirando una cosa. Il “bumping” aiuta solo se

  • un bot utile sta effettuando lo scraping in quel momento
  • un bot utile seguirà tali link

Nella maggior parte dei casi ciò non accadrà. L’unica cosa che si otterrà sono utenti infastiditi, a meno che questi “bumpings” non avvengano solo nelle versioni non-JS.

Ma una domanda: vuoi tutto questo solo perché le tue sitemap potrebbero essere corrotte, o non ti fidi delle sitemap?


Gli argomenti relativi all’IA che trovo sono il modo migliore per scoprire vecchi argomenti

2 Mi Piace

Penso che le sitemap risolvano il problema del crawler. Ho avviato un argomento diverso per discutere come aumentare la navigabilità e la reperibilità in questo thread: Easy ways to navigate and browse large categories? - #2 by Jagster

C’è una certa sovrapposizione con la ricercabilità, ma è leggermente diversa.

L’impatto delle sitemap corrette è stato immediato:

EDIT: volevo solo dire che la didascalia dell’IA è spaventosamente buona. Non mi aspettavo che interpretasse bene il grafico!

1 Mi Piace