Découvrir des sujets plus anciens : boire un lac à travers une paille

TL;DR : Existe-t-il des plugins ou des paramètres qui ajoutent une sélection de sujets aléatoires en bas d’un sujet (pas seulement les plus récents) même lorsqu’on n’est pas connecté, afin qu’un robot d’exploration puisse découvrir tous les sujets plus anciens ?

Ayant fusionné un ancien forum dans le forum actuel, je me retrouve avec le curieux problème de la « surfaceabilité » / découvrabilité.

Dans les vues de catégorie et les vues les plus récentes, vous ne pouvez voir que les sujets les plus récents. Comme la surface d’un lac. La vue ne contient qu’un nombre limité de messages et le défilement infini rend difficile d’aller « en profondeur ».

Avoir plusieurs catégories élargit la « paille », mais même si vous avez, disons, 50 catégories et que vous regardez 100 de profondeur, cela ne fait toujours que 5000 sujets de profondeur.

Seulement 1 % à 2 % des sujets sont accessibles, le reste est caché sous la surface.

Je pensais que sitemaps.xml pourrait aider, mais ceux-ci n’exposent qu’une poignée de sujets dans la configuration par défaut.

D’énormes morceaux de contenu sont effectivement bloqués par les robots d’exploration.

Je me demandais s’il existait des plugins ou des paramètres qui ajoutent une sélection de sujets aléatoires en bas d’un sujet (pas seulement les plus récents) même lorsqu’on n’est pas connecté, afin qu’un robot d’exploration puisse découvrir tous les sujets plus anciens.

1 « J'aime »

Les robots d’exploration doivent utiliser un sitemap. Ne pas faire de scraping aléatoire.

2 « J'aime »

Avez-vous envisagé de remonter les anciens sujets ? Cela semble être un moyen plus simple de faire réapparaître de vieux sujets sans créer de plugins ou autre chose.

Dans les paramètres de catégorie, vous pouvez trouver ces paramètres

Cela fonctionne bien ici sur meta car cela ramène de vieux sujets qui peuvent ensuite être « mis à jour » avec les dernières informations / fermés. C’est aussi un bon moyen de gérer votre contenu. Voici un exemple de 2020 qui a été remonté

1 « J'aime »

C’est une question de goût pour savoir si le système de “bump” est bon. Ou s’il est fait à cause des bots, pas pour les humains.

Ici, les sujets “bumpés” m’irritent énormément. Je ne sais pas pourquoi je devrais voir des sujets dépassés parce qu’il y a un besoin non actuel de les fermer.

1 « J'aime »

Attendez… quoi ? Pourquoi pensez-vous cela ?

J’ai regardé le sitemap généré et il ne contenait qu’un demi-mois de publications dans sitemap_1.xml. sitemap_recent.xml en contient encore moins.

Et avez-vous vérifié sitemap_2.xml etc. ?

D’où le mot « recent » dans le nom.

C’est le problème, il n’y a pas d’autres pages de sitemap que sitemap_1.xml et celle-ci contient moins que les 10 000 URL maximum spécifiées dans les paramètres.

Je sais, je le mentionne au cas où les gens penseraient que je fais référence à ce fichier.

Je vais voir si je peux relancer la génération d’un sitemap d’une manière ou d’une autre.

Et tous ces sujets manquants sont-ils publics ? Pouvez-vous poster ou envoyer par message privé le forum dont il s’agit ?

La grande majorité des sujets sont publics.

Je vois que sitemap_1 contient le maximum de 10k URL (généré il y a un peu moins d’une heure). Aucune autre page de sitemap. J’attendrai 15 minutes, moment où la prochaine génération programmée devrait avoir lieu, pour voir si les autres apparaissent.

Je vois dans Sidekiq que le travail de régénération a bien été exécuté, mais je ne sais pas pourquoi il ne produit que sitemap_1.xml et pas d’autres pages.

Jobs::RegenerateSitemaps il y a 48 minutes OK 257ms dans 11 minutes défaut

Je peux vous envoyer le lien du forum par message privé si le travail de régénération programmé dans 11 minutes ne résout pas le problème. J’ai également augmenté la limite à 50k URL, donc même si d’autres pages ne sont pas générées, cette seule page contiendra au moins 5 fois plus d’URL.

EDIT : Juste une mise à jour. Le travail a été exécuté et a créé le nouveau sitemap plus grand de 50k, mais encore une fois, une seule page.

EDIT2 : Après avoir laissé les choses se stabiliser un peu, je suis heureux d’annoncer que les pages de sitemap supplémentaires ont été générées lors du dernier travail. Je ne suis pas sûr pourquoi elles n’ont pas été générées lors des travaux précédents.

Oui, mais le bumping est non structuré et encore une fois, c’est juste une paille mince : même si vous faites du bumping sur 100 posts par jour dans 50 catégories (ce qui rendrait également le forum inutile car cela éjecterait tout le contenu récent), cela ne vous donne toujours que le même 2% des sujets.

Je suppose que je pourrais essayer d’implémenter quelque chose comme les « sujets suggérés » en bas de chaque fil de discussion, mais avec un algorithme différent pour favoriser l’exploration.

Vous contournez une chose. Le “bump” n’aide que si

  • un bot utile est en train de scraper à ce moment-là
  • un bot utile suivra de tels liens

Dans la plupart des cas, cela n’arrivera pas. La seule chose à obtenir est des utilisateurs agacés — à moins que ces “bumps” ne se produisent que dans les versions non-JS.

Mais une question : voulez-vous tout cela simplement parce que vos sitemaps pourraient être cassés, ou n’avez-vous pas confiance dans les sitemaps ?

Les sujets liés à l’IA que je trouve sont le meilleur moyen de découvrir d’anciens sujets.

2 « J'aime »

Je pense que les sitemaps résolvent le problème des robots d’exploration. J’ai commencé un autre sujet pour discuter de la manière d’améliorer la navigation et la découvrabilité dans ce fil de discussion : Easy ways to navigate and browse large categories? - #2 by Jagster

Il y a une certaine intersection avec la recherche, mais c’est légèrement différent.

L’impact des sitemaps corrigés a été immédiat :

EDIT : je voulais juste dire que la légende générée par l’IA est effrayante de précision. Je ne m’attendais pas à ce qu’elle interprète aussi bien le graphique !

1 « J'aime »