Descubriendo temas antiguos: beber un lago por una pajilla

Resumen: ¿Hay algún plugin o configuración que añada una selección de temas aleatorios al final de un tema (no solo los más recientes) incluso cuando no se ha iniciado sesión, para que un rastreador pueda descubrir todos los temas más antiguos?

Ahora que he fusionado un foro antiguo en el foro actual, tengo el curioso problema de la “superficialidad”/descubribilidad.

En las vistas de categoría y últimas, solo se pueden ver los temas más recientes. Como la superficie de un lago. La vista contiene solo un número limitado de publicaciones y el desplazamiento infinito dificulta “profundizar”.

Tener múltiples categorías amplía la “paja”, pero incluso si tienes, digamos, 50 categorías y miras 100 de profundidad, eso sigue siendo solo 5000 temas de profundidad.

Solo se puede acceder al 1-2% de los temas, el resto está oculto bajo la superficie.

Pensé que sitemaps.xml podría ayudar, pero estos exponen solo un puñado de temas en la configuración predeterminada.

Enormes fragmentos de contenido están efectivamente bloqueados para los rastreadores.

Me preguntaba si hay algún plugin o configuración que añada una selección de temas aleatorios al final de un tema (no solo los más recientes) incluso cuando no se ha iniciado sesión, para que un rastreador pueda descubrir todos los temas más antiguos.

1 me gusta

Los rastreadores deben usar el sitemap. No hacer scraping aleatoriamente.

2 Me gusta

¿Has considerado impulsar temas antiguos? Parece una forma más fácil de reabrir temas antiguos sin crear complementos ni nada parecido.

En la configuración de la categoría puedes encontrar estas opciones

Esto funciona bien aquí en meta, ya que reabre temas antiguos que luego pueden ser ‘actualizados’ con la última información / cerrados. Es una buena forma de curar tu contenido también. Aquí tienes un ejemplo de 2020 que ha sido impulsado

1 me gusta

Cuestión de gustos lo bueno que es el sistema de “bump”. O si se hace por los bots, no por los humanos.

Aquí los temas “bumped” me irritan mucho. No sé por qué debería ver temas desactualizados porque hay alguna necesidad no actual de cerrarlos.

1 me gusta

Espera… ¿qué? ¿Por qué piensas eso?

Miré el sitemap generado y solo tenía medio mes de publicaciones allí en sitemap_1.xml. sitemap_recent.xml tiene aún menos.

¿Y comprobaste sitemap_2.xml, etcétera?

De ahí la palabra “recent” (reciente) en el nombre.

Ese es el problema, no hay más páginas de sitemap que sitemap_1.xml y esta tiene menos de las 10.000 URL máximas especificadas en la configuración.

Lo sé, lo menciono por si la gente piensa que me refiero a ese archivo.

Quizás intente ver si puedo volver a activar la generación de un sitemap de alguna manera.

¿Y todos esos temas que faltan son públicos? ¿Puedes publicar o enviar por mensaje privado el foro del que se trata?

La gran mayoría de los temas son públicos.

Veo que sitemap_1 tiene el máximo de 10k URLs (generado hace poco menos de una hora). No hay otras páginas de sitemap. Esperaré 15 minutos a que tenga lugar la próxima generación programada para ver si aparecen las demás.

Veo en Sidekiq que el trabajo de regeneración se ejecutó, pero no sé por qué está produciendo solo sitemap_1.xml y no otras páginas.

Jobs::RegenerateSitemaps hace 48 minutos OK 257ms en 11 minutos default

Puedo enviarte el enlace del foro por mensaje privado si el trabajo de regeneración programado en 11 minutos no lo soluciona. También lo he aumentado a 50k URLs, así que incluso si no genera más páginas, esa única página tendrá al menos 5 veces el número de URLs.

EDITAR: Solo una actualización. El trabajo se ejecutó y creó el nuevo sitemap más grande de 50k, pero de nuevo solo una página.

EDITAR2: Después de dejar que se estabilizara un poco, me complace informar que las páginas adicionales del sitemap se han generado en el trabajo más reciente. No estoy seguro de por qué no se generaron en los trabajos anteriores.

Sí, pero el bumping no está estructurado y, de nuevo, es solo una paja fina: incluso si haces bumping en 100 publicaciones al día en 50 categorías (lo que también haría que el foro fuera inútil, ya que eliminaría todo el contenido reciente), eso todavía te da el mismo 2% de los temas.

Supongo que podría intentar implementar algo como los ‘temas sugeridos’ al final de cada hilo, pero con un algoritmo diferente para inclinarse hacia la exploración.

Estás omitiendo una cosa. El “bumping” solo ayuda si

  • un bot útil está rastreando en ese momento
  • un bot útil seguirá dichos enlaces

En la mayoría de los casos, eso no sucederá. Lo único que se consigue son usuarios molestos, a menos que esos “bumpings” solo ocurran en versiones sin JavaScript.

Pero una pregunta: ¿quieres todo esto solo porque tus sitemaps pueden estar rotos, o no confías en los sitemaps?

Los temas relacionados con la IA que encuentro son la mejor manera de descubrir temas antiguos.

2 Me gusta

Creo que los sitemaps resuelven el problema del rastreador. Inicié un tema diferente para discutir cómo aumentar la navegabilidad y la descubribilidad en este hilo: Easy ways to navigate and browse large categories? - #2 by Jagster

Hay cierto cruce con la capacidad de búsqueda, pero es ligeramente diferente.

El impacto de los sitemaps corregidos fue inmediato:

EDITAR: solo para decir que el subtitulado de la IA es aterradoramente bueno. ¡No esperaba que interpretara bien el gráfico!

1 me gusta