¿Bloquear rastreadores solo de temas incrustados?

Aparte de manualmente, ¿es posible configurar robots.txt para bloquear todos los hilos del foro conectados a WP-Discouse?
(para que la publicación del foro no sea indexada)

¿Una opción simple de alternancia que pueda bloquear el rastreo de todos los hilos del foro conectados? ¿O incluso una configuración de alternancia por publicación al publicar o editar una publicación de WP que esté vinculada a un hilo del foro de wp-discourse?

¿Por qué quieres hacer eso? Estoy bastante seguro de que la publicación del foro incluye un puntero a la versión canónica en tu sitio de WP.

2 Me gusta

Una caída en el ranking/reputación de los artículos de WP (originales) desde la adición. No buscaba iniciar un debate ni quejarme, solo preguntaba cómo lograr esto. Estoy seguro de que hay muchas otras razones por las que otros pueden querer tener este nivel de control sobre lo que se indexa.

1 me gusta

Solo sugiero: quizás deberías redefinir tus objetivos porque vas en la dirección equivocada.

Pero con un proxy inverso, esa es una tarea bastante trivial.

No todos los rastreadores web respetan el archivo robots.txt.

3 Me gusta

Hola @haydenjames,

No hay nada que puedas hacer en el plugin WP Discourse para añadir las publicaciones que crea en Discourse a un archivo robots.txt. De hecho, esta es una pregunta puramente de Discourse, concretamente “¿Puedo hacer noindex automáticamente a los temas incrustados?” (o algo similar). Un tema incrustado desde Wordpress es funcionalmente lo mismo que cualquier otro tema incrustado. La vía de investigación que quieres seguir está ahí, por ejemplo, el origen de la configuración del sitio embed set canonical url y discusiones relacionadas.

No creo (pero estaré encantado de que me corrijan) que lo que quieres hacer sea una característica actual de Discourse. Actualmente, Discourse añade una cabecera X-Robots-Tag: noindex a las solicitudes GET de temas ocultos. Podrías hacer lo mismo para temas incrustados a través de un plugin.

4 Me gusta

¿Encabezado en la dirección equivocada para bloquear la indexación de un hilo del foro con el artículo duplicado que prefiero que los usuarios de la búsqueda de Google encuentren a través del blog de WP? Estoy de acuerdo con eso. El principal beneficio de Wp-discourse para mí ha sido permitir discusiones de publicaciones de blog sin tener que usar soluciones como Disqus o los comentarios muy limitados por defecto de WP. No necesito ningún beneficio de SEO de los foros a menos que se trate de otros hilos únicos que no están conectados a contenido ya existente.

No hay duplicados a menos que hayas cambiado algo.

Debido a:

Y:

1 me gusta

Gracias @angus

Para aclarar, si hago que la categoría que almacena la publicación conectada a WP-discourse esté oculta (¿es oculto diferente a privado?), ¿entonces ocultará la publicación de los foros/público/rastreadores, pero los comentarios insertados al final de cada publicación de blog de WordPress con comentarios seguirán siendo visibles?

Disculpa las preguntas de novato, no tengo experiencia con Discourse y quiero asegurarme de que no estoy malinterpretando tu respuesta.

… depende de tu definición de duplicado. El canónico está en su lugar, pero para mí, personalmente, dado que tanto la publicación del blog como el hilo del foro contienen el mismo texto/copia exacta (duplicado). Me gustaría simplemente bloquear esos hilos por completo. Esa es solo mi preferencia. Quizás en el futuro, el razonamiento detrás de este tema tenga más sentido. Pero por ahora, sinceramente, no estoy tratando de provocar un debate ni nada parecido. Creo que el bloqueo es una solución más absoluta para mí.

Es como ir a tu mecánico y pedirle que “cambie el aceite dos veces”. Entiendo el “por qué” inicial de @angus, pero al final, se trata solo de si se puede hacer de alguna manera o no es posible.

Editar: Ahora que lo pienso, ¿podría entonces simplemente agregar la categoría del foro de publicaciones de blog a robots.txt, correcto? ¿O se sobrescribirá? (Buscaré en los foros cómo funciona/se puede editar el robots.txt de Discourse).

Entonces, algo como:
forum.domain.com/c/blog-articles/xx/*

Un tema “oculto” es aquel que no aparece en las listas de temas, es decir, no se puede “descubrir” de la manera habitual. Puedes identificar un tema oculto por el símbolo del ojo tachado.

En realidad, hay una forma de hacer que las publicaciones del plugin WP Discourse sean “ocultas” automáticamente :slight_smile: Puedes usar la configuración “Publicar como temas no listados”.

Ten en cuenta tanto lo que dije arriba como lo que dice al lado de esa configuración. Esto significará que los temas publicados desde Discourse a Wordpress no aparecerán en las listas de temas de tu foro. Los comentarios funcionarán de la manera habitual. Si tienes activada la webhook de sincronización de datos de comentarios, el tema ya no estará oculto después del primer comentario. Esa función no fue diseñada exactamente para este propósito. Ver más:

Si solo quieres añadir una cabecera X-Robots-Tag: noindex a un tema incrustado (sin preocuparte por este asunto de ocultar), necesitarás solicitarlo como una nueva función de Discourse o añadirlo a través de un plugin.

2 Me gusta

Esto es genial. Gracias por aclarar y compartir la configuración de WP Discourse.

Pregunta: Si edito manualmente mi archivo robots.txt de Discourse. ¿El cambio seguirá siendo persistente?

Todavía estoy buscando en los foros la respuesta. Insertaré cualquier enlace que encuentre que responda a eso.

Si lo haces a través de /admin/customize/robots, persistirá.

Se almacena en una configuración oculta del sitio llamada overridden_robots_txt. Si esta se rellena, siempre se servirá como tu archivo robots.txt.

2 Me gusta

@haydenjames Lo último que observaría es que parece haber habido un problema con la URL canónica de los temas incrustados recientemente. Algo a tener en cuenta si acaba de notar este problema recientemente.

1 me gusta

Gracias. Ah, no es tan simple, porque la URL de cada hilo no tiene la categoría en dicha URL. Así que tendría que añadirlas manualmente / una por una.

Entendido. Gracias. Esa es en parte la razón por la que me gustaría el enfoque drástico de bloquear todas las publicaciones incrustadas de WP-Discourse a través de robots.txt. Estas cosas pueden suceder. Es comprensible.

Mi definición, o la tuya, no tiene sentido. Solo la definición de Google es importante. Y entonces no hay duplicados.

También existe la posibilidad de que Google valore tu foro más que WordPress. Entonces la solución no es intentar bloquear la indexación, sino arreglar ese origen.

1 me gusta

Aunque la etiqueta rel=canonical puede ayudarte a evitar una penalización por contenido duplicado cuando vuelves a publicar entradas, aún puedes ser penalizado si usas mal la etiqueta. Encontraré una solución. Subiré este hilo en una fecha posterior.