Bloquer les robots d'exploration uniquement à partir des sujets intégrés ?

Outre la méthode manuelle, est-il possible de configurer robots.txt pour bloquer tous les fils de discussion du forum connectés à WP-Discouse ?
(afin que les articles de forum ne soient pas indexés)

Une simple option à bascule qui peut bloquer l’exploration de tous les fils de discussion connectés ? Ou même un paramètre à bascule par article lors de la publication ou de la modification d’un article WP lié à un fil de discussion wp-discourse ?

Pourquoi voulez-vous faire cela ? Je suis à peu près certain que la publication du forum inclut un pointeur vers la version canonique sur votre site WP.

2 « J'aime »

Une baisse du classement/de la réputation des articles de WP (originaux) depuis leur ajout. Je ne cherchais pas à lancer un débat ou à me plaindre, je demandais juste comment y parvenir. Je suis sûr qu’il existe de nombreuses autres raisons pour lesquelles d’autres personnes pourraient vouloir ce niveau de contrôle sur ce qui est indexé.

1 « J'aime »

Je suggère simplement - peut-être devriez-vous redéfinir vos objectifs car vous allez dans la mauvaise direction.

Mais avec un proxy inverse, c’est une tâche assez triviale.

Tous les robots d’exploration Web ne respectent pas le fichier robots.txt.

3 « J'aime »

Salut @haydenjames,

Il n’y a rien que vous puissiez faire dans le plugin WP Discourse pour ajouter les publications qu’il crée dans Discourse à un fichier robots.txt. C’est en fait une question purement Discourse, à savoir « Puis-je automatiquement noindexer les sujets intégrés ? » (ou quelque chose dans le genre). Un sujet intégré depuis Wordpress est fonctionnellement identique à tout autre sujet intégré. La piste d’investigation que vous souhaitez suivre est là, par exemple l’origine du paramètre de site embed set canonical url et les discussions associées.

Je ne pense pas (mais je suis ouvert à la correction) que ce que vous voulez faire soit une fonctionnalité actuelle de Discourse. Discourse ajoute actuellement un en-tête X-Robots-Tag: noindex aux requêtes GET pour les sujets masqués. Vous pourriez faire de même pour les sujets intégrés via un plugin.

4 « J'aime »

En-tête dans la mauvaise direction pour bloquer l’indexation d’un fil de discussion avec l’article en double que je préfère que les utilisateurs de la recherche Google trouvent via le blog WP ? Ça me convient. Le principal avantage de Wp-discourse pour moi a été de permettre des discussions sur les articles de blog sans avoir à utiliser des solutions comme Disqus ou les commentaires WP par défaut très limités. Je n’ai pas besoin d’avantage SEO pour les forums, sauf s’il s’agit d’autres fils de discussion uniques qui ne sont pas liés à du contenu existant.

Il n’y a pas de doublons, sauf si vous avez changé quelque chose.

Parce que :

Et :

1 « J'aime »

Merci @angus

Pour clarifier, si je rends la catégorie qui stocke le post connecté à WP-Discourse cachée (est-ce que caché est différent de privé ?), cela masquera le post des forums/du public/des robots d’indexation, mais les commentaires insérés à la fin de chaque article de blog WordPress avec des commentaires seront-ils toujours visibles ?

Désolé pour les questions de débutant, je ne suis pas expérimenté avec Discourse et je veux m’assurer que je n’interprète pas mal votre réponse.

… cela dépend de votre définition de doublon. Canonique est en place, mais pour moi personnellement, puisque l’article de blog et le fil de discussion du forum contiennent exactement le même texte (doublon). Je voudrais simplement bloquer ces fils de discussion complètement. C’est juste ma préférence. Peut-être qu’à l’avenir, la raison d’être de ce sujet aura plus de sens. Mais pour l’instant, je n’essaie honnêtement pas de provoquer un débat ou quoi que ce soit d’autre. Je pense que le blocage est une solution plus absolue pour moi.

C’est comme aller chez votre mécanicien et lui demander de « changer votre huile deux fois ». Je comprends le « pourquoi » initial de @angus - mais au final, il s’agit juste de savoir si cela peut être fait d’une manière ou d’une autre, ou si ce n’est pas possible.

Edit : En y réfléchissant, je pourrais alors simplement ajouter la catégorie de forum des articles de blog à robots.txt, n’est-ce pas ? Ou sera-t-il écrasé ? (Je chercherai sur les forums comment robots.txt de Discourse fonctionne/peut être modifié.

Donc quelque chose comme :
forum.domain.com/c/blog-articles/xx/*

Un sujet « caché » est un sujet qui n’apparaît pas dans les listes de sujets, c’est-à-dire qu’il n’est pas « découvrable » de la manière habituelle. Vous pouvez reconnaître un sujet caché par le symbole de l’œil barré.

En fait, il existe un moyen de rendre automatiquement les posts du plugin WP Discourse « cachés » :slight_smile: Vous pouvez utiliser le paramètre « Publier comme sujets non répertoriés ».

Gardez à l’esprit ce que j’ai dit plus haut, et ce qui est indiqué à côté de ce paramètre. Cela signifie que les sujets publiés de Discourse vers Wordpress n’apparaîtront pas dans les listes de sujets de votre forum. Les commentaires fonctionneront normalement. Si vous avez activé le webhook de synchronisation des données de commentaires, le sujet ne sera plus caché après le premier commentaire. Cette fonctionnalité n’a pas été conçue exactement dans ce but. Voir plus loin

Si vous souhaitez simplement ajouter un en-tête X-Robots-Tag: noindex à un sujet intégré (sans vous soucier de cette affaire de cache), vous devrez soit demander cela comme une nouvelle fonctionnalité de Discourse lui-même, soit l’ajouter via un plugin.

2 « J'aime »

C’est génial. Merci d’avoir clarifié et partagé le réglage WP Discourse.

Question : Si je modifie manuellement mon fichier robots.txt Discourse. Le changement restera-t-il persistant ?

Je suis toujours en train de chercher la réponse sur les forums. J’insérerai tous les liens que je trouverai qui répondent à cette question.

Si vous le faites via /admin/customize/robots, cela persistera.

Il est stocké dans un paramètre de site caché appelé overridden_robots_txt. S’il est rempli, il sera toujours servi comme votre fichier robots.txt.

2 « J'aime »

@haydenjames La dernière chose que je voudrais noter est qu’il semble y avoir eu un problème avec l’URL canonique des sujets intégrés récemment. Quelque chose à garder à l’esprit si vous venez de remarquer ce problème récemment.

1 « J'aime »

Merci. Ah, ce n’est pas si simple, car l’URL de chaque fil de discussion est sans la catégorie dans ladite URL. Il faudrait donc les ajouter manuellement / un par un.

Noté. Merci. C’est en partie pour cela que je voudrais l’approche radicale consistant à bloquer tous les messages intégrés WP-Discourse via robots.txt. Ces choses peuvent arriver. C’est compréhensible.

Ma définition, ou la vôtre, n’a aucune importance. Seule la définition de Google compte. Et alors, il n’y a pas de doublons.

Il y a aussi une chance que Google valorise votre forum plus que WordPress. Dans ce cas, la solution n’est pas d’essayer de bloquer l’indexation, mais de corriger l’origine.

1 « J'aime »

Même si la balise rel=canonical peut vous aider à éviter une pénalité pour contenu dupliqué lors de la republication d’articles, vous pouvez toujours être pénalisé si vous utilisez mal la balise. Je trouverai une solution. Je remonterai ce fil plus tard.