We have every single page of latest in the index, the content is like quicksand and there is nothing in the homepage that is “site specific” and not quicksand which is a big problem:
We absolutely do not want people landing on page 2 / 3 etc.. page 1 maybe, but the content on page 1 keeps on changing.
This URL for example https://meta.discourse.org/latest?no_definitions=true&no_subcategories=false&page=2 is stored in the Google index.
I am reticent to change stuff though cause I do not know how the big Google will deal with us adding “dont store in index” directives here. Also people never land on these pages anyway cause Google automatically detects they are rubbish and do not send people there.
If there is anything super positive here, I guess it would be having a wonderful “HTML off” homepage that has useful enough content that search engines would send people to the page.
For example, it would be super nice if discourse community discussions ranked meta.discourse.org first cause we had a nice front page.
A simple fix here we can make that can give us lots of mileage is nice expansion of pinned posts:
In fact we can even expand it a bit further for crawler views. Additionally we could list all the categories on the home page as well in the crawler view… there is a bunch of stuff we can do.
I read the tutorials above but I do not understand how to fix the question “Need to edit robots.txt file - where is it?”. Looking forward to receiving help from the community
This is the content to be want to update
# See http://www.robotstxt.org/wc/norobots.html for documentation on how to use the robots.txt file
#
User-agent: *
Disallow: /auth/cas
Disallow: /auth/facebook/callback
Disallow: /auth/twitter/callback
Disallow: /auth/google/callback
Disallow: /auth/yahoo/callback
Disallow: /auth/github/callback
Disallow: /auth/cas/callback
Disallow: /assets/browser-update*.js
Disallow: /users/
Disallow: /u/
Disallow: /badges/
Disallow: /search
Disallow: /search/
Disallow: /tags
Disallow: /tags/
You really need to read some of the Development topics, it explains all of that and more. The plugin should be trivial, to be honest. Or you can post something in Marketplace with a budget to see if someone will build it for you.
If that is added, could it be made into an overridable setting? I clicked on this link in the newsletter, because getting user pages indexed is also something we need. We’re hoping to add additional information to them and eventually redirect the old (indexed) user pages to the Discourse ones.
I was just noticing this problem on one of my Discourse sites. The way to block those dynamic URLs from bots while still allowing search engines to crawl /latest is this:
Disallow: /latest?
That will only block the dynamic ones, but not /latest, so search engines would still be able to see the latest content. I tested the rule in Google’s Webmaster Tools and it works.
Here’s an example of some of the dynamic URLs that are getting crawled on my site:
Is it possible to add that one line to robots.txt?
(Edit: I looked more closely at the file, and I wouldn’t use noindex there, at least on that dynamic rule. I’m pretty sure that Google has recommended not to use noindex in robots.txt though it was several years ago.)
Agora você pode banir ou limitar webcrawlers abusivos nas configurações do site, o que edita indiretamente o robots.txt, mas ainda não oferecemos a capacidade de edição arbitrária.
Acho que deveríamos, porém… @eviltrout, você pode escopar isso para a versão 2.4? Isso responde a muitas solicitações, das quais muitas não concordamos, mas minha atitude sobre isso é: “é o seu funeral, então vá em frente se sentir que deve ”.
A propósito, qualquer pessoa pode facilmente adicionar regras adicionais por meio de um plugin simples usando o modelo de conector “robots_txt_index”. Por exemplo: app/views/connectors/robots_txt_index/sitemap.html.erb
Adicionar uma nova URL na seção de administração que não esteja linkada diretamente. Por exemplo, /admin/customize/robots
Mostrar um <textarea> com o conteúdo atual do arquivo robots.txt.
Se ainda não foi editado anteriormente, preenchê-lo automaticamente com o conteúdo baseado na lista branca/preta.
Quando o administrador clicar em Salvar Alterações, o conteúdo deve ser salvo no banco de dados e substituir o conteúdo existente do robots.txt daquele fórum.
Sou fortemente contra isso, pois oferece uma opção obscura e perigosa com destaque na interface.
Acho que o caminho para personalizar o robots.txt deve ser personalizado e inserido manualmente por enquanto. Se os usuários quiserem, precisam pesquisar no Google ou no Meta e encontrar o caminho.
É por isso que o escondi atrás de “Edição Avançada”, mas se estivermos obscurecendo a interface, posso simplificá-lo ainda mais (vou editar essa postagem.)
Parece ótimo! Certifique-se de que o botão de reverter use o glifo correto, o mesmo que usamos em reverter nas configurações do site. Além disso, usamos apenas a palavra “redefinir”, então você pode reaproveitar esse texto em vez de criar uma nova tradução.
Também precisamos de alguns avisos sobre o conjunto de configurações do site que modificam o robots.txt, que serão substituídos se você editar manualmente, etc.
Se você atualizar para a versão mais recente com testes aprovados, poderá personalizar o robots.txt em /admin/customize/robots. A página não está vinculada em nenhum lugar da interface do usuário; você precisará copiar e colar manualmente a URL no seu navegador.
Nota: se você substituir o arquivo, quaisquer alterações posteriores nas configurações do site que modifiquem o robots.txt (por exemplo, agentes de usuário de rastreadores permitidos etc.) não serão aplicadas ao arquivo (as configurações serão salvas corretamente, mas as alterações não refletirão no robots.txt). Você pode restaurar a versão padrão e as configurações do site voltarão a ser aplicadas ao arquivo.
Se houver substituições e um administrador visualizar o arquivo em /robots.txt, ele verá um comentário no topo informando que há substituições e links para onde podem modificar o arquivo ou redefinir para a versão padrão.