We have every single page of latest in the index, the content is like quicksand and there is nothing in the homepage that is “site specific” and not quicksand which is a big problem:
We absolutely do not want people landing on page 2 / 3 etc.. page 1 maybe, but the content on page 1 keeps on changing.
This URL for example https://meta.discourse.org/latest?no_definitions=true&no_subcategories=false&page=2 is stored in the Google index.
I am reticent to change stuff though cause I do not know how the big Google will deal with us adding “dont store in index” directives here. Also people never land on these pages anyway cause Google automatically detects they are rubbish and do not send people there.
If there is anything super positive here, I guess it would be having a wonderful “HTML off” homepage that has useful enough content that search engines would send people to the page.
For example, it would be super nice if discourse community discussions ranked meta.discourse.org first cause we had a nice front page.
A simple fix here we can make that can give us lots of mileage is nice expansion of pinned posts:
In fact we can even expand it a bit further for crawler views. Additionally we could list all the categories on the home page as well in the crawler view… there is a bunch of stuff we can do.
I read the tutorials above but I do not understand how to fix the question “Need to edit robots.txt file - where is it?”. Looking forward to receiving help from the community
This is the content to be want to update
# See http://www.robotstxt.org/wc/norobots.html for documentation on how to use the robots.txt file
#
User-agent: *
Disallow: /auth/cas
Disallow: /auth/facebook/callback
Disallow: /auth/twitter/callback
Disallow: /auth/google/callback
Disallow: /auth/yahoo/callback
Disallow: /auth/github/callback
Disallow: /auth/cas/callback
Disallow: /assets/browser-update*.js
Disallow: /users/
Disallow: /u/
Disallow: /badges/
Disallow: /search
Disallow: /search/
Disallow: /tags
Disallow: /tags/
You really need to read some of the Development topics, it explains all of that and more. The plugin should be trivial, to be honest. Or you can post something in Marketplace with a budget to see if someone will build it for you.
If that is added, could it be made into an overridable setting? I clicked on this link in the newsletter, because getting user pages indexed is also something we need. We’re hoping to add additional information to them and eventually redirect the old (indexed) user pages to the Discourse ones.
I was just noticing this problem on one of my Discourse sites. The way to block those dynamic URLs from bots while still allowing search engines to crawl /latest is this:
Disallow: /latest?
That will only block the dynamic ones, but not /latest, so search engines would still be able to see the latest content. I tested the rule in Google’s Webmaster Tools and it works.
Here’s an example of some of the dynamic URLs that are getting crawled on my site:
Is it possible to add that one line to robots.txt?
(Edit: I looked more closely at the file, and I wouldn’t use noindex there, at least on that dynamic rule. I’m pretty sure that Google has recommended not to use noindex in robots.txt though it was several years ago.)
Sie können jetzt missbräuchliche Webcrawler über die Site-Einstellungen sperren oder einschränken, was indirekt die robots.txt bearbeitet. Eine beliebige Bearbeitungsmöglichkeit bieten wir jedoch weiterhin nicht.
Ich denke, wir sollten das aber tun .. @eviltrout kannst du das für 2.4 abstecken? Das beantwortet viele Anfragen, von denen wir viele nicht unterstützen, aber meine Haltung dazu ist: „Es ist dein Leichenschmaus, also mach weiter, wenn du es unbedingt musst ".
Füge einen neuen Link im Admin-Bereich hinzu, der nicht direkt verlinkt ist. Zum Beispiel /admin/customize/robots.
Zeige ein <textarea> mit dem aktuellen Inhalt der robots.txt an.
Wenn sie es noch nie bearbeitet haben, fülle es automatisch mit dem Inhalt basierend auf der Whitelist/Blacklist vor.
Wenn der Admin auf Änderungen speichern klickt, wird es in der Datenbank gespeichert und ersetzt den bestehenden Inhalt von robots.txt für dieses Forum.
Ich bin diesem Vorschlag entschieden entgegen, da er eine undurchsichtige und gefährliche Option prominent in der Benutzeroberfläche platziert.
Ich denke, der Pfad zur Anpassung von robots.txt sollte vorerst benutzerdefiniert und manuell eingegeben werden. Wenn Nutzer dies wünschen, müssen sie bei Google oder Meta nach dem entsprechenden Pfad suchen.
Sieht gut aus! Stellen Sie sicher, dass der Zurücksetzen-Button das richtige Symbol verwendet, dasselbe, das wir auch für das Zurücksetzen in den Seiteneinstellungen verwenden. Wir verwenden zudem nur das Wort „Zurücksetzen“, sodass Sie diesen Text wiederverwenden können, anstatt eine neue Übersetzung zu erstellen.
Außerdem benötigen wir Warnhinweise zu den wenigen Seiteneinstellungen, die die robots.txt-Datei ändern, da diese überschrieben werden, wenn Sie sie manuell bearbeiten usw.
Wenn du auf die neueste Version mit durchgelaufenen Tests aktualisierst, kannst du die robots.txt unter /admin/customize/robots anpassen. Die Seite ist nirgendwo in der Benutzeroberfläche verlinkt; du musst die URL manuell in deinen Browser kopieren und einfügen.
Hinweis: Wenn du die Datei überschreibst, werden spätere Änderungen an den Seiteneinstellungen, die die robots.txt beeinflussen (z. B. whitelisted crawler user agents usw.), nicht auf die Datei angewendet (die Einstellungen werden zwar korrekt gespeichert, aber die Änderungen spiegeln sich nicht in der robots.txt wider). Du kannst zur Standardversion zurückkehren, und die Seiteneinstellungen werden wieder auf die Datei angewendet.
Wenn es Überschreibungen gibt und ein Administrator die Datei unter /robots.txt ansieht, wird oben ein Kommentar angezeigt, der darauf hinweist, dass Überschreibungen vorhanden sind, sowie Links, über die die Datei geändert oder auf die Standardversion zurückgesetzt werden kann.