Nachdem die anfängliche Hysterie (die eine Person übermannen kann, die feststellt, dass Google seine Website fast ein halbes Jahr lang nicht beachtet hat und er davon nicht einmal etwas wusste!!) abgeklungen ist,
versuche ich hier nur die Ursachen aufzulisten, die mit dem Discourse-Code zusammenhängen, d. h. die weder von Google noch von mir (soweit ich das beurteilen kann) behoben werden können, sondern vom Discourse-Team.
Früher, wie ich auf dieses Problem gestoßen bin, alles kann übersprungen werden:
Ich habe fast alles in diesem Meta-Thema gelesen, bevor ich gefragt habe.
Im August 2024 stellte ich fest, dass der Traffic auf meiner Website um bis zu 95 % zurückgegangen war. Aber ich habe es ignoriert und dachte, dass ich vielleicht nicht genug gepostet hätte.
Aber heute habe ich festgestellt, dass, egal welchen Begriff ich bei Google eingebe und die Suche nur auf meine eigene Website beschränke: ***site:BathindaHelper.com jobs in bathinda***, keine Ergebnisse angezeigt wurden (das einzige Ergebnis, das von meiner Website angezeigt wird, ist eigentlich nur ein Vorschlag, Google Ads zu schalten, um dieses Ergebnis von meiner Website anzuzeigen, was darauf hindeutet, dass meine Website tatsächlich indexiert wurde):
Und schließlich habe ich auch Google Analytics (vielleicht umbenannt in Google Events) überprüft, und es zeigt deutlich, dass Google meine Website seit dem 17. Juni 2024 nicht mehr verweist.
Wenn Sie Ihre Website entweder mit erzwungenem Login erstellt oder aufgehört haben, Themen TL0+ anzuzeigen? Google kann eine Website nur nutzen, wenn sie für die Welt sichtbar ist. Oder Sie haben die User Agents von Google blockiert.
Ist dies dasselbe Forum, bei dem Sie DNS-Probleme hatten?
Ich habe fälschlicherweise das Wort „force“ verwendet. (Ich meinte damit, dass ich die Google-Suche dazu gezwungen habe, Suchergebnisse von meiner eigenen Website BathindaHelper.com zu liefern)
Ich habe meine Website nicht mit einer abnormalen/erzwungenen Methode erstellt.
Ich habe nichts absichtlich an TL0+ oder Ähnlichem herumgebastelt.
Seit einer halben Stunde habe ich festgestellt, dass (neben einigen anderen kleinen Problemen) irgendwie meine robots.txt-Datei die Ursache ist, aber ich konnte (noch) nicht herausfinden, wie ich das beheben kann.
Ich erinnere mich nicht an DNS-Probleme (sprichst du von einer sehr langen Zeit in der Vergangenheit?). Meine Website funktioniert einwandfrei, außer dass es manchmal fast 30 bis 50 Sekunden dauert, bis sie sich öffnet, wenn ich/der Administrator meinen Browser hart aktualisiere, aber danach funktioniert sie gut.
Vielen Dank für deine Antwort.
Bearbeiten:
Ich habe die Option „robots file“ deaktiviert:
Aber meines Wissens hat Discourse nicht einfach eine robots.txt wie die meisten Websites, sondern sie wird durch ein seltsames Ruby-Ding gemacht, und es gibt nicht viele Einstellungen, die ein Administrator anpassen kann. Außer diesen beiden Einstellungen und dem Verlangsamen von Bots.
Ich habe dies deaktiviert, nachdem ich dieses Thema eröffnet habe (sagen wir 30 Minuten vor jetzt). Dieses Problem besteht jedoch seit 3 Monaten. Aber ich konnte nicht unabhängig überprüfen, ob diese ‘Abwahl’ den ‘Google Indexing’-Fehler beheben konnte oder nicht.
Ich bin mir nicht sicher, ob ich Websites nicht über robots.txt deaktiviere/blockiere, dann sind ALLE SEITEN ERLAUBT? Oder ist es umgekehrt, dass wenn ich Websites nicht über robots.txt AKTIVIERE, dann sind alle Websites von der Indizierung BLOCKIERT?
Das habe ich total vergessen. Sie sollten sie auswählen. Wenn Sie diese nicht verwenden, müssen Sie robots.txt manuell überprüfen und bearbeiten, um sicherzustellen, dass sie Bots wie gewünscht leitet.
Sie können aber auch nachsehen, ob Sie dort etwas finden, das Google aufhalten würde.
Ok.
Das bedeutet, dass alle Discourse-Benutzer (normalerweise) eine „Robots.txt“-Datei angeben/bereitstellen müssten.
Und so werde ich das Thema dazu (wie und was in dieser Datei stehen sollte) morgen im Detail lesen.
Zweitens, wenn es nicht zu umfangreich zum Erklären ist, können Sie mir einen einfachen Weg nennen, mit dem ich einige Einstellungen in meinem Discourse-Admin-Panel ändern und gleichzeitig live/in Echtzeit überprüfen kann, ob Google meine Website jetzt frei zugreifen (und dann indexieren) kann oder ob sie immer noch den Fehler „Zugriff verweigert – 403“ erhält?!
Bearbeitung: Obwohl ich selbst versuchen werde, ähnliche Ressourcen jetzt oder später bei Google zu finden.
Nun, nein. Das bedeutet, dass Administratoren normalerweise robots.txt aktiviert lassen, um manuelles Basteln zu vermeiden Aber sicher, blockierte Bot-Listen usw. sind es, was ein Administrator ändern möchte.
Hier habe ich gestern diese beiden Domains google und google.com als Experiment eingetragen. Ich weiß nicht, ob dies Vorrang vor ‘Blocked Crawler User Agents’ hat oder nicht. Oder ob dies mein Problem gelöst hat (da Google sagt, dass es meine Crawling-/Indexierungsanfrage in die Warteschlange gestellt hat, was bis zu 2-3 Tage dauern kann):
Aber für so viele andere (kleine) Probleme, die die Google-Indexierung beeinträchtigen und die ich im ersten Beitrag dieses Meta-Themas erklärt habe, möchte ich das Thema offen halten.
Außerdem wäre ich dankbar, wenn mir jemand sagen könnte, was passiert, wenn ich Crawler-1 einer Website unter blockierte Crawler-Benutzeragenten blockiere und gleichzeitig denselben unter Erlaubte Crawler-Benutzeragenten zulasse.
Und was passiert, wenn ich es unter Erlaubt... zugelassen, aber über Robots.txt blockiert habe. Was hat Vorrang.
Sie müssencompatible entfernen. Es blockiert praktisch alles, einschließlich Googlebot. Deshalb:\n\nMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)\n\nUnd das Blockieren von Facebook ist auch keine gute Idee, wenn Sie Themen auf Facebook teilen.\n\nAlles, was Sie in der Blockierliste verwenden, blockiert jeden Bot, der dieses Wort in seiner User-Agent-Zeichenfolge hat. Seien Sie also wachsam.
Oh, vielleicht ist das der Grund, warum ich immer noch einen Fehler bekomme, wenn ich versuche, Themen (außer der Startseite) über die Google Search Console zu crawlen/indexieren:
Endlich!!! Scheint den ‘verbotenen’ Fehler für die Haupt-/Startseite und einzelne Themen überwunden zu haben, mit 90% Hilfe von Ihrer Seite und 10% Experimentieren von meiner Seite. Vielen Dank.
Nachdem ich ‘Compatible’ aus der Liste ‘Blocked Crawlers’ entfernt hatte, fand ich unter einer anderen Einstellung eine Notiz, die mich, dumm von mir, zu ignorieren, im Wesentlichen die Benutzer bat, keinen Wert in ‘Allowed Crawler User Agents’ einzutragen, es sei denn, man ist sich ziemlich sicher, was man tut. Hier war es also! Das Ignorieren der in Großbuchstaben geschriebenen Warnung brachte mir so viele Monate, in denen Google meine Website ignorierte, und so viel Ärger: