Sitemap-Plugin - keine ?page=… URLs in der Standard-Sitemap

rrit · 7. März 2022 um 13:35

Das #sitemap-Plugin schließt keine URLs mit ?page=… in Standard-Sitemaps ein, z. B. https://meta.discourse.org/sitemap_4.xml

<url>
  <loc>
    https://meta.discourse.org/t/importing-migrating-from-phpbb3/30810
  </loc>
  <lastmod>2022-02-25T21:55:40Z</lastmod>
</url>

In der aktuellen Sitemap sind die Paginierungs-URLs enthalten – z. B. https://meta.discourse.org/sitemap_recent.xml

<url>
  <loc>
    https://meta.discourse.org/t/importing-migrating-from-phpbb3/30810?page=18
  </loc>
  <lastmod>2022-03-07T12:03:50Z</lastmod>
</url>

Werden per Design keine ?page=…-URLs in Standard-Sitemaps aufgenommen?
Alle diese ?page=…-URLs sind kanonische URLs und sollten daher zur Standard-Sitemap hinzugefügt werden – z. B.

<url>
  <loc>
    https://meta.discourse.org/t/importing-migrating-from-phpbb3/30810
  </loc>
  <lastmod>2022-02-25T21:55:40Z</lastmod>
</url>
<url>
  <loc>
    https://meta.discourse.org/t/importing-migrating-from-phpbb3/30810?page=2
  </loc>
  <lastmod>2022-03-02T19:08:07Z</lastmod>
</url>

[...]

<url>
  <loc>
    https://meta.discourse.org/t/importing-migrating-from-phpbb3/30810?page=18
  </loc>
  <lastmod>2022-03-07T12:03:50Z</lastmod>
</url>

Quellen

github.com/discourse/discourse-sitemap

plugin.rb

099d07469


      
          def default
            index = params.require(:page)
            sitemap = Sitemap.find_by(enabled: true, name: index.to_s)
            raise Discourse::NotFound if sitemap.blank?
          
            @output = Rails.cache.fetch("sitemap/#{index}/#{Sitemap.size}", expires_in: 24.hours) do
              @topics = Sitemap.topics_query_by_page(index.to_i).pluck(:id, :slug, :bumped_at, :updated_at).to_a
              render :default, content_type: 'text/xml; charset=UTF-8'
            end
            render plain: @output, content_type: 'text/xml; charset=UTF-8' unless performed?
            @output
          end

github.com/discourse/discourse-sitemap

plugin.rb

099d07469


      
          def recent
            sitemap = Sitemap.find_or_initialize_by(name: Sitemap::RECENT_SITEMAP_NAME)
            sitemap.update_last_posted_at!
          
            @output = Rails.cache.fetch("sitemap/recent/#{sitemap.last_posted_at.to_i}", expires_in: 1.hour) do
              @topics = Sitemap.topics_query(3.days.ago).limit(Sitemap.size).pluck(:id, :slug, :bumped_at, :updated_at, :posts_count).to_a
              render :default, content_type: 'text/xml; charset=UTF-8'
            end
            render plain: @output, content_type: 'text/xml; charset=UTF-8' unless performed?
            @output
          end

github.com/discourse/discourse-sitemap

app/views/discourse_sitemap/sitemap/default.erb

099d07469


      
          if topic[4]
            page = ((topic[4]+1) / TopicView.chunk_size) + 1
            if page > 1
              url += "?page=#{page}"
            end
          end

sam · 8. März 2022 um 00:54

Ich glaube nicht, dass das beabsichtigt ist. Können Sie einen PR zur Behebung erstellen?

mstm · 11. März 2022 um 20:37

Danke @rrit, vor ein paar Monaten ist mir das auch aufgefallen, aber ich dachte immer, es sei normal

rrit · 13. März 2022 um 19:29

Ich kann eine einfache Lösung implementieren, die nicht sehr spezifisch für das Datum der letzten Bearbeitung ist: z. B. verwenden alle Seiten eines Themas dasselbe Datum des letzten bearbeiteten Beitrags.
Dadurch erhalten alle Seiten eines Themas (mit vielen Beiträgen und vielen Seiten) ein neues Datum der letzten Änderung, wenn ein neuer Beitrag hinzugefügt wird – auch wenn nur die letzte Seite das neue Datum benötigt.

Ist das eine machbare Lösung?

Andernfalls müssen wir alle Beiträge eines Themas in Pakete von 20 Beiträgen (pro Seite) bündeln. Und dann das Datum der letzten Änderung für jedes Paket selbst berechnen.

sam · 13. März 2022 um 23:54

Ehrlich gesagt, ich habe mir das angesehen und bin unschlüssig, was Änderungen angeht. Das Problem ist nicht, dass Google Schwierigkeiten hat, Inhalte auf Discourse-Foren zu entdecken.

Es ist, dass es Inhalte entdeckt, crawlt und dann aufgrund von „willkürlicher Entscheidungsfindung“ entscheidet, dass Inhalte nicht in den Index gehören.

rrit · 1. April 2022 um 09:23

Impliziert „willkürliche Entscheidungen“ einen der folgenden Punkte:
(Siehe Page indexing report - Search Console Help)

Auf der Pro-Seite des Hinzufügens all dieser ?page=… kanonischen URLs zur Sitemap:
Es gibt Google einen starken Hinweis auf \u003clastmod\u003e für diese URLs. Dadurch hat Google keinen Grund, unveränderte ?page=…-URLs erneut zu crawlen, und könnte sein kostbares Crawl-Budget für wichtigere URLs verwenden.

Wenn ?page=…-URLs in der Sitemap fehlen, findet Google sie trotzdem und führt einige „willkürliche“ Crawls durch – auch wenn dies völlig unnötig ist, da keine neuen Änderungen am Inhalt vorgenommen wurden.

Siehe Build and Submit a Sitemap | Google Search Central | Documentation | Google for Developers

Google behält den Überblick und unterscheidet, woher es URLs kennt:
„Alle eingereichten Seiten“ (Sitemap) oder „Alle bekannten Seiten“ (Links usw.)
Siehe Google Search Console –\u003e Index –\u003e Berichterstattung zur Abdeckung

„Eine Sitemap ist ein wichtiger Weg für Google, URLs auf Ihrer Website zu entdecken.“ siehe
„Google wählt die kanonische Seite basierend auf einer Reihe von Faktoren (oder Signalen) aus, wie z. B. […], dem Vorhandensein der URL in einer Sitemap, […].“ siehe
„Die Verwendung einer Sitemap garantiert nicht, dass alle Elemente in Ihrer Sitemap gecrawlt und indexiert werden, da die Google-Prozesse auf komplexen Algorithmen zur Planung des Crawlings basieren.“ siehe

mstm · 3. April 2022 um 10:26

Ich hoffe, es wird zusammen mit diesem implementiert

github.com/discourse/discourse-sitemap

DEV: Prepare plugin for deprecation.

main ← deprecation_prep

opened 03:44PM - 01 Apr 22 UTC

romanrizzi

+92 -70

We'll merge this plugin into core soon and need to make a couple of changes to a…void conflict. Changes are: - Wrap the sitemap model in a module so core can define its own. - Don't update sitemaps or add the path to the robots.txt file if the `publish_sitemap` setting is present, which is what's core is going to use. - Use append instead of prepend for mounting the engine, so the same routes defined by core can have a higher priority, and we never hit this plugin's controller. - Core will use the same table if present, so we add `if_not_exists: true` in the migration just in case conflicts can originate based on the call order.

sam · 4. April 2022 um 05:24

Das ist sicherlich etwas, das @Roman bei der Integration in den Kern berücksichtigen sollte.

Ich ziehe es vor, zuerst die Sitemap zusammenzuführen, bevor weitere Änderungen vorgenommen werden, aber sobald das erledigt ist … vielleicht können wir mit kanonischen URL-basierten URLs auf _recent beginnen. Wir haben jetzt eine kanonische URL, die in posts.rss verwendet werden kann, mit ausreichender Caching-Funktion kann sie auch in Sitemaps verwendet werden.

rahim123 · 18. Oktober 2023 um 06:38

Ich habe Probleme mit der Google Search Console, die versucht, URLs wie https://example.com/t/title-slug/1234?page=3 zu indexieren, was Discourse dazu veranlasst, eine 404-Fehlermeldung auszugeben. Wenn der Parameter ?page=x entfernt wird, wird die URL gültig.

Ich gehe davon aus, dass dies eine Art Nebeneffekt davon ist, dass Discourse die Paginierung zu der Version der Website hinzufügt, die es für Crawler bereitstellt:

sam · 18. Oktober 2023 um 07:06

Seiten-URLs funktionieren einwandfrei, Sie benötigen lediglich mehr als N Beiträge.

Haben Sie zufällig eine Menge gelöschter Beiträge zu diesem Thema?

rahim123 · 18. Oktober 2023 um 13:47

Hallo Sam, danke für die Antwort. Nachdem ich dies gepostet hatte, fand ich Ihre Erklärung hier:

Aber in meinem Fall, nein, die Themen mit diesem Problem, die ich mir angesehen habe, zeigen keine Änderungen am ursprünglichen Threading. Das Einzige ist, dass sie aus Drupal importiert wurden. Aber ich muss mir weitere Beispiele ansehen, um zu sehen, ob auch Themen, die ursprünglich in Discourse erstellt wurden, betroffen sind, denn leider gibt es unzählige davon, wahrscheinlich Tausende.

sam · 18. Oktober 2023 um 22:41

Autsch, wurden da viele von Drupal importiert? Ist das der gemeinsame Nenner hier?

rahim123 · 18. Oktober 2023 um 22:44

Ja, fast 100.000 Themen und ca. 2 Millionen Beiträge. Ich bin mir nicht sicher, ob dieses Problem nur bei importierten Themen auftritt, aber ich werde mich bald wieder hier melden, wenn ich weitere Anomalien entdecke.

Thema		Antworten	Aufrufe
?page= bug, both in core and in sitemap plugin Bug sitemap	4	609	1. Juni 2021
Canonical tag on topic URL Bug	23	2424	7. Februar 2017
Googlebot 404 errors due to page numbers Support	13	963	18. Oktober 2023
Sitemap issue Support sitemap	18	273	25. Juli 2024
Pagination URL scheme not passed through when topic is renamed Feature	22	3948	20. Mai 2015

Sitemap-Plugin - keine ?page=… URLs in der Standard-Sitemap

Quellen

Verwandte Themen