L’HTML memorizzato nella cache viene renderizzato in Chrome (headless). Quando viene renderizzato, copie supplementari e collegamenti possono essere introdotti tramite JavaScript, nel DOM. Google prenderà in considerazione le informazioni che renderizza per l’indicizzazione.
Questo è il modo in cui Googlebot ottiene contenuti da applicazioni ricche di JavaScript. Vai su Google e cerca qualcosa che sai che renderizza contenuti solo con JavaScript > fai clic sull’icona con i 3 puntini > fai clic sul pulsante Cache > fai clic su Visualizza sorgente > copiala e renderizzala in Chrome per vedere quali contenuti appaiono nel DOM.
Nota: aggiorna eventuali percorsi relativi (risorse CSS e JS) in percorsi assoluti prima di renderizzarli in Chrome ^^
Assicurati di includere la stringa user agent di Googlebot, ad esempio Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Il server potrebbe inviare a Googlebot un HTML diverso.
Penso che sia lo stesso output, ma non fa male aggiungere l’user agent. Non sono sicuro di Chrome, ma in Firefox puoi fare clic destro sulla richiesta nella scheda di rete e scegliere “copia come curl” per un set completo di intestazioni che imiteranno una richiesta del browser.