O que o Googlebot vê ao rastrear o Discourse

networkaaron · Dezembro 20, 2021, 8:05pm

TL:DR, é semi-humanamente possível replicar o rastreamento do Googlebot no Discourse. Veja como começar…

Torne-se um com o Googlebot

Abra uma janela anônima (sempre comece do zero)
Abra o DevTools
Abra as Condições de Rede no DevTools
Desmarque ‘Usar padrão do navegador’
No menu suspenso, escolha Googlebot Smartphone
Em seguida, acesse https://meta.discourse.org (parece bem diferente; não é nada demais porque seu Googlebot e os bots não se importam)
Vá em Exibir > Desenvolvedor > Exibir Código-Fonte
Copie e cole em algum arquivo .html

Bom trabalho! Você criou o arquivo que os humanos referenciam para ver o que o Googlebot rastreou e cacheou.

O trabalho do Googlebot está feito. Agora é hora de renderizar o arquivo em cache em um navegador.

Torne-se um com o Chrome

Abra o terminal e execute npx http-server
Navegue até o arquivo
Abra o Chrome DevTools
No painel Elementos, clique com o botão direito em <html>... e selecione Copiar outerHTML.
Esse é o conteúdo que será indexado, não cacheado, indexado.

Em resumo, o Googlebot recupera o HTML e o Chrome o renderiza. O HTML renderizado é ouro. Certifique-se de que seu conteúdo valioso e links estejam aparecendo lá.

david · Dezembro 20, 2021, 8:35pm

Qual é o propósito das etapas em “Torne-se um com o Chrome”?

Você não poderia fazer a etapa “Copiar outerHTML” em vez da etapa 7 na primeira lista?

j127 · Dezembro 22, 2021, 1:50am

Acho que você também pode buscá-lo com curl:

curl -s https://meta.discourse.org/ > page.html

(Ele conterá as classes \"crawler\".)

Em seguida, abra o arquivo page.html em um navegador.

Ou para inspecionar o código em um editor:

curl -s https://meta.discourse.org/ | vim -

networkaaron · Janeiro 13, 2022, 2:22pm

O HTML em cache é renderizado no Chrome (sem interface gráfica). Quando renderizado, conteúdo e links suplementares podem ser introduzidos via JavaScript, no DOM. O Google levará em consideração as informações que renderizar para fins de indexação.

É assim que o Googlebot obtém conteúdo de aplicativos com uso intensivo de JavaScript. Vá ao Google e pesquise algo que você sabe que renderiza conteúdo apenas com JavaScript > clique no ícone de 3 pontos > clique no botão Cache > clique em Ver código-fonte > copie-o e renderize-o no Chrome para ver qual conteúdo aparece no DOM.

Observação: atualize quaisquer caminhos relativos (recursos CSS e JS) para absolutos antes de renderizá-los no Chrome ^^

networkaaron · Janeiro 13, 2022, 2:39pm

Usar o curl facilita, legal!

Certifique-se de incluir a string do user agent do Googlebot, por exemplo, Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). O servidor pode enviar um HTML diferente para o Googlebot.

j127 · Janeiro 13, 2022, 9:13pm

Acho que é a mesma saída, mas não custa nada adicionar o user agent. Não tenho certeza sobre o Chrome, mas no Firefox você pode clicar com o botão direito na solicitação na guia de rede e escolher “copiar como curl” para um conjunto completo de cabeçalhos que imitarão uma solicitação de navegador.

Tópico		Respostas	Visualizações
Googlebot is getting non-javascript version of the site Development	16	1655	9 de Março de 2024
How public Discourse sites are indexed by search engines like Google Site Management reference	0	12858	6 de Fevereiro de 2013
Disable or bypass feature detect for Googlebot (while serving JS app to crawlers) Support unsupported-install	7	3435	14 de Junho de 2022
Can we have a conversation about SEO? Development	2	864	4 de Abril de 2022
No content on homepage for Googlebot Bug	6	1930	16 de Março de 2016

O que o Googlebot vê ao rastrear o Discourse

Tópicos relacionados