Indicizzazione di Google Search e Discourse

Ciao a tutti!

Ho letto i vari post sul fatto che il crawler di Google non abbia difficoltà a indicizzare un forum Discourse. La mia domanda è un po’ diversa. Ogni argomento è considerato una “pagina” indicizzabile da Google? Il motivo per cui lo chiedo è che una grande parte degli argomenti del nostro forum non si trova nel database di Google. Questo è confermato dall’analisi dei dati della Google Search Console:

Esistono solo circa 17.000 voci, mentre i forum ospitano centinaia di migliaia di argomenti (forse milioni?). Gli errori in robots.txt riguardano pagine che non dovrebbero essere indicizzate per motivi legittimi. Sembra che il crawler non stia visitando automaticamente tutti gli argomenti più vecchi come dovrebbe.

C’è una impostazione che devo attivare per garantire che un maggior numero di argomenti più vecchi venga indicizzato in tempi ragionevoli? Per gli elementi sopra la piega, l’indicizzazione e i risultati di Google sono piuttosto buoni. Questo problema riguarda solo gli argomenti che si trovano sotto la piega.

Grazie,
Kirupa

Per un esperimento, ho caricato Meta utilizzando la vista crawler con la stringa user-agent di GoogleBot. Sono poi arrivato fino alla pagina 666 della nostra lista più recente, che contiene argomenti aggiornati a metà del 2017, quasi 3 anni fa.

Uno degli argomenti nella lista è Integrazione profonda di Discourse all’interno di un’app Ionic. Ho effettuato una ricerca su Google senza essere loggato e la ricerca per “integration discourse ionic” lo posiziona come primo risultato!!

Meta è un’istanza “piccola” con meno di 30k argomenti, ma tutti sembrano essere indicizzati correttamente. Dato che è un dominio vecchio e siamo il risultato numero 1 per tutto ciò che riguarda Discourse, otteniamo abbastanza “karma” con GoogleBot, quindi il bot gira sul nostro dominio per un tempo sufficiente a scansionare tutto ciò che è necessario.

Il tuo forum ha subito una migrazione da un software vecchio a Discourse?

Se hai bisogno di accelerare l’indicizzazione, puoi provare il plugin per la sitemap.

La scansione standard individuerà tutto, ma la sitemap potrebbe eventualmente far indicizzare i contenuti più rapidamente.

Per favore, pubblica i risultati se lo fai.

Inoltre, puoi condividere 5 esempi di contenuti unici e di alta qualità presenti sul tuo forum che sono completamente assenti da Google?

Forse Google analizza anche la frequenza di accesso all’argomento (se è presente un contatore) o se l’argomento contiene collegamenti a cui vi sono transizioni attive. Google potrebbe non visitare determinate pagine che ritiene “non interessanti” per gli utenti. Esiste un trucco, solitamente verificato in questo modo. Si tratta di SEO. Inserisci un collegamento da un’altra risorsa e cliccaci sopra. Non serve molto, bastano alcune (transizioni). Di solito è sufficiente per interessare Google. Dove vanno le persone, lì va anche lui.

Sui grandi siti di Google, non basta sapere che la pagina esiste. Servono ulteriori segnali: attività, click-through, visualizzazioni, ecc.

@Falco - sì, i forum hanno subito una migrazione da vBulletin, ma ciò è avvenuto verso la fine del 2014. Ho rimosso tutti i link pubblici ai vecchi forum, quindi non c’è il rischio che contenuti duplicati compromettano l’indicizzazione nei motori di ricerca.

@sam - sì, ecco alcuni esempi:

Tutti questi post sono stati menzionati da me su Twitter o su una pagina pubblica di Facebook in qualche momento negli ultimi tre anni, quindi non si tratta di contenuti sepolti e nascosti per sempre.

Per quanto riguarda il plugin della sitemap, proviamo a vederlo. Pubblicherò qualsiasi dato riesca a trovare. Grazie a tutti per il tempo dedicato all’aiuto :slight_smile:

Saluti,
Kirupa

Questo è il mio terzo risultato per “esempio js che usa generatori per animare”.

Forse è stato un esempio sbagliato da pubblicare oggi, dato che l’ho inviato manualmente all’indicizzazione alcune ore fa come test. Ecco cosa ha visto uno dei miei amministratori del forum per questa parola chiave 7 ore fa:

Hai ragione, è uno dei primi risultati al momento. Mi chiedo se l’indicizzazione manuale abbia avuto a che fare con questo.

AGGIORNAMENTO: Ho appena configurato il plug-in Sitemap e invierò la sitemap a Google per l’indicizzazione!

Ciao @kirupa,

FYI, quando Google indicizza due siti nello stesso dominio, ad esempio nel tuo esempio kirupa.com con contenuti simili, di solito la cosiddetta “penalità” (in realtà non è proprio una “penalità”, ma piuttosto una “selezione canonica”) comporta che l’algoritmo di Google scelga una delle pagine come canonica e questa pagina avrà un posizionamento più alto nei risultati di ricerca. (Google potrebbe anche rimuovere dall’indice la pagina che ritiene non canonica).

Google è stato molto chiaro al riguardo: l’idea di una “penalità per contenuti duplicati” è in gran parte un mito. Si tratta davvero di “canonizzazione” e “selezione”:

Se il tuo sito contiene più pagine con contenuti sostanzialmente identici, ci sono diversi modi per indicare a Google l’URL preferenziale. (Questo è chiamato “canonizzazione”). Ulteriori informazioni sulla canonizzazione. (Ref 1)

Ad esempio, se mantieni attivo il tuo vecchio sito insieme al nuovo, puoi utilizzare il tag link canonical per indicare a Google che il tuo nuovo sito è il sito canonico, e Google darà priorità al tuo nuovo sito.

Una soluzione migliore è permettere ai motori di ricerca di scansionare questi URL, ma contrassegnarli come duplicati utilizzando l’elemento di collegamento rel="canonical", lo strumento di gestione dei parametri URL o reindirizzamenti 301. Nei casi in cui i contenuti duplicati portino a una scansione eccessiva del tuo sito web, puoi anche regolare l’impostazione della velocità di scansione in Search Console. (Ref 1)

Esempio:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa, hai anche chiesto:

Ogni argomento è considerato una “pagina” indicizzabile da Google? La ragione per cui lo chiedo è che una gran parte degli argomenti del nostro forum non è presente nel database di Google.

Per un’ottima (anche se un po’ datata) discussione su Google e lo scroll infinito, ti consiglio il Blog Ufficiale di Google Webmaster Central, (Ref 2):

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

@kirupa, un modo per verificare (in pratica, non in teoria) è utilizzare GSC e guardare la loro “schermata” di come rappresentano la tua pagina. Questo si fa facilmente con la funzione “verifica compatibilità mobile” in GSC (ad esempio); e se prendi un post molto lungo in Discourse, puoi verificare quanto di quella pagina viene indicizzato da Google (letto e indicizzato). Ci sono molte opinioni sullo scroll infinito e su come Google indicizzi queste pagine. Puoi usare GSC per controllare le tue pagine e vedere con i tuoi occhi.

Secondo Martin Splitt di Google (vedi Riferimento 3), il 14 aprile 2020:

Splitt ha fornito l’esempio di un sito di notizie che si affida allo scroll infinito (chiamato anche “lazy loading”) per caricare nuovi contenuti.

Ciò significa che la pagina web, in questo caso la home page, non carica contenuti aggiuntivi fino a quando un visitatore non scorre fino in fondo allo schermo.

Splitt spiega perché questo è un problema: “Cosa non fa Googlebot? Non scorre.”

Ciò che fa Googlebot è atterrare su una pagina e scansionare ciò che è immediatamente visibile.

Secondo quanto dichiarato da Splitt, Googlebot non può scansionare contenuti che vengono caricati solo dopo lo scorrimento della pagina.

Come accennato, @kirupa, puoi controllare le tue pagine utilizzando gli strumenti di GSC, che ti mostreranno un’istantanea di come Google visualizza (e indicizza) le tue pagine.

Secondo Splitt di Google nell’aprile 2020: “Googlebot non scorre.” (parafrasando)

Per quanto riguarda la domanda sull’indicizzazione delle ricerche Google e Discourse, ogni proprietario di sito può facilmente utilizzare GSC per determinare come Googlebot indicizza una pagina specifica.

Il mio consiglio, e spero che questo possa essere d’aiuto in qualche piccola misura, è di utilizzare GSC (Google Search Console) per controllare le tue pagine se hai dubbi su come Googlebot le indicizza.

Riferimenti:

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems

Grazie per la risposta davvero ottima, @neounix! Controllerò e seguirò i tuoi suggerimenti a breve :slight_smile:

Rendere di nuovo visibili i vecchi forum (kirupaForum) e aggiungere il tag meta canonical sul forum nuovo/attivo sembra un’ottima idea. Proverò a farlo questa settimana.

Nel frattempo, ho inviato una sitemap con circa 300.000 voci a Google Search Console.

Caro @kirupa,

Di nulla.

Per tua informazione.

I forum Discourse aggiungono già automaticamente il tag canonical ai topic.

Ecco un link dal tuo forum e il codice sorgente che lo mostra per uno dei tuoi esempi (sopra):

Screen Shot 2020-06-09 at 1.48.45 PM

Come puoi vedere, la tua pagina Discourse ha già un tag canonical.

Un “trucco” (non supportato ufficialmente ma fattibile) consiste nell’aggiungere lo stesso tag sui tuoi “vecchi forum” (puntando ai nuovi forum) oppure assicurarti che i vecchi forum non abbiano alcun tag canonical.

Tuttavia, per essere onesti, ottenere l’ID corretto del topic dei forum Discourse nel database dei tuoi vecchi forum richiede un certo lavoro (l’abbiamo fatto per altri motivi, quindi so per esperienza diretta che è fattibile, dato che attualmente utilizziamo queste informazioni in entrambi i forum).

Esiste una tabella del database “post custom fields” in Discourse che contiene la mappatura tra i tuoi vecchi forum (ID topic e post); potresti (se lo desideri) esportare quei dati da Discourse e importarli nei tuoi vecchi forum.

In tal caso, potresti (se lo volessi, non sto raccomandando una soluzione specifica) creare facilmente un tag canonical nei tuoi vecchi forum che punti ai nuovi forum Discourse, se lo ritieni opportuno (in base alle tue esigenze SEO e a come preferisci gestire la situazione).

Alcune persone preferiscono reindirizzare le pagine dei vecchi forum con un 301. Sta tutto a te e a come preferisci gestire la cosa! Tieni presente che, se desideri effettuare un reindirizzamento 301, avrai comunque bisogno delle mappature tra gli ID dei topic (e dei post) di Discourse e gli ID dei topic e dei post dei tuoi vecchi forum.

Spero che questo breve seguito ti sia utile, @kirupa.

I migliori auguri e buon divertimento!