La mia bacheca è stata collegata dal mio sito da un paio di settimane e ho inviato l’URL a Google. Ho ricevuto un avviso di ‘no index’, ma sembra riguardare le pagine dei profili, il che è positivo.
Eppure non appare ancora nulla su Google: c’è qualcosa che devo fare dal lato della bacheca, o è semplicemente una questione di aspettare che Google la scansioni?
Sembra che stia dicendo che le pagine dei post sono bloccate da robots.txt, ma non è qualcosa che ho fatto io. C’è un’impostazione in Discourse che devo modificare per sbloccarle? Grazie.
Sì, questo continua a ripetersi e continua a causare problemi di supporto.
Googlebot è un po’ fastidioso. Non puoi dirgli nel file robots.txt che non vuoi che qualcosa venga indicizzato. Stiamo lavorando a una soluzione per accontentare Googlebot, ma ci vorrà del tempo prima che venga implementata.
Diciamo a Googlebot nel file robots.txt: “Ehi… non andare a indicizzare tutte le pagine .rss del sito”
Googlebot trova da qualche parte un link a un file .rss sul sito
Googlebot poi si lamenta con gli amministratori del sito dicendo che c’è un file .rss sul sito, ma non riesce a capire cosa fare con il link perché non gli è permesso indicizzarlo. A volte include anche questo contenuto nei risultati di ricerca.
Gli amministratori del sito poi si lamentano su meta
La nostra soluzione generale qui è semplicemente permettere a Googlebot di scansionare ogni pagina del sito e utilizzare i link canonici e i suggerimenti di indicizzazione negli header HTTP per indirizzarlo verso la soluzione ottimale.
Sto lavorando con @jomaxro su questo e abbiamo già fatto buoni progressi.
Grazie per l’aggiornamento, Sam. Ha tutto il senso e capisco la tua situazione. Non sono un esperto di SEO, ma ho gestito siti web più grandi e ho lavorato con team di SEO; sui forum era spesso molto complicato!
Una pagina bloccata da robots.txt può comunque essere indicizzata se collegata da altri siti
Sebbene Google non scansioni né indicizzi il contenuto bloccato da robots.txt, potremmo comunque trovare e indicizzare un URL non consentito se è collegato da altre parti del web. Di conseguenza, l’indirizzo URL e, potenzialmente, altre informazioni pubblicamente disponibili come il testo di ancoraggio nei collegamenti alla pagina, possono comunque apparire nei risultati di ricerca di Google. Per impedire correttamente che il tuo URL appaia nei risultati di Ricerca Google, dovresti proteggere con password i file sul tuo server o utilizzare il meta tag noindex o l’intestazione di risposta (oppure rimuovere completamente la pagina).
Da tempo includiamo le pagine che non vogliamo indicizzate nel file robots.txt predefinito di ogni sito Discourse. In precedenza questo funzionava perfettamente. In un momento sconosciuto del passato ciò non è stato più sufficiente: Google ha deciso di indicizzare le pagine collegate da altre fonti, anche se disabilitate tramite robots.txt.
Importante! Affinché la direttiva noindex sia efficace, la pagina non deve essere bloccata da un file robots.txt. Se la pagina è bloccata da robots.txt, il crawler non vedrà mai la direttiva noindex e la pagina potrebbe comunque apparire nei risultati di ricerca, ad esempio se altre pagine la collegano.
Ciò ci porta a oggi. Stiamo testando la rimozione di alcune pagine da robots.txt. Dobbiamo fare attenzione, poiché stiamo apportando tutte queste modifiche sulla base della documentazione di Google, quindi sappiamo che siamo conformi a Googlebot, ma dobbiamo anche verificare gli altri principali crawler per assicurarci di non causare problemi.
Ciao Jeff, ha tutto senso per me e ho capito. Volevo solo verificare di non aver fatto qualcosa per nascondere le pagine dei thread dalla mia configurazione su Google? La pagina principale e le categorie appaiono su Google, ma nessuna delle pagine dei thread è indicizzata, sono passati alcuni mesi. Questo è il mio sito: https://community.jackwallington.com/
Credo che abbiamo apportato tutte le modifiche necessarie dal nostro lato per adattarci ai recenti cambiamenti nel comportamento di Google… forse @jomaxro può confermare? Dovresti essere sull’ultima versione di Discourse.
A meno che tu non abbia installato un plugin per aggiungerlo, non riesco a pensare a un modo in cui tale intestazione possa essere aggiunta. Google non ignora l’intestazione noindex. Google ignora robots.txt quando altri siti puntano alla tua pagina. Google lo rispetta invece durante la scansione, motivo per cui il commit sopra rimuove le voci di robots.txt a favore delle intestazioni noindex aggiunte in precedenza.
Ti suggerisco di registrarti a Google Search Console in modo da poter vedere direttamente cosa vede Google. Forse c’è un altro problema che impedisce l’indicizzazione degli argomenti.
Grazie, Joshua. Google Search Console sembra soddisfatta e indica che tutti i thread sono elencati. È molto strano: quando li cerco, le pagine dei thread non compaiono, ma quelle della home e delle categorie sì.
Google mantiene la sua regola speciale e noi distribuiamo una protezione migliore per vari bot meno sofisticati. Il file robots predefinito ora appare così: