robots.txt malformato causa problemi di indicizzazione

Ciao a tutti,

Abbiamo appena notato che il nostro forum Discourse non è indicizzato da Google (ricordiamo che lo era circa un anno fa) e stiamo cercando di risolvere il problema immediatamente. Quali configurazioni dobbiamo assicurarci siano impostate correttamente?

Questo è quanto ho fatto finora:

  1. Ho assicurato che “consenti indicizzazione in robots.txt” sia selezionato

  2. Ho aggiunto i seguenti domini a “escludi domini con rel nofollow”:

    • grakn.ai (il dominio del nostro sito principale)
    • discuss.grakn.ai (il dominio del nostro forum Discourse)
  3. Ho assicurato che “aggiungi rel nofollow ai contenuti degli utenti” sia deselezionato

  4. Ho aggiunto Googlebot a “user agent dei crawler nella whitelist”

Sto dimenticando qualche altra configurazione da impostare?

La nostra Google Search Console indica che discuss.grakn.ai potrebbe ancora non essere crawlerizzato perché bloccato da robots.txt – vedi screenshot sotto.

Grazie in anticipo per l’aiuto!!!

Admin → Impostazioni → Abilita Robots.txt

Il file Robots del tuo forum è accessibile all’indirizzo: https://discuss.grakn.ai/robots.txt

Accedi a Google Webmaster Tools e verifica: https://www.google.com/webmasters/tools/robots-testing-tool

Con le impostazioni predefinite, funziona perfettamente. Hai modificato queste impostazioni durante l’installazione originale?

Il file robots.txt contiene questo testo a metà, quindi potrebbe avere problemi con i crawler:

User-agent: *
Disallow: /
Noindex: /

Tuttavia, Google sta indicizzando le pagine:

Potrebbe essere che Googlebot stia esaminando le tue regole specifiche per Google e che Webmaster Tools ti stia avvisando riguardo al carattere jolly.

(Non sono sicuro di quali impostazioni generino quell’output di robots.txt.)

Sì.

  1. Accedi a: https://discuss.grakn.ai/admin/customize/robots

  2. Rimuovi:

    User-agent: *
    Disallow: /
    Noindex: /

  3. Vai su Google Webmaster Tools: https://www.google.com/webmasters/tools/robots-testing-tool

Scegli una proprietà verificata e invia di nuovo il file robots.txt a Google.

Credo che dovrebbe funzionare.

Infine, la rimozione del seguente blocco ha risolto il problema.

User-agent: *
Disallow: /
Noindex: /

Grazie mille, @j127 e @tohaitrieu!!!

Google Search Console ora mostra che discuss.grakn.ai è in coda per l’indicizzazione.

Saluti!

Non sono molto chiaro su come si sia arrivati a questo stato. Hai modificato le impostazioni predefinite del sito relative alla scansione?

Anch’io non sono chiaro su come siamo arrivati allo stato sopra, @codinghorror. Sono l’amministratore del sito da un anno e non ho modificato nulla relativo alle cose sopra. Ricordo di non aver eseguito un aggiornamento da molto tempo, e poi ne ho fatto uno poco prima che iniziasse a verificarsi il problema sopra, ma non so se sia correlato.