Problemi che Google Search Console mi segnala per una struttura di discorso errata (o per una cattiva gestione del mio sito)

Dopo il superamento dell’isteria iniziale (che può sopraffare una persona che scopre che negli ultimi quasi sei mesi, Google non ha prestato alcuna attenzione al suo sito web e lui non lo sapeva nemmeno!!),
proverò a elencare qui solo le cause relative al codice di Discourse, cioè quelle che non possono essere risolte né da Google, né da me (per quanto ne so), ma dal team di Discourse.

Quando si fa clic su ‘Report di indicizzazione video’:

E quando si fa clic sul link ‘Miglioramenti > Video’:

Per favore, aiutami.

In precedenza, quando ho riscontrato il problema (tutto questo può essere saltato)::

Dopo diversi mesi di perdita di utenti, oggi ho scoperto che il mio sito è stato bloccato/vietato da Google!!!

Ancora prima, come ho scoperto questo problema, tutto può essere saltato:

Ho letto quasi tutto il topic di meta prima di chiedere.

Nell’agosto 2024, ho notato che il traffico verso il mio sito web si era ridotto fino al 95%. Ma l’ho ignorato pensando che forse non stavo postando abbastanza.

Ma oggi ho scoperto che, indipendentemente dal termine che cercassi su Google, limitando la ricerca solo al mio sito: ***site:BathindaHelper.com jobs in bathinda***, non dava alcun risultato (l’unico risultato che mostra dal mio sito è in realtà solo un suggerimento che crei annunci Google per mostrare questo risultato dal mio sito, il che indica che il mio sito è stato effettivamente indicizzato):


E infine ho anche controllato Google Analytics (forse rinominato in Google Events) e mostra chiaramente che dal 17 giugno 2024 Google non sta più inviando traffico al mio sito.

Quando hai creato il tuo sito, hai utilizzato il login forzato o hai smesso di mostrare argomenti TL0+? Google può utilizzare un sito solo se è visibile al mondo. Oppure hai bloccato gli user agent di Google.

È lo stesso forum in cui hai avuto problemi di DNS?

2 Mi Piace

Chiedi a causa di Site does not appear in google searches - #2 by Bathinda? Penso che la risposta seguente stia rispondendo alla domanda dell’OP.

1 Mi Piace

Ho usato erroneamente la parola ‘force’. (Intendevo dire che stavo forzando la ricerca di Google a produrre risultati di ricerca dal mio sito BathindaHelper.com)

  • Non ho creato il mio sito con metodi anomali/forzati.
  • Non ho manomesso deliberatamente nulla relativo a TL0+ o simili.
  • Nell’ultima mezz’ora, ho scoperto che (tra alcuni altri piccoli problemi) in qualche modo il mio file robots.txt è il colpevole, ma non sono ancora riuscito a capire come risolvere questo problema.
  • Non ricordo di aver avuto problemi DNS (stai parlando di un passato troppo lontano?). Il mio sito funziona bene, tranne per il fatto che quando io/l’amministratore aggiorno forzatamente il mio browser, a volte ci vogliono quasi 30-50 secondi per aprirsi, ma dopo funziona bene.

Grazie per la risposta.

Modifica:
Ho ‘deselezionato’ l’opzione del file robots:

ma non posso dire se la console di ricerca di Google ora riporta che tutto va bene o meno:

Sì, ho mancato completamente l’ordine. E ora abbiamo una dimostrazione di cosa può succedere quando

  • si rispondono vecchi argomenti
  • si va fuori tema
  • un utente non legge gli argomenti :joy:

Sì, colpa mia.

2 Mi Piace

Controlla queste impostazioni:

  • allowed crawler user agents
  • blocked crawler user agents

Ma per quanto ne so, Discourse non ha un file robots.txt semplice di per sé come la maggior parte dei siti, ma è fatto da una strana cosa ruby e non ci sono molte impostazioni che un amministratore può regolare. Tranne quelle due impostazioni e il rallentamento dei bot.

Ero solo io e le mie dita veloci :man_facepalming:

1 Mi Piace

Hai disabilitato questa opzione ora o prima che l’indicizzazione si interrompesse?

Specifica in robots.txt che questo sito è consentito per l’indicizzazione da parte dei motori di ricerca web.

Se non permetti ai motori di ricerca di indicizzare il tuo sito, non mi sorprende che non lo facciano.

3 Mi Piace

Lo farei e ti farei sapere.

Ho disabilitato questa opzione dopo aver aperto questo topic (circa 30 minuti fa). Questo problema persiste da 3 mesi. Tuttavia, non sono stato in grado di verificare autonomamente se questa “deselezione” abbia risolto il problema di “Indicizzazione di Google” o meno.

Dubito che se non disabilito/blocco i siti tramite Robots.txt, allora TUTTI I SITI SONO PERMESSI? O è il contrario, che se non ABILITO i siti tramite Robots.txt, allora tutti i siti sono BLOCCATI dall’indicizzazione?

Me ne sono completamente dimenticato. Dovresti selezionarla. Se non la usi, devi controllare e modificare manualmente robots.txt per assicurarti che guidi i bot come desideri.

Ma puoi dare un’occhiata se trovi qualcosa che potrebbe bloccare Google.

1 Mi Piace

Ok.
Ciò significa che tutti gli utenti di Discourse (normalmente) dovrebbero specificare/fornire un file ‘Robots.txt’.
E quindi, leggerò in dettaglio l’argomento relativo a questo (come e cosa dovrebbe esserci in questo file) domani.

Secondo, se non è troppo complicato da spiegare, puoi dirmi un modo semplice con cui potrei modificare alcune impostazioni nel mio pannello di amministrazione di Discourse e allo stesso tempo verificare in tempo reale se Google è ora in grado di accedere (e quindi indicizzare) il mio sito liberamente o se sta ancora ricevendo l’errore ‘Accesso negato - 403’?!

Modifica: Anche se cercherò io stesso risorse simili su Google ora/più tardi.

Beh, no. Significa che normalmente gli amministratori mantengono robots.txt abilitato per evitare manomissioni manuali :wink: Ma certo, l’elenco dei bot bloccati ecc. sono ciò che un amministratore vuole modificare.

2 Mi Piace

Puoi verificare qual è la tua impostazione per blocked_crawler_user_agents?

1 Mi Piace
  1. Questa impostazione è come segue (non ho cambiato nulla):

  2. Qui ho scritto questi due domini google e google.com ieri, come esperimento, non so se questo abbia la priorità su ‘Blocked Crawler User Agents’ o meno. O se questo abbia risolto il mio problema o meno (perché google dice che ha messo in coda la mia richiesta di crawling/indicizzazione, il che potrebbe richiedere fino a 2-3 giorni):

  3. E puoi trovare il mio 'Robots.txt’ qui.

Per favore, dimmi quale ha la priorità se tutti e 3 hanno impostazioni contrastanti.

Ciò non dovrebbe avere alcun effetto, poiché Google utilizza “Googlebot” e variazioni di esso per il crawling:

3 Mi Piace

Infatti ha avuto l’effetto principale!!

Grazie a tutti, un grande grazie per avermi aiutato a risolvere il problema principale, utilizzando questa impostazione:

Ma per molti altri (piccoli) problemi che interessano l’indicizzazione di Google, spiegati da me nel primo post di questo stesso argomento meta, vorrei mantenere aperto l’argomento.

Inoltre, sarei obbligato se qualcuno potesse dirmi cosa succede se ho bloccato Crawler-1 di un sito sotto blocked Crawler User Agents e allo stesso tempo lo consento sotto Allowed Crawler User Agents.
E cosa succede se l’ho consentito sotto Allowed... ma bloccato tramite Robots.txt. Cosa ha la priorità.

Devi rimuovere compatible. Blocca praticamente tutto, incluso googlebot. Per questo motivo:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

E bloccare facebook non è una buona idea, se condividi argomenti su Facebook.

Tutto ciò che usi nella blocklist, blocca tutti i bot che hanno quella parola nella loro stringa user agent. Quindi, fai attenzione.

3 Mi Piace

Oh, forse è per questo che ricevo ancora un errore quando tento di eseguire la scansione/indicizzare qualsiasi argomento (eccetto la home page) tramite Google Search Console:

Ma perché (anche quando compatible era bloccato) solo la home page è disponibile per Google Search Console, come mostrato di seguito:

Ho appena rimosso ‘Compatible’ e vi farò sapere.

Finalmente!!! Sembra di aver superato l’errore ‘forbidden’ per la pagina principale/home e per gli argomenti individuali, con il 90% di aiuto da parte vostra e il 10% di esperimenti da parte mia. Un grande grazie.

Dopo aver rimosso ‘Compatible’ dalla lista ‘Blocked Crawlers’, ho trovato una nota sotto un’altra impostazione, che, stupidamente da parte mia, ho ignorato, chiedeva essenzialmente agli utenti di non inserire alcun valore in ‘Allowed Crawler User Agents’ a meno che non si sia abbastanza sicuri di ciò che si sta facendo. Quindi era qui! Ignorare l’avviso scritto in maiuscolo mi ha causato così tanti mesi di Google che ignorava il mio sito e così tanti problemi:


Per chiunque arrivi a questo argomento per l’errore Access Forbidden-403 in Google Search Console:

  • Principalmente 2 cose hanno risolto i miei problemi, una la rimozione di ‘Compatible’ dalla ‘Blocked Crawlers List’ e
  • Svuotare (come è per impostazione predefinita) l’impostazione ‘Allowed User Crawler Agents’.

L’argomento rimarrà aperto per altri problemi di G Search (sebbene non così critici come questo).

1 Mi Piace