Problemi che Google Search Console mi segnala per una struttura di discorso errata (o per una cattiva gestione del mio sito)

Bathinda · 17 Dicembre 2024, 9:22am

Dopo il superamento dell’isteria iniziale (che può sopraffare una persona che scopre che negli ultimi quasi sei mesi, Google non ha prestato alcuna attenzione al suo sito web e lui non lo sapeva nemmeno!!),
proverò a elencare qui solo le cause relative al codice di Discourse, cioè quelle che non possono essere risolte né da Google, né da me (per quanto ne so), ma dal team di Discourse.

Bloccato da Robots.txt:

image396×173 7.54 KB
Errore del server 5xx

Una notifica via email da Google Search Console riguardo a pagine indicizzate a causa di un errore del server. (Didascalia dell'IA)378×352 14.9 KB
Contenuto più largo dello schermo e Elementi cliccabili troppo vicini per essere cliccati (su schermo mobile)

Una notifica via email che avvisa di nuovi problemi di usabilità mobile rilevati per un sito web, con raccomandazioni per risolvere i problemi al fine di garantire la migliore esperienza e copertura nella Ricerca Google. (Didascalia dell'IA)398×538 27.1 KB
Problemi con i dati strutturati del forum di discussione:

image385×244 12.9 KB
Problemi di indicizzazione video, ma nessun altro dettaglio:

Nell'immagine viene mostrata una notifica relativa a problemi di indicizzazione video su un sito web. (Didascalia dell'IA)376×512 25.1 KB

Quando si fa clic su ‘Report di indicizzazione video’:

E quando si fa clic sul link ‘Miglioramenti > Video’:

Per favore, aiutami.

Bathinda · 17 Dicembre 2024, 10:49am

In precedenza, quando ho riscontrato il problema (tutto questo può essere saltato)::

Dopo diversi mesi di perdita di utenti, oggi ho scoperto che il mio sito è stato bloccato/vietato da Google!!!

Ancora prima, come ho scoperto questo problema, tutto può essere saltato:

Ho letto quasi tutto il topic di meta prima di chiedere.

Nell’agosto 2024, ho notato che il traffico verso il mio sito web si era ridotto fino al 95%. Ma l’ho ignorato pensando che forse non stavo postando abbastanza.

Ma oggi ho scoperto che, indipendentemente dal termine che cercassi su Google, limitando la ricerca solo al mio sito: ***site:BathindaHelper.com jobs in bathinda***, non dava alcun risultato (l’unico risultato che mostra dal mio sito è in realtà solo un suggerimento che crei annunci Google per mostrare questo risultato dal mio sito, il che indica che il mio sito è stato effettivamente indicizzato):

E infine ho anche controllato Google Analytics (forse rinominato in Google Events) e mostra chiaramente che dal 17 giugno 2024 Google non sta più inviando traffico al mio sito.

Jagster · 17 Dicembre 2024, 11:58am

Quando hai creato il tuo sito, hai utilizzato il login forzato o hai smesso di mostrare argomenti TL0+? Google può utilizzare un sito solo se è visibile al mondo. Oppure hai bloccato gli user agent di Google.

È lo stesso forum in cui hai avuto problemi di DNS?

Moin · 17 Dicembre 2024, 12:02pm

Chiedi a causa di Site does not appear in google searches - #2 by Bathinda? Penso che la risposta seguente stia rispondendo alla domanda dell’OP.

Bathinda · 17 Dicembre 2024, 12:05pm

Ho usato erroneamente la parola ‘force’. (Intendevo dire che stavo forzando la ricerca di Google a produrre risultati di ricerca dal mio sito BathindaHelper.com)

Non ho creato il mio sito con metodi anomali/forzati.
Non ho manomesso deliberatamente nulla relativo a TL0+ o simili.
Nell’ultima mezz’ora, ho scoperto che (tra alcuni altri piccoli problemi) in qualche modo il mio file robots.txt è il colpevole, ma non sono ancora riuscito a capire come risolvere questo problema.
Non ricordo di aver avuto problemi DNS (stai parlando di un passato troppo lontano?). Il mio sito funziona bene, tranne per il fatto che quando io/l’amministratore aggiorno forzatamente il mio browser, a volte ci vogliono quasi 30-50 secondi per aprirsi, ma dopo funziona bene.

Grazie per la risposta.

Modifica:
Ho ‘deselezionato’ l’opzione del file robots:

ma non posso dire se la console di ricerca di Google ora riporta che tutto va bene o meno:

Jagster · 17 Dicembre 2024, 12:12pm

Sì, ho mancato completamente l’ordine. E ora abbiamo una dimostrazione di cosa può succedere quando

si rispondono vecchi argomenti
si va fuori tema
un utente non legge gli argomenti

Sì, colpa mia.

Jagster · 17 Dicembre 2024, 12:24pm

Controlla queste impostazioni:

allowed crawler user agents
blocked crawler user agents

Ma per quanto ne so, Discourse non ha un file robots.txt semplice di per sé come la maggior parte dei siti, ma è fatto da una strana cosa ruby e non ci sono molte impostazioni che un amministratore può regolare. Tranne quelle due impostazioni e il rallentamento dei bot.

Ero solo io e le mie dita veloci

Moin · 17 Dicembre 2024, 12:34pm

Hai disabilitato questa opzione ora o prima che l’indicizzazione si interrompesse?

Specifica in robots.txt che questo sito è consentito per l’indicizzazione da parte dei motori di ricerca web.

Se non permetti ai motori di ricerca di indicizzare il tuo sito, non mi sorprende che non lo facciano.

Bathinda · 17 Dicembre 2024, 1:45pm

Lo farei e ti farei sapere.

Ho disabilitato questa opzione dopo aver aperto questo topic (circa 30 minuti fa). Questo problema persiste da 3 mesi. Tuttavia, non sono stato in grado di verificare autonomamente se questa “deselezione” abbia risolto il problema di “Indicizzazione di Google” o meno.

Dubito che se non disabilito/blocco i siti tramite Robots.txt, allora TUTTI I SITI SONO PERMESSI? O è il contrario, che se non ABILITO i siti tramite Robots.txt, allora tutti i siti sono BLOCCATI dall’indicizzazione?

Jagster · 17 Dicembre 2024, 1:49pm

Me ne sono completamente dimenticato. Dovresti selezionarla. Se non la usi, devi controllare e modificare manualmente robots.txt per assicurarti che guidi i bot come desideri.

Ma puoi dare un’occhiata se trovi qualcosa che potrebbe bloccare Google.

Bathinda · 17 Dicembre 2024, 1:54pm

Ok.
Ciò significa che tutti gli utenti di Discourse (normalmente) dovrebbero specificare/fornire un file ‘Robots.txt’.
E quindi, leggerò in dettaglio l’argomento relativo a questo (come e cosa dovrebbe esserci in questo file) domani.

Secondo, se non è troppo complicato da spiegare, puoi dirmi un modo semplice con cui potrei modificare alcune impostazioni nel mio pannello di amministrazione di Discourse e allo stesso tempo verificare in tempo reale se Google è ora in grado di accedere (e quindi indicizzare) il mio sito liberamente o se sta ancora ricevendo l’errore ‘Accesso negato - 403’?!

Modifica: Anche se cercherò io stesso risorse simili su Google ora/più tardi.

Jagster · 17 Dicembre 2024, 1:57pm

Beh, no. Significa che normalmente gli amministratori mantengono robots.txt abilitato per evitare manomissioni manuali Ma certo, l’elenco dei bot bloccati ecc. sono ciò che un amministratore vuole modificare.

nat · 18 Dicembre 2024, 9:38am

Puoi verificare qual è la tua impostazione per blocked_crawler_user_agents?

Bathinda · 18 Dicembre 2024, 11:06am

Questa impostazione è come segue (non ho cambiato nulla):

Uno screenshot che mostra una pagina delle impostazioni con opzioni per bloccare e rallentare specifici user agent dei crawler. (Didascalia dell'IA)808×252 20.9 KB
Qui ho scritto questi due domini google e google.com ieri, come esperimento, non so se questo abbia la priorità su ‘Blocked Crawler User Agents’ o meno. O se questo abbia risolto il mio problema o meno (perché google dice che ha messo in coda la mia richiesta di crawling/indicizzazione, il che potrebbe richiedere fino a 2-3 giorni):

L'immagine è uno screenshot di una pagina delle impostazioni con opzioni per user agent dei crawler consentiti e bloccati, con funzionalità di ricerca o creazione. (Didascalia dell'IA)755×163 6.2 KB
E puoi trovare il mio 'Robots.txt’ qui.

Per favore, dimmi quale ha la priorità se tutti e 3 hanno impostazioni contrastanti.

Firepup650 · 18 Dicembre 2024, 11:42am

Ciò non dovrebbe avere alcun effetto, poiché Google utilizza “Googlebot” e variazioni di esso per il crawling:

Bathinda · 18 Dicembre 2024, 11:49am

Infatti ha avuto l’effetto principale!!

Grazie a tutti, un grande grazie per avermi aiutato a risolvere il problema principale, utilizzando questa impostazione:

Ma per molti altri (piccoli) problemi che interessano l’indicizzazione di Google, spiegati da me nel primo post di questo stesso argomento meta, vorrei mantenere aperto l’argomento.

Inoltre, sarei obbligato se qualcuno potesse dirmi cosa succede se ho bloccato Crawler-1 di un sito sotto blocked Crawler User Agents e allo stesso tempo lo consento sotto Allowed Crawler User Agents.
E cosa succede se l’ho consentito sotto Allowed... ma bloccato tramite Robots.txt. Cosa ha la priorità.

Jagster · 18 Dicembre 2024, 12:20pm

Devi rimuovere compatible. Blocca praticamente tutto, incluso googlebot. Per questo motivo:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

E bloccare facebook non è una buona idea, se condividi argomenti su Facebook.

Tutto ciò che usi nella blocklist, blocca tutti i bot che hanno quella parola nella loro stringa user agent. Quindi, fai attenzione.

Bathinda · 18 Dicembre 2024, 12:24pm

Oh, forse è per questo che ricevo ancora un errore quando tento di eseguire la scansione/indicizzare qualsiasi argomento (eccetto la home page) tramite Google Search Console:

Ma perché (anche quando compatible era bloccato) solo la home page è disponibile per Google Search Console, come mostrato di seguito:

Ho appena rimosso ‘Compatible’ e vi farò sapere.

Bathinda · 18 Dicembre 2024, 12:41pm

Finalmente!!! Sembra di aver superato l’errore ‘forbidden’ per la pagina principale/home e per gli argomenti individuali, con il 90% di aiuto da parte vostra e il 10% di esperimenti da parte mia. Un grande grazie.

Dopo aver rimosso ‘Compatible’ dalla lista ‘Blocked Crawlers’, ho trovato una nota sotto un’altra impostazione, che, stupidamente da parte mia, ho ignorato, chiedeva essenzialmente agli utenti di non inserire alcun valore in ‘Allowed Crawler User Agents’ a meno che non si sia abbastanza sicuri di ciò che si sta facendo. Quindi era qui! Ignorare l’avviso scritto in maiuscolo mi ha causato così tanti mesi di Google che ignorava il mio sito e così tanti problemi:

Per chiunque arrivi a questo argomento per l’errore Access Forbidden-403 in Google Search Console:

Principalmente 2 cose hanno risolto i miei problemi, una la rimozione di ‘Compatible’ dalla ‘Blocked Crawlers List’ e
Svuotare (come è per impostazione predefinita) l’impostazione ‘Allowed User Crawler Agents’.

L’argomento rimarrà aperto per altri problemi di G Search (sebbene non così critici come questo).

Argomento		Risposte	Visualizzazioni
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5270	Giugno 1, 2024
Needing to edit robots.txt file - where is it? Support	42	7574	Aprile 29, 2023
Google complaining – Indexed, though blocked by robots.txt Support	24	2496	Settembre 28, 2023
Malformed robots.txt causing issues with indexing Support	9	1848	Aprile 21, 2023
Sitelinks in Google disappearing Community	26	1430	Gennaio 27, 2023

Problemi che Google Search Console mi segnala per una struttura di discorso errata (o per una cattiva gestione del mio sito)

In precedenza, quando ho riscontrato il problema (tutto questo può essere saltato)::

Ancora prima, come ho scoperto questo problema, tutto può essere saltato:

Per chiunque arrivi a questo argomento per l’errore Access Forbidden-403 in Google Search Console:

Argomenti correlati