Dopo il superamento dell’isteria iniziale (che può sopraffare una persona che scopre che negli ultimi quasi sei mesi, Google non ha prestato alcuna attenzione al suo sito web e lui non lo sapeva nemmeno!!),
proverò a elencare qui solo le cause relative al codice di Discourse, cioè quelle che non possono essere risolte né da Google, né da me (per quanto ne so), ma dal team di Discourse.
Ancora prima, come ho scoperto questo problema, tutto può essere saltato:
Ho letto quasi tutto il topic di meta prima di chiedere.
Nell’agosto 2024, ho notato che il traffico verso il mio sito web si era ridotto fino al 95%. Ma l’ho ignorato pensando che forse non stavo postando abbastanza.
Ma oggi ho scoperto che, indipendentemente dal termine che cercassi su Google, limitando la ricerca solo al mio sito: ***site:BathindaHelper.com jobs in bathinda***, non dava alcun risultato (l’unico risultato che mostra dal mio sito è in realtà solo un suggerimento che crei annunci Google per mostrare questo risultato dal mio sito, il che indica che il mio sito è stato effettivamente indicizzato):
E infine ho anche controllato Google Analytics (forse rinominato in Google Events) e mostra chiaramente che dal 17 giugno 2024 Google non sta più inviando traffico al mio sito.
Quando hai creato il tuo sito, hai utilizzato il login forzato o hai smesso di mostrare argomenti TL0+? Google può utilizzare un sito solo se è visibile al mondo. Oppure hai bloccato gli user agent di Google.
È lo stesso forum in cui hai avuto problemi di DNS?
Ho usato erroneamente la parola ‘force’. (Intendevo dire che stavo forzando la ricerca di Google a produrre risultati di ricerca dal mio sito BathindaHelper.com)
Non ho creato il mio sito con metodi anomali/forzati.
Non ho manomesso deliberatamente nulla relativo a TL0+ o simili.
Nell’ultima mezz’ora, ho scoperto che (tra alcuni altri piccoli problemi) in qualche modo il mio file robots.txt è il colpevole, ma non sono ancora riuscito a capire come risolvere questo problema.
Non ricordo di aver avuto problemi DNS (stai parlando di un passato troppo lontano?). Il mio sito funziona bene, tranne per il fatto che quando io/l’amministratore aggiorno forzatamente il mio browser, a volte ci vogliono quasi 30-50 secondi per aprirsi, ma dopo funziona bene.
Grazie per la risposta.
Modifica:
Ho ‘deselezionato’ l’opzione del file robots:
Ma per quanto ne so, Discourse non ha un file robots.txt semplice di per sé come la maggior parte dei siti, ma è fatto da una strana cosa ruby e non ci sono molte impostazioni che un amministratore può regolare. Tranne quelle due impostazioni e il rallentamento dei bot.
Ho disabilitato questa opzione dopo aver aperto questo topic (circa 30 minuti fa). Questo problema persiste da 3 mesi. Tuttavia, non sono stato in grado di verificare autonomamente se questa “deselezione” abbia risolto il problema di “Indicizzazione di Google” o meno.
Dubito che se non disabilito/blocco i siti tramite Robots.txt, allora TUTTI I SITI SONO PERMESSI? O è il contrario, che se non ABILITO i siti tramite Robots.txt, allora tutti i siti sono BLOCCATI dall’indicizzazione?
Me ne sono completamente dimenticato. Dovresti selezionarla. Se non la usi, devi controllare e modificare manualmente robots.txt per assicurarti che guidi i bot come desideri.
Ma puoi dare un’occhiata se trovi qualcosa che potrebbe bloccare Google.
Ok.
Ciò significa che tutti gli utenti di Discourse (normalmente) dovrebbero specificare/fornire un file ‘Robots.txt’.
E quindi, leggerò in dettaglio l’argomento relativo a questo (come e cosa dovrebbe esserci in questo file) domani.
Secondo, se non è troppo complicato da spiegare, puoi dirmi un modo semplice con cui potrei modificare alcune impostazioni nel mio pannello di amministrazione di Discourse e allo stesso tempo verificare in tempo reale se Google è ora in grado di accedere (e quindi indicizzare) il mio sito liberamente o se sta ancora ricevendo l’errore ‘Accesso negato - 403’?!
Modifica: Anche se cercherò io stesso risorse simili su Google ora/più tardi.
Beh, no. Significa che normalmente gli amministratori mantengono robots.txt abilitato per evitare manomissioni manuali Ma certo, l’elenco dei bot bloccati ecc. sono ciò che un amministratore vuole modificare.
Qui ho scritto questi due domini google e google.com ieri, come esperimento, non so se questo abbia la priorità su ‘Blocked Crawler User Agents’ o meno. O se questo abbia risolto il mio problema o meno (perché google dice che ha messo in coda la mia richiesta di crawling/indicizzazione, il che potrebbe richiedere fino a 2-3 giorni):
Ma per molti altri (piccoli) problemi che interessano l’indicizzazione di Google, spiegati da me nel primo post di questo stesso argomento meta, vorrei mantenere aperto l’argomento.
Inoltre, sarei obbligato se qualcuno potesse dirmi cosa succede se ho bloccato Crawler-1 di un sito sotto blocked Crawler User Agents e allo stesso tempo lo consento sotto Allowed Crawler User Agents.
E cosa succede se l’ho consentito sotto Allowed... ma bloccato tramite Robots.txt. Cosa ha la priorità.
Oh, forse è per questo che ricevo ancora un errore quando tento di eseguire la scansione/indicizzare qualsiasi argomento (eccetto la home page) tramite Google Search Console:
Finalmente!!! Sembra di aver superato l’errore ‘forbidden’ per la pagina principale/home e per gli argomenti individuali, con il 90% di aiuto da parte vostra e il 10% di esperimenti da parte mia. Un grande grazie.
Dopo aver rimosso ‘Compatible’ dalla lista ‘Blocked Crawlers’, ho trovato una nota sotto un’altra impostazione, che, stupidamente da parte mia, ho ignorato, chiedeva essenzialmente agli utenti di non inserire alcun valore in ‘Allowed Crawler User Agents’ a meno che non si sia abbastanza sicuri di ciò che si sta facendo. Quindi era qui! Ignorare l’avviso scritto in maiuscolo mi ha causato così tanti mesi di Google che ignorava il mio sito e così tanti problemi: