Migliora il calcolo di word_count per i post CJK, o usa char count

La colonna word_count di Post e Topic sembra essere calcolata direttamente utilizzando il numero di spazi, il che è del tutto inappropriato per lingue come cinese, giapponese e coreano che non utilizzano spazi.

Questo non è un grosso problema perché word_count è raramente utilizzato, ma ho riscontrato problemi in AI summary backfill minimum word count. I post cinesi lunghi verranno filtrati, ma i post brevi con un mix di cinese e inglese (con molti spazi) verranno riassunti.

Penso che dovremmo usare un segmentatore di parole che supporti più lingue, o semplicemente usare il conteggio dei caratteri in qualcosa come AI summary backfill minimum word count.

2 Mi Piace

Ad esempio, se si controlla il numero di parole di questo post nell’Esplora dati, si scoprirà che ce n’è solo uno.

Ad esempio, se si controlla il numero di parole di questo post in Data Explorer, si scoprirà che ce n’è solo uno

Questo è chiaramente sbagliato e potrebbe aver influito sul calcolo del tempo di lettura dell’utente, poiché read_time_word_count dipende dal numero di parole.

Hmm, se fossimo intelligenti riguardo alla nostra pipeline potremmo usare cppjieba.

Richiederebbe che update_index! si occupasse di questo:


Il conteggio dei caratteri è probabilmente la cosa più semplice, dato che leggere la parola bla è molto più veloce che leggere supercalifragilisticexpialidocious

Mi chiedo se puoi fare una PR che cambi in modo da basarci sul conteggio dei caratteri, quindi possiamo dividere il conteggio dei caratteri per 4, diciamo per l’inglese e per 2 per il cinese? (tramite qualche impostazione)

@lindsey questo è un argomento interessante per te.

1 Mi Piace

Per il cinese, il conteggio dei caratteri è il metodo più comunemente utilizzato per misurare la lunghezza del testo. In termini di implementazione, potremmo utilizzare un’espressione regolare per filtrare i caratteri cinesi e quindi contarli direttamente. Questo approccio è sufficientemente efficiente e in linea con le abitudini d’uso cinesi. Sebbene chiamarlo word_count invece di char_count possa sembrare un po’ confusionario, forse potremmo chiarire questo punto nella descrizione delle impostazioni pertinenti.

1 Mi Piace