Die Spalte word_count von Post und Topic scheint direkt anhand der Anzahl der Leerzeichen berechnet zu werden, was für Sprachen wie Chinesisch, Japanisch und Koreanisch, die keine Leerzeichen verwenden, völlig ungeeignet ist.
Dies ist kein großes Problem, da word_count selten verwendet wird, aber ich bin auf Probleme bei AI summary backfill minimum word count gestoßen. Lange chinesische Beiträge werden herausgefiltert, aber kurze Beiträge mit gemischtem Chinesisch und Englisch (mit vielen Leerzeichen) werden zusammengefasst.
Ich denke, wir sollten einen Wortsegmentierer verwenden, der mehrere Sprachen unterstützt, oder einfach die Zeichenanzahl in etwas wie AI summary backfill minimum word count verwenden.
Zum Beispiel, wenn Sie die Wortanzahl dieses Beitrags im Daten-Explorer überprüfen, werden Sie feststellen, dass es nur eine gibt.
Dies ist eindeutig falsch und hat möglicherweise die Berechnung der Lesezeit des Benutzers beeinträchtigt, da read_time_word_count von der Wortanzahl abhängt.
Hmm, wenn wir bei unserer Pipeline clever sind, könnten wir cppjieba verwenden.
Dies würde erfordern, dass update_index! sich darum kümmert:
Die Zeichenanzahl ist jedoch wahrscheinlich das Einfachste, da das Lesen des Wortes bla weitaus schneller ist als das Lesen von supercalifragilisticexpialidocious.
Ich frage mich, ob Sie einen PR erstellen könnten, der so geändert wird, dass wir uns auf die Zeichenanzahl verlassen. Dann können wir die Zeichenanzahl durch 4 für Englisch und 2 für Chinesisch teilen? (über eine Einstellung)
@lindsey, das ist ein interessantes Thema für Sie.
Für Chinesisch ist die Zeichenanzahl die am häufigsten verwendete Methode zur Messung der Textlänge. Was die Implementierung betrifft, könnten wir einen regulären Ausdruck verwenden, um chinesische Zeichen zu filtern und sie dann direkt zu zählen. Dieser Ansatz ist effizient genug und entspricht den chinesischen Nutzungsgewohnheiten. Obwohl die Benennung als word_count anstelle von char_count etwas verwirrend erscheinen mag, könnten wir diesen Punkt möglicherweise in der Beschreibung der relevanten Einstellungen verdeutlichen.