Sdegaussa i vostri schermi, Discourse Rewind 2025 è arrivato 💾

Come viene calcolato l’uso delle parole? Da quello che vedo dai nostri utenti, sembra includere

  • titoli di argomenti e categorie per ogni post anche se l’argomento non è stato creato dall’utente. Un paio di utenti hanno “shenanigans”, “Dice” e “Mongerer” tra le loro prime 5. Queste sono categorie o thread che hanno tantissimi post ma le parole non sono così tanto usate nel contenuto dei thread o altrove.
  • titoli di emoji - L’utente aggiunge :musical_keyboard: a tutti i suoi post. Musical e Keyboard erano tra le loro prime 5 parole.
2 Mi Piace

Usiamo i nostri dati di ricerca per trovare i post di un utente, e quei dati finiscono con l’aggiunta del titolo e della categoria… e l’emoji viene probabilmente elaborata da :musical_keyboard: (il suo riferimento markdown) in “musical” e “keyboard”.

Penso che dovremmo fare un’elaborazione aggiuntiva o utilizzare una fonte diversa per i dati dei post per evitare questi problemi… il caso della categoria è probabilmente più probabile che si verifichi su siti in cui le persone creano molti post brevi (o post solo immagine) nella stessa categoria, perché in tal caso la categoria apparirebbe molto spesso rispetto ad altri contenuti del post.

1 Mi Piace

Sì, c’è qualcosa che non va in questi risultati di frequenza delle parole. Per me, “utile” è una delle 5 parole più insolite. Ma sembra che non abbia mai usato questa parola: ho cercato, ho ottenuto molti “risultati” di cui i primi tre non contengono nemmeno la parola, e la barra laterale di discobot annota:

Sembra che non ci sia alcun risultato diretto che corrisponda a " @Ed_S utile " nella ricerca.

C’è qualche stemming (troncamento) o fuzzy matching (corrispondenza approssimativa) troppo aggressivo in atto?

1 Mi Piace