Ciao,
sto importando un vecchio e grande forum sull’unicycling.
Le vecchie categorie non erano delle migliori e molte cose diverse erano mescolate insieme.
Quindi, sto riorganizzando le categorie.
Inizialmente, pensavo di ricategorizzare manualmente le ultime centinaia di discussioni e lasciare quelle vecchie così come sono.
L’idea sarebbe quella di puntare al futuro, non al passato. Non importa molto se le discussioni vecchie sono mal categorizzate; l’importante è che siano ancora disponibili.
Ma mi chiedo se ricategorizzare le discussioni automaticamente, cercando parole chiave, possa effettivamente fare un buon lavoro.
Attualmente, la stragrande maggioranza delle nostre discussioni -più della metà del totale!- si trova in una singola categoria (
).
Potrei cercare queste parole chiave nei titoli: “learn”, “learning”, “train”, “training”, “posture”, ecc… e mettere tutte queste discussioni nella categoria #riding-advice.
Lo stesso potrebbe valere per “frame”, “wheel”, “tire”, “saddle”, ecc… che andrebbero nella categoria #unicycles-and-equipments.
Mi concentrerò sulle parole racchiuse da spazi e cercherò di anticipare le espressioni composte, evitando un po’ di “falsi positivi”. Esempio: “wheelwalking” è un trucco sull’unicycling che probabilmente dovrebbe trovarsi in #riding-advice, quindi se cerco solo “wheel” senza pensarci troppo, ci saranno falsi positivi che avrebbero potuto essere facilmente evitati (detto questo, potrei spostare le discussioni con “wheel” da A a B, e poi spostare quelle con “wheelwalking” da B a C…).
Qualcuno qui ha mai fatto una cosa del genere? Avete suggerimenti o idee per minimizzare il rischio di “falsi positivi”? Ci sono cose ovvie (o meno) che devo sapere prima di farlo?
Circa 70.000 discussioni devono essere esaminate.