Bonjour,
J’importe un ancien et vaste forum dédié à la monoculture.
Les anciennes catégories n’étaient pas optimales, et beaucoup de sujets divers étaient mélangés.
Je suis donc en train de réorganiser les catégories.
Au départ, je pensais re-catégoriser manuellement les quelques centaines de sujets les plus récents, et laisser les anciens tels quels.
L’idée était de viser l’avenir plutôt que le passé. Peu importe si les anciens sujets sont mal catégorisés, l’essentiel est qu’ils restent accessibles.
Mais je me demande si une re-catégorisation automatique basée sur des mots-clés pourrait en fait faire du bon travail.
Actuellement, la grande majorité de nos sujets — plus de la moitié au total ! — se trouvent dans une seule catégorie (
).
Je pourrais cibler dans les titres des mots-clés comme « apprendre », « apprentissage », « entraîner », « entraînement », « posture », etc., et placer tous ces sujets dans la catégorie #riding-advice (conseils de pratique).
De même, des termes comme « cadre », « roue », « pneu », « selle », etc., pourraient être regroupés dans #unicycles-and-equipments (monocycles et équipements).
Je vais cibler les mots entourés d’espaces et tenter d’anticiper les expressions à plusieurs mots pour limiter les « faux positifs ». Par exemple : « wheelwalking » est une figure de monocycle qui devrait probablement se retrouver dans #riding-advice. Si je cible uniquement « wheel » sans y réfléchir, il y aura des faux positifs que j’aurais pu facilement éviter (bien que je puisse ensuite déplacer les sujets contenant « wheel » de A vers B, puis ceux contenant « wheelwalking » de B vers C…).
Quelqu’un ici a-t-il déjà fait quelque chose de similaire ? Avez-vous des suggestions ou des idées pour minimiser le risque de « faux positifs » ? Y a-t-il des éléments évidents (ou non) que je dois connaître avant de me lancer ?
Il faut examiner environ 70 000 sujets.