Привет,
Я импортирую старый и большой форум о езде на моноколесе.
Старые категории были не очень удачными, и множество разных тем были смешаны вместе.
Поэтому я занимаюсь реорганизацией категорий.
Сначала я думал вручную перекатегоризировать последние несколько сотен тем, а старые оставить как есть.
Идея в том, чтобы ориентироваться на будущее, а не на прошлое. Не так важно, если старые темы плохо категоризированы, главное, что они всё ещё доступны.
Но я задумался, не сможет ли автоматическая перекатегоризация тем по ключевым словам в действительности сделать хорошую работу.
В настоящее время подавляющее большинство наших тем — более половины от общего числа! — находится в одной категории (
).
Я мог бы искать в заголовках такие ключевые слова, как «learn» (учиться), «learning» (обучение), «train» (тренироваться), «training» (тренировка), «posture» (поза) и т. д. и помещать все эти темы в категорию #riding-advice.
То же самое можно сделать с «frame» (рама), «wheel» (колесо), «tire» (шина), «saddle» (седло) и т. д. — это попадёт в категорию #unicycles-and-equipments.
Я буду искать слова, отделённые пробелами, и постараюсь учесть многословные выражения, чтобы немного снизить количество «ложных срабатываний». Например: «wheelwalking» — это трюк на моноколесе, который, вероятно, должен находиться в категории #riding-advice. Поэтому, если я буду искать только «wheel» без должной осторожности, возникнут ложные срабатывания, которых можно было бы легко избежать (хотя, в принципе, я мог бы сначала переместить темы со словом «wheel» из категории А в категорию Б, а затем переместить темы со словом «wheelwalking» из категории Б в категорию В…).
Кто-нибудь из вас уже делал что-то подобное? Есть ли у вас предложения или идеи, как минимизировать риск «ложных срабатываний»? Есть ли очевидные (или неочевидные) вещи, которые мне нужно знать перед тем, как приступать к этому?
Придётся просмотреть около 70 000 тем.