Olá,
Estou importando um fórum antigo e grande sobre monociclismo.
As categorias antigas não eram as melhores, e muitas coisas diferentes estavam misturadas.
Então, estou reorganizando as categorias.
No início, pensei em recategorizar manualmente as últimas centenas de tópicos mais recentes e manter os antigos como estão.
A ideia seria focar no futuro, não no passado. Não importa tanto se os tópicos antigos estão mal categorizados; o mais importante é que eles continuem disponíveis.
Mas estou me perguntando se recategorizar tópicos automaticamente, mirando em palavras-chave, poderia, na verdade, fazer um bom trabalho.
Atualmente, a grande maioria dos nossos tópicos — mais da metade do total! — está em uma única categoria (
).
Poderia mirar nessas palavras-chave nos títulos: “aprender”, “aprendizado”, “treinar”, “treinamento”, “postura”, etc… e colocar todos esses tópicos na categoria #dicas-de-andar.
O mesmo poderia ser feito com “quadro”, “roda”, “pneu”, “sela”, etc… Isso iria para #monocicletas-e-equipamentos.
Vou mirar em palavras delimitadas por espaços e tentar antecipar expressões de várias palavras, evitando um pouco de “falsos positivos”. Exemplo: “wheelwalking” (andar de roda) é uma manobra de monociclista que provavelmente deveria ser encontrada em #dicas-de-andar, então, se eu mirar apenas em “roda” sem pensar muito, haverá falsos positivos que poderiam ter sido facilmente evitados (dito isso, poderia mover tópicos com “roda” de A para B e, em seguida, mover tópicos com “wheelwalking” de B para C…).
Alguém aqui já fez algo assim? Vocês têm sugestões ou ideias para minimizar o risco de “falsos positivos”? Existem coisas óbvias (ou não) que preciso saber antes de fazer isso?
Cerca de 70.000 tópicos precisam ser analisados.