Hallo,
ich importiere ein altes und großes Forum über Einradfahren.
Die alten Kategorien waren nicht die besten, und viele verschiedene Themen waren durcheinander gemischt.
Deshalb organisiere ich die Kategorien neu.
Anfangs wollte ich die neuesten paar hundert Themen manuell neu kategorisieren und die alten so lassen, wie sie sind.
Die Idee wäre, auf die Zukunft und nicht auf die Vergangenheit ausgerichtet zu sein. Es ist nicht so wichtig, ob alte Themen schlecht kategorisiert sind; das Wichtigste ist, dass sie weiterhin verfügbar sind.
Aber ich frage mich, ob eine automatische Neu-Kategorisierung von Themen durch Zielen auf Schlüsselwörter tatsächlich gut funktionieren könnte.
Derzeit befinden sich die überwiegende Mehrheit unserer Themen – mehr als die Hälfte der Gesamtzahl! – in einer einzigen Kategorie (
).
Ich könnte diese Schlüsselwörter in den Titeln ansprechen: „lernen“, „Training“, „Training“, „Haltung“ usw. … und all diese Themen in eine Kategorie #riding-advice verschieben.
Dasselbe ließe sich mit „Rahmen“, „Rad“, „Reifen“, „Sattel“ usw. machen. Diese würden dann in #unicycles-and-equipments landen.
Ich werde nach Wörtern suchen, die von Leerzeichen umgeben sind, und versuchen, mehrwortige Ausdrücke zu antizipieren und etwas vor „falschen Positiven“ zu warnen. Beispiel: „Wheelwalking“ ist ein Einradtrick, der wahrscheinlich in #riding-advice zu finden sein sollte. Wenn ich also nur „Rad“ ohne Nachdenken anspreche, gibt es falsche Positivfälle, die leicht hätten vermieden werden können (ich könnte zwar Themen mit „Rad“ von A nach B verschieben und dann Themen mit „Wheelwalking“ von B nach C verschieben …).
Hat hier jemand so etwas gemacht? Habt ihr Vorschläge oder Ideen, um das Risiko von „falschen Positiven“ zu minimieren? Gibt es offensichtliche (oder nicht offensichtliche) Dinge, die ich vorab wissen muss?
Es müssen etwa 70.000 Themen betrachtet werden.