Ich sehe mich potenziell mit diesem Limit konfrontiert, wenn ich beobachtete Wörter verwende, um wiederkehrenden Spam zu bekämpfen, und hatte einige Gedanken dazu, was in Zukunft für andere nützlich sein könnte, wenn nicht für den OP.
Eine Möglichkeit, dies ohne Codeänderung zu lösen, besteht darin, zu Using Regex with Watched Words zu wechseln und viele Wörter zu einem einzigen Regex zu kombinieren. Es ist leicht, Fehler zu machen, wenn man mit regulären Ausdrücken nicht vertraut ist, aber es ist technisch machbar. (Dies ist die Richtung, die ich wahrscheinlich einschlagen werde, weil ich reguläre Ausdrücke kenne.)
Zusätzlich würde ich erwarten, dass es hier zwei Möglichkeiten gibt, ein Plugin zu schreiben.
Der Grund für das 2000er-Limit ist, dass der Algorithmus nicht sehr gut skaliert und synchron ausgeführt wird, aber es ist ein willkürliches Limit. Ich würde erwarten, dass ein einfaches Plugin das 2000-Wort-Limit per Monkey-Patching ändern könnte, um die Leistungseinbußen in Kauf zu nehmen. Aber ich würde das selbst nicht für 10000 Einträge tun!
Der andere, möglicherweise ergänzende Ansatz wäre, eine separate Liste speziell für die Kennzeichnung zu haben und dies asynchron von einem Sidekiq-Job aus durchzuführen, der für jede Beitragserstellung/-bearbeitung ausgelöst wird.