Regeln für die Zahlenübereinstimmung in beobachteten Wörtern

Noble_Fish · 14. Februar 2026 um 15:47

Wie in der Abbildung unten gezeigt, sind die übereinstimmenden Wörter „Test“, „123“ und „测试“ (was auf vereinfachtem Chinesisch „Test“ bedeutet).

Wenn eine Übereinstimmung erfolgreich ist, wird jede Zahl, die dem übereinstimmenden Wort unmittelbar vorangeht, in das Übereinstimmungsergebnis einbezogen, und dies gilt auch für Unicode-Zeichen.
Zahlen, die dem übereinstimmenden Wort unmittelbar folgen, weisen dieses Verhalten nicht auf;
Dies wirkt sich auch auf die Zahlenübereinstimmung aus, einschließlich Fällen, in denen Zeichenketten ausschließlich aus englischen Buchstaben und Zahlen bestehen. Zum Beispiel kann „Test123“ nur „Test“ abgleichen, aber nicht „123“ oder „Test123“ (sich selbst).

Ich bin vielleicht etwas ahnungslos – welche Art von Abgleichsregel ist das? Könnte mir das jemand erklären?

awesomerobot · 20. Februar 2026 um 19:42

Scheint ein möglicher Regex-Fehler zu sein, die immer etwas knifflig zu entwirren sind. @zogstrip, vielleicht kannst du dir das mal ansehen, da du in diesem Bereich kürzlich gearbeitet hast (obwohl dies anscheinend schon eine Weile existiert).

Hier ist mein Verständnis…

Wenn wir Wörter überprüfen, müssen 3 Segmente übereinstimmen: führend, das Wort, nachfolgend. Wir haben führend und nachfolgend auf Nicht-Buchstaben-Zeichen gesetzt… dies können Satzzeichen, Leerzeichen ODER Zahlen sein. Die Zahlen sind das, was die Übereinstimmung hier durcheinander bringt. Die Absicht ist, Wörter erfassen zu können, auch wenn sich Satzzeichen oder Ähnliches vor/nach dem Wort befinden.

Der Regex sieht also 123Test, findet Test, schaut davor und findet 3, was als „Nicht-Buchstabe“ übereinstimmt, schaut dann danach und findet das Ende des Wortes. Es stimmt also für 3Test.

Ich glaube, wir müssen in den führenden/nachfolgenden Segmenten auf Nicht-Buchstaben- UND Nicht-Zahlen-Zeichen prüfen, um dies zu vermeiden? Ich bin mir nicht sicher, ob es einen Grund gab, warum wir Zahlen nicht einbezogen haben, oder ob es nur ein Versehen ist.

Noble_Fish · 20. Februar 2026 um 19:44

Vielleicht sollte dieses Thema in die Kategorie Contribute > Bug verschoben werden?

zogstrip · 21. Februar 2026 um 10:54

Das sollte es diesmal wirklich beheben. Wir hatten einige Inkonsistenzen zwischen der Ruby-Version und der JS-Version der verwendeten Regex, aber das ist jetzt nicht mehr nötig.

github.com/discourse/discourse

FIX: unify watched word boundary regex across Ruby and JS engines (#37965)

main ← fix/unify-word-boundary-regex

opened 11:54PM - 20 Feb 26 UTC

ZogStriP

+122 -251

The CJK fix (d7a53ada16) introduced separate boundary patterns for Ruby and JS e…ngines in `match_word_regexp`. The Ruby engine used `[:word:]` (which includes digits), while the JS engine used `\P{L}` (non-Letter). Since digits are not letters, the JS pattern treated them as valid word boundaries — causing "123Test" to match as "3Test" and standalone number watched words like "123" to match inside "abc123". Replace both engine-specific patterns with a single unified pattern using Unicode property classes (`\p{L}`, `\p{M}`, `\p{N}`, `\p{Pc}`) that work identically in Ruby and JavaScript. This treats letters, marks, numbers, and connector punctuation as word characters in boundary checks, which fixes the number-matching bug for JS consumers while preserving the existing correct behavior on the Ruby side. Since `match_word_regexp` no longer branches on engine, remove the now-dead `engine:` parameter from all 5 method signatures that threaded it through (`match_word_regexp`, `word_to_regexp`, `regexps_for_action`, `compiled_regexps_for_action`, `serialized_regexps_for_action`) and all call sites passing `engine: :js` (serializers, pretty_text). https://meta.discourse.org/t/396110 https://meta.discourse.org/t/396109 Follow-up to d7a53ada16 (#37844)

Thema		Antworten	Aufrufe
Hope Watched words adds support for non-English characters Bug	1	85	16. Februar 2026
Russian characters in Watched Words list are failing to be properly identified Bug watched-words	1	553	10. Februar 2021
Can't enter watched words regex to catch phone numbers Support regex , watched-words	2	129	17. Mai 2025
Watched word regular expression crash Bug watched-words	6	929	29. November 2023
How to use Discourse regexes with watched words? Support	6	2455	30. Mai 2019

Regeln für die Zahlenübereinstimmung in beobachteten Wörtern

Verwandte Themen