Règles pour la correspondance de nombres dans les mots surveillés

Noble_Fish · Février 14, 2026, 3:47

Comme indiqué dans la figure ci-dessous, les mots correspondants sont « Test », « 123 » et « 测试 » (qui signifie « Test » en chinois simplifié).

Lorsqu’une correspondance est réussie, tout nombre précédant immédiatement le mot correspondant sera inclus dans le résultat de la correspondance, et cela s’applique même aux caractères Unicode.
Les nombres qui suivent immédiatement le mot correspondant ne présentent pas ce comportement ;
Cela affecte également la correspondance des nombres, y compris les cas où les chaînes ne contiennent que des lettres anglaises et des chiffres. Par exemple, « Test123 » ne peut correspondre qu’à « Test » mais ne peut pas correspondre à « 123 » ou à « Test123 » (lui-même).

Je suis peut-être un peu à la traîne — quel type de règle de correspondance est-ce ? Quelqu’un pourrait-il me l’expliquer ?

awesomerobot · Février 20, 2026, 7:42

Il semble s’agir d’un bug potentiel dans les expressions régulières, qui sont toujours un peu délicates à démêler. @zogstrip, peut-être pouvez-vous y jeter un œil puisque vous avez travaillé dans ce domaine récemment (bien que cela semble exister depuis un certain temps).

Voici ma compréhension…

Lorsque nous vérifions les mots, il y a 3 segments qui doivent correspondre : le début, le mot, la fin. Nous avons défini le début et la fin comme des caractères non alphabétiques… ceux-ci peuvent être de la ponctuation, des espaces, OU des chiffres. Ce sont les chiffres qui faussent la correspondance ici. L’intention est de pouvoir détecter les mots même s’il y a de la ponctuation ou autre avant/après le mot.

Ainsi, l’expression régulière voit 123Test, trouve Test, regarde avant et trouve 3 et cela correspond à un « non-lettre », puis regarde après et trouve la fin du mot. Elle correspond donc à 3Test.

Je pense que nous devons vérifier les caractères non alphabétiques ET non numériques dans les segments de début/fin pour éviter cela ? Je ne sais pas s’il y a une raison pour laquelle nous n’avons pas inclus les chiffres ou si c’est juste un oubli.

Noble_Fish · Février 20, 2026, 7:44

Ce sujet devrait peut-être être déplacé dans la catégorie Contribute > Bug ?

zogstrip · Février 21, 2026, 10:54

Ceci devrait corriger le problème pour de bon cette fois. Nous avions eu une certaine incohérence entre la version Ruby et la version JS des expressions régulières utilisées, mais cela n’est plus nécessaire.

github.com/discourse/discourse

FIX: unify watched word boundary regex across Ruby and JS engines (#37965)

main ← fix/unify-word-boundary-regex

opened 11:54PM - 20 Feb 26 UTC

ZogStriP

+122 -251

The CJK fix (d7a53ada16) introduced separate boundary patterns for Ruby and JS e…ngines in `match_word_regexp`. The Ruby engine used `[:word:]` (which includes digits), while the JS engine used `\P{L}` (non-Letter). Since digits are not letters, the JS pattern treated them as valid word boundaries — causing "123Test" to match as "3Test" and standalone number watched words like "123" to match inside "abc123". Replace both engine-specific patterns with a single unified pattern using Unicode property classes (`\p{L}`, `\p{M}`, `\p{N}`, `\p{Pc}`) that work identically in Ruby and JavaScript. This treats letters, marks, numbers, and connector punctuation as word characters in boundary checks, which fixes the number-matching bug for JS consumers while preserving the existing correct behavior on the Ruby side. Since `match_word_regexp` no longer branches on engine, remove the now-dead `engine:` parameter from all 5 method signatures that threaded it through (`match_word_regexp`, `word_to_regexp`, `regexps_for_action`, `compiled_regexps_for_action`, `serialized_regexps_for_action`) and all call sites passing `engine: :js` (serializers, pretty_text). https://meta.discourse.org/t/396110 https://meta.discourse.org/t/396109 Follow-up to d7a53ada16 (#37844)

Sujet		Réponses	Vues
Hope Watched words adds support for non-English characters Bug	1	85	Février 16, 2026
Russian characters in Watched Words list are failing to be properly identified Bug watched-words	1	553	Février 10, 2021
Can't enter watched words regex to catch phone numbers Support regex , watched-words	2	129	Mai 17, 2025
Watched word regular expression crash Bug watched-words	6	929	Novembre 29, 2023
How to use Discourse regexes with watched words? Support	6	2455	Mai 30, 2019

Règles pour la correspondance de nombres dans les mots surveillés

Sujets connexes