Reglas para la coincidencia de números en Palabras observadas

Noble_Fish · 14 Febrero, 2026 15:47

Como se muestra en la figura siguiente, las palabras coincidentes son “Test”, “123” y “测试” (que significa “Test” en chino simplificado).

Cuando una coincidencia es exitosa, cualquier número que preceda inmediatamente a la palabra que coincide se incluirá en el resultado de la coincidencia, e incluso esto se aplica a los caracteres Unicode.
Los números que siguen inmediatamente a la palabra que coincide no muestran este comportamiento;
Esto también afecta a la coincidencia de números, incluidos los casos en que las cadenas consisten únicamente en letras inglesas y números. Por ejemplo, “Test123” solo puede coincidir con “Test”, pero no puede coincidir con “123” ni con “Test123” (ella misma).

Puede que esté un poco desactualizado: ¿qué tipo de regla de coincidencia es esta? ¿Podría alguien explicármelo?

awesomerobot · 20 Febrero, 2026 19:42

Parece un posible error de expresión regular (regex), que siempre son un poco complicadas de desenredar. @zogstrip, tal vez puedas echarle un vistazo, ya que has trabajado en esta área recientemente (aunque esto parece haber existido por un tiempo).

Aquí está mi entendimiento…

Cuando estamos comprobando palabras, hay 3 segmentos que deben coincidir: el inicial, la palabra y el final. Hemos establecido que los segmentos inicial y final sean caracteres no alfabéticos… estos podrían ser puntuación, espacios O números. Los números son lo que está arruinando la coincidencia aquí. La intención es poder detectar palabras incluso si hay puntuación o lo que sea antes/después de la palabra.

Así que la regex ve 123Test, encuentra Test, mira antes y encuentra 3, y eso coincide como un “no alfabético”, luego mira después y encuentra el final de la palabra. Así que coincide con 3Test.

Creo que necesitamos comprobar caracteres que no sean letras Y que no sean números en los segmentos inicial/final para evitar esto. No estoy seguro si hay una razón por la que no incluimos los números o si es solo un descuido.

Noble_Fish · 20 Febrero, 2026 19:44

¿Quizás este tema debería moverse a la categoría Contribute > Bug?

zogstrip · 21 Febrero, 2026 10:54

Esto debería arreglarlo de verdad esta vez. Hemos tenido cierta inconsistencia entre la versión de Ruby y la versión de JS de las expresiones regulares utilizadas, pero eso ya no es necesario.

github.com/discourse/discourse

FIX: unify watched word boundary regex across Ruby and JS engines (#37965)

main ← fix/unify-word-boundary-regex

opened 11:54PM - 20 Feb 26 UTC

ZogStriP

+122 -251

The CJK fix (d7a53ada16) introduced separate boundary patterns for Ruby and JS e…ngines in `match_word_regexp`. The Ruby engine used `[:word:]` (which includes digits), while the JS engine used `\P{L}` (non-Letter). Since digits are not letters, the JS pattern treated them as valid word boundaries — causing "123Test" to match as "3Test" and standalone number watched words like "123" to match inside "abc123". Replace both engine-specific patterns with a single unified pattern using Unicode property classes (`\p{L}`, `\p{M}`, `\p{N}`, `\p{Pc}`) that work identically in Ruby and JavaScript. This treats letters, marks, numbers, and connector punctuation as word characters in boundary checks, which fixes the number-matching bug for JS consumers while preserving the existing correct behavior on the Ruby side. Since `match_word_regexp` no longer branches on engine, remove the now-dead `engine:` parameter from all 5 method signatures that threaded it through (`match_word_regexp`, `word_to_regexp`, `regexps_for_action`, `compiled_regexps_for_action`, `serialized_regexps_for_action`) and all call sites passing `engine: :js` (serializers, pretty_text). https://meta.discourse.org/t/396110 https://meta.discourse.org/t/396109 Follow-up to d7a53ada16 (#37844)

Tema		Respuestas	Vistas
Hope Watched words adds support for non-English characters Bug	1	91	16 Febrero 2026
Russian characters in Watched Words list are failing to be properly identified Bug watched-words	1	555	10 Febrero 2021
Can't enter watched words regex to catch phone numbers Support regex , watched-words	2	134	17 Mayo 2025
Watched word regular expression crash Bug watched-words	6	931	29 Noviembre 2023
How to use Discourse regexes with watched words? Support	6	2461	30 Mayo 2019

Reglas para la coincidencia de números en Palabras observadas

Temas relacionados