Dies ist kein Kodierungsproblem… der gesuchte Begriff sind verwechselbare Unicode-Zeichen.
Selbst wenn es nur der Buchstabe C wäre, hätten wir:
ℂ 𝕮 C 𝙲 𝑪 𝒞 𝖢 𐌂 𝗖 ꓚ Ꮯ 𐔜 С C Ⲥ 𝓒 Ⅽ ℭ 𝘊 𐐕 𝘾 🝌 𝐂 𑣲 𑣩 Ϲ 𐊢 𝐶
Dies sollte wahrscheinlich am besten als Funktionsanfrage präsentiert werden, etwas in der Art einer Option zum „Ersetzen verwechselbarer Unicode-Zeichen vor dem Anwenden von Watched Words“.
Zu Ihrer Information, die Liste verwechselbarer Zeichen ist eine öffentliche Datenquelle, die vom Konsortium veröffentlicht wird, z. B.:
# C Ⅽ C ௐ С Ꮯ Ⲥ ꓚ Ϲ ℂ ℭ 𝐂 𝐶 𝑪 𝒞 𝓒 𝕮 𝖢 𝗖 𝘊 𝘾 𝙲
( C ) 0043 LATIN CAPITAL LETTER C
← ( Ⅽ ) 216D ROMAN NUMERAL ONE HUNDRED
← ( C ) FF23 FULLWIDTH LATIN CAPITAL LETTER C # →С→
← ( ௐ ) 0BD0 TAMIL OM # →С→
← ( С ) 0421 CYRILLIC CAPITAL LETTER ES
← ( Ꮯ ) 13DF CHEROKEE LETTER TLI
← ( Ⲥ ) 2CA4 COPTIC CAPITAL LETTER SIMA # →Ϲ→
← ( ꓚ ) A4DA LISU LETTER CA
← ( Ϲ ) 03F9 GREEK CAPITAL LUNATE SIGMA SYMBOL
← ( ℂ ) 2102 DOUBLE-STRUCK CAPITAL C
← ( ℭ ) 212D BLACK-LETTER CAPITAL C
← ( 𝐂 ) 1D402 MATHEMATICAL BOLD CAPITAL C
← ( 𝐶 ) 1D436 MATHEMATICAL ITALIC CAPITAL C
← ( 𝑪 ) 1D46A MATHEMATICAL BOLD ITALIC CAPITAL C
← ( 𝒞 ) 1D49E MATHEMATICAL SCRIPT CAPITAL C
← ( 𝓒 ) 1D4D2 MATHEMATICAL BOLD SCRIPT CAPITAL C
← ( 𝕮 ) 1D56E MATHEMATICAL BOLD FRAKTUR CAPITAL C
← ( 𝖢 ) 1D5A2 MATHEMATICAL SANS-SERIF CAPITAL C
← ( 𝗖 ) 1D5D6 MATHEMATICAL SANS-SERIF BOLD CAPITAL C
← ( 𝘊 ) 1D60A MATHEMATICAL SANS-SERIF ITALIC CAPITAL C
← ( 𝘾 ) 1D63E MATHEMATICAL SANS-SERIF BOLD ITALIC CAPITAL C
← ( 𝙲 ) 1D672 MATHEMATICAL MONOSPACE CAPITAL C
(hah, ich habe gerade entdeckt, dass Chromium diese Vereinfachung implementiert. Wenn ich versuche, nach 𝑪 zu suchen, findet es die meisten verwechselbaren Instanzen des Buchstabens C – probieren Sie es hier aus!)
Ein Beispielalgorithmus, der diese Daten verwendet, ist in Python hier implementiert.
In Ihrem letzten Screenshot, @billgraziano, wäre die erste ampersand-kodierte numerische Zeichenreferenz, die Sie posten ( \\u0026#119815; ):
← ( 𝐇 ) 1D407 MATHEMATICAL BOLD CAPITAL H
(Die Ordnungszahl für 𝐇 ist 119815 dezimal oder 1D407 hexadezimal kodiert)
Eine vollständige, Groß-/Kleinschreibung-unabhängige Regex für „helpline“ wäre also:
[HHℋℌℍ𝐇𝐻𝑯𝓗𝕳𝖧𝗛𝘏𝙃𝙷Η𝚮𝛨𝜢𝝜𝞖ⲎНᎻᕼꓧ𐋏ⱧҢĦӉӇhhℎ𝐡𝒉𝒽𝓱𝔥𝕙𝖍𝗁𝗵𝗵𝚑𝚑һհᏂɦꚕᏲħℏћ][E⋿Eℰ𝐄𝐸𝑬𝓔𝔈𝔼𝕰𝖤𝗘𝘌𝙀𝙴Ε𝚬𝛦𝜠𝝚𝞔ЕⴹᎬꓰ𑢦𑢮𐊆Ɇe℮eℯⅇ𝐞𝑒𝒆𝓮𝔢𝕖𝖊𝖾𝗲𝘦𝙚𝚎ꬲеҽɇҿ][L𝈪Ⅼℒ𝐋𝐿𝑳𝓛𝔏𝕃𝕷𝖫𝗟𝘓𝙇𝙻ⳐᏞᒪꓡ𖼖𑢣𑢲𐐛𐔦ŁLjLJl\\|∣⏽│1۱𐌠𝟏𝟙𝟣𝟭𝟷IIⅠℐℑ𝐈𝐼𝑰𝓘𝕀𝕴𝖨𝗜𝘐𝙄𝙸Ɩlⅼℓ𝐥𝑙𝒍𝓁𝓵𝔩𝕝𝖑𝗅𝗹𝗹𝙡𝚕ǀΙ𝚰𝛪𝜤𝝞𝞘ⲒІӀⵏᛁꓲ𖼨𐊊𐌉łɭƗƚɫŀĿᒷ🄂⒈⒓㏫㋋㍤⒔㏬㍥⒕㏭㍦⒖㏮㍧⒗㏯㍨⒘㏰㍩⒙㏱㍪⒚㏲㍫ljIJ‖∥Ⅱǁ𐆙⒒Ⅲ𐆘㏪㋊㍣Ю⒑㏩㋉㍢ʪ₶ⅣⅨɮʫ㏠㋀㍙][PPℙ𝐏𝑃𝑷𝒫𝓟𝔓𝕻𝖯𝗣𝘗𝙋𝙿Ρ𝚸𝛲𝜬𝝦𝞠ⲢРᏢᑭꓑ𐊕ᒆp⍴pp𝑝𝒑𝓅𝓹𝔭𝕡𝖕𝗉𝗽𝗽𝙥𝚙ρϱ𝛒𝛠𝜌𝜚𝝆𝝔𝞀𝞎𝞺𝟈ⲣрƥᵽᑷ][L𝈪Ⅼℒ𝐋𝐿𝑳𝓛𝔏𝕃𝕷𝖫𝗟𝘓𝙇𝙻ⳐᏞᒪꓡ𖼖𑢣𑢲𐐛𐔦ŁLjLJl\\|∣⏽│1۱𐌠𝟏𝟙𝟣𝟭𝟷IIⅠℐℑ𝐈𝐼𝑰𝓘𝕀𝕴𝖨𝗜𝘐𝙄 आईआईƖlⅼℓ𝐥𝑙𝒍𝓁𝓵𝔩𝕝𝖑𝗅𝗹𝗹𝙡𝚕ǀΙ𝚰𝛪𝜤𝝞𝞘ⲒІӀⵏᛁꓲ𖼨𐊊𐌉łɭƗƚɫŀĿᒷ🄂⒈⒓㏫㋋㍤⒔㏬㍥⒕㏭㍦⒖㏮㍧⒗㏯㍨⒘㏰㍩⒙㏱㍪⒚㏲㍫ljIJ‖∥Ⅱǁ𐆙⒒Ⅲ𐆘㏪㋊㍣Ю⒑㏩㋉㍢ʪ₶ⅣⅨɮʫ㏠㋀㍙][Ii˛⍳iⅰℹⅈ𝐢𝑖𝒊𝒾𝓲𝔦𝕚𝖎𝗂ﻳ𝘪𝙞𝚒ı𝚤ɪɩιιͺ𝛊𝜄𝜾𝝸𝞲іꙇӏꭵᎥ𑣃⍸ɨᵻᵼⅱⅲijⅳⅸ][NNℕ𝐍𝑁𝑵𝒩𝓝𝔑𝕹𝖭𝗡𝘕𝙉𝙽Ν𝚴𝛮𝜨𝝢𝞜Ⲛꓠ𐔓𐆎ƝNjNJ№n𝐧𝑛𝒏𝓃𝓷𝔫𝕟𝖓𝗇𝗻𝗻𝙣𝙣ոռɳƞη𝛈𝜂𝜼𝝶𝞰ᵰnj][E⋿Eℰ𝐄𝐸𝑬𝓔𝔈𝔼𝕰𝖤𝗘𝘌𝙀𝙴Ε𝚬𝛦𝜠𝝚𝞔ЕⴹᎬꓰ𑢦𑢮𐊆Ɇe℮eℯⅇ𝐞𝑒𝒆𝓮𝔢𝕖𝖊𝖾𝗲𝘦𝙚𝚎ꬲеҽɇҿ]