Il ne s’agit pas d’un problème d’encodage… le terme que vous recherchez est Unicode des caractères confusables.
Même s’il ne s’agissait que de la lettre C, nous aurions :
ℂ 𝕮 C 𝙲 𝑪 𝒞 𝖢 𐌂 𝗖 ꓚ Ꮯ 𐔜 С C Ⲥ 𝓒 Ⅽ ℭ 𝘊 𐐕 𝘾 🝌 𝐂 𑣲 𑣩 Ϲ 𐊢 𝐶
C’est probablement mieux présenté comme une demande de fonctionnalité, quelque chose comme une option pour « Remplacer les caractères Unicode confusables avant d’appliquer les mots surveillés ».
Pour information, l’ensemble des caractères confusables est une donnée publique publiée par le consortium, par exemple :
# C Ⅽ C ௐ С Ꮯ Ⲥ ꓚ Ϲ ℂ ℭ 𝐂 𝐶 𝑪 𝒞 𝓒 𝕮 𝖢 𝗖 𝘊 𝘾 𝙲
( C ) 0043 LATIN CAPITAL LETTER C
← ( Ⅽ ) 216D ROMAN NUMERAL ONE HUNDRED
← ( C ) FF23 FULLWIDTH LATIN CAPITAL LETTER C # →С→
← ( ௐ ) 0BD0 TAMIL OM # →С→
← ( С ) 0421 CYRILLIC CAPITAL LETTER ES
← ( Ꮯ ) 13DF CHEROKEE LETTER TLI
← ( Ⲥ ) 2CA4 COPTIC CAPITAL LETTER SIMA # →Ϲ→
← ( ꓚ ) A4DA LISU LETTER CA
← ( Ϲ ) 03F9 GREEK CAPITAL LUNATE SIGMA SYMBOL
← ( ℂ ) 2102 DOUBLE-STRUCK CAPITAL C
← ( ℭ ) 212D BLACK-LETTER CAPITAL C
← ( 𝐂 ) 1D402 MATHEMATICAL BOLD CAPITAL C
← ( 𝐶 ) 1D436 MATHEMATICAL ITALIC CAPITAL C
← ( 𝑪 ) 1D46A MATHEMATICAL BOLD ITALIC CAPITAL C
← ( 𝒞 ) 1D49E MATHEMATICAL SCRIPT CAPITAL C
← ( 𝓒 ) 1D4D2 MATHEMATICAL BOLD SCRIPT CAPITAL C
← ( 𝕮 ) 1D56E MATHEMATICAL BOLD FRAKTUR CAPITAL C
← ( 𝖢 ) 1D5A2 MATHEMATICAL SANS-SERIF CAPITAL C
← ( 𝗖 ) 1D5D6 MATHEMATICAL SANS-SERIF BOLD CAPITAL C
← ( 𝘊 ) 1D60A MATHEMATICAL SANS-SERIF ITALIC CAPITAL C
← ( 𝘾 ) 1D63E MATHEMATICAL SANS-SERIF BOLD ITALIC CAPITAL C
← ( 𝙲 ) 1D672 MATHEMATICAL MONOSPACE CAPITAL C
(hah, je viens de découvrir que Chromium implémente cette simplification, en essayant de rechercher 𝑪 il a trouvé la plupart des instances confuses de la lettre C - essayez-le ici !)
Un exemple d’algorithme utilisant ces données est implémenté en Python ici.
Dans votre dernière capture d’écran @billgraziano, la première référence numérique encodée en ampersand que vous postez ( \\u0026#119815; ) serait :
← ( 𝐇 ) 1D407 MATHEMATICAL BOLD CAPITAL H
(l’ordinal de 𝐇 est 119815 encodé en décimal ou 1D407 encodé en hexadécimal)
Donc, une expression régulière insensible à la casse complète pour « helpline » que vous pourriez utiliser serait :
[HHℋℌℍ𝐇𝐻𝑯𝓗𝕳𝖧𝗛𝘏𝙃𝙷Η𝚮𝛨𝜢𝝜𝞖ⲎНᎻᕼꓧ𐋏ⱧҢĦӉӇhhℎ𝐡𝒉𝒽𝓱𝔥𝕙𝖍𝗁𝗵𝗵𝚑𝚑һհᏂɦꚕᏲħℏћ][E⋿Eℰ𝐄𝐸𝑬𝓔𝔈𝔼𝕰𝖤𝗘𝘌𝙀𝙴Ε𝚬𝛦𝜠𝝚𝞔ЕⴹᎬꓰ𑢦𑢮𐊆Ɇe℮eℯⅇ𝐞𝑒𝒆𝓮𝔢𝕖𝖊𝖾𝗲𝘦𝙚𝚎ꬲеҽɇҿ][L𝈪Ⅼℒ𝐋𝐿𝑳𝓛𝔏𝕃𝕷𝖫𝗟𝘓𝙇𝙻ⳐᏞᒪꓡ𖼖𑢣𑢲𐐛𐔦ŁLjLJl\\|∣⏽│1۱𐌠𝟏𝟙𝟣𝟭𝟷IIⅠℐℑ𝐈𝐼𝑰𝓘𝕀𝕴𝖨𝗜𝘐𝙄𝙸Ɩlⅼℓ𝐥𝑙𝒍𝓁𝓵𝔩𝕝𝖑𝗅𝗹𝗹𝙡𝚕ǀΙ𝚰𝛪𝜤𝝞𝞘ⲒІӀⵏᛁꓲ𖼨𐊊𐌉łɭƗƚɫŀĿᒷ🄂⒈⒓㏫㋋㍤⒔㏬㍥⒕㏭㍦⒖㏮㍧⒗㏯㍨⒘㏰㍩⒙㏱㍪⒚㏲㍫ljIJ‖∥Ⅱǁ𐆙⒒Ⅲ𐆘㏪㋊㍣Ю⒑㏩㋉㍢ʪ₶ⅣⅨɮʫ㏠㋀㍙][PPℙ𝐏𝑃𝑷𝒫𝓟𝔓𝕻𝖯𝗣𝘗𝙋𝙿Ρ𝚸𝛲𝜬𝝦𝞠ⲢРᏢᑭꓑ𐊕ᒆp⍴pp𝑝𝒑𝓅𝓹𝔭𝕡𝖕𝗉𝗽𝗽𝙥𝚙ρϱ𝛒𝛠𝜌𝜚𝝆𝝔𝞀𝞎𝞺𝟈ⲣрƥᵽᑷ][L𝈪Ⅼℒ𝐋𝐿𝑳𝓛𝔏𝕃𝕷𝖫𝗟𝘓𝙇𝙻ⳐᏞᒪꓡ𖼖𑢣𑢲𐐛𐔦ŁLjLJl\\|∣⏽│1۱𐌠𝟏𝟙𝟣𝟭𝟷IIⅠℐℑ𝐈𝐼𝑰𝓘𝕀𝕴𝖨𝗜𝘐𝙄 आईआईƖlⅼℓ𝐥𝑙𝒍𝓁𝓵𝔩𝕝𝖑𝗅𝗹𝗹𝙡𝚕ǀΙ𝚰𝛪𝜤𝝞𝞘ⲒІӀⵏᛁꓲ𖼨𐊊𐌉łɭƗƚɫŀĿᒷ🄂⒈⒓㏫㋋㍤⒔㏬㍥⒕㏭㍦⒖㏮㍧⒗㏯㍨⒘㏰㍩⒙㏱㍪⒚㏲㍫ljIJ‖∥Ⅱǁ𐆙⒒Ⅲ𐆘㏪㋊㍣Ю⒑㏩㋉㍢ʪ₶ⅣⅨɮʫ㏠㋀㍙][Ii˛⍳iⅰℹⅈ𝐢𝑖𝒊𝒾𝓲𝔦𝕚𝖎𝗂𝗶𝘪𝙞𝚒ı𝚤ɪɩιιͺ𝛊𝜄𝜾𝝸𝞲іꙇӏꭵᎥ𑣃⍸ɨᵻᵼⅱⅲijⅳⅸ][NNℕ𝐍𝑁𝑵𝒩𝓝𝔑𝕹𝖭𝗡𝘕𝙉𝙽Ν𝚴𝛮𝜨𝝢𝞜Ⲛꓠ𐔓𐆎ƝNjNJ№n𝐧𝑛𝒏𝓃𝓷𝔫𝕟𝖓𝗇𝗻𝗻𝙣𝚗ոռɳƞη𝛈𝜂𝜼𝝶𝞰ᵰnj][E⋿Eℰ𝐄𝐸𝑬𝓔𝔈𝔼𝕰𝖤𝗘𝘌𝙀𝙴Ε𝚬𝛦𝜠𝝚𝞔ЕⴹᎬꓰ𑢦𑢮𐊆Ɇe℮eℯⅇ𝐞𝑒𝒆𝓮𝔢𝕖𝖊𝖾𝗲𝘦𝙚𝚎ꬲеҽɇҿ]