Questo non è un problema di codifica… il termine che stai cercando sono i caratteri Unicode Confusable.
Anche se fosse solo la lettera C, avremmo:
ℂ 𝕮 C 𝙲 𝑪 𝒞 𝖢 𐌂 𝗖 ꓚ Ꮯ 𐔜 С C Ⲥ 𝓒 Ⅽ ℭ 𝘊 𐐕 𝘾 🝌 𝐂 𑣲 𑣩 Ϲ 𐊢 𝐶
Questa è probabilmente meglio presentata come una richiesta di funzionalità, qualcosa del tipo un’opzione per “Sostituire i caratteri Unicode confusi prima di applicare le parole monitorate”.
A titolo informativo, l’insieme dei caratteri confusi è un dato pubblico pubblicato dal consorzio, ad esempio:
# C Ⅽ C ௐ С Ꮯ Ⲥ ꓚ Ϲ ℂ ℭ 𝐂 𝐶 𝑪 𝒞 𝓒 𝕮 𝖢 𝗖 𝘊 𝘾 𝙲
( C ) 0043 LATIN CAPITAL LETTER C
← ( Ⅽ ) 216D ROMAN NUMERAL ONE HUNDRED
← ( C ) FF23 FULLWIDTH LATIN CAPITAL LETTER C # →С→
← ( ௐ ) 0BD0 TAMIL OM # →С→
← ( С ) 0421 CYRILLIC CAPITAL LETTER ES
← ( Ꮯ ) 13DF CHEROKEE LETTER TLI
← ( Ⲥ ) 2CA4 COPTIC CAPITAL LETTER SIMA # →Ϲ→
← ( ꓚ ) A4DA LISU LETTER CA
← ( Ϲ ) 03F9 GREEK CAPITAL LUNATE SIGMA SYMBOL
← ( ℂ ) 2102 DOUBLE-STRUCK CAPITAL C
← ( ℭ ) 212D BLACK-LETTER CAPITAL C
← ( 𝐂 ) 1D402 MATHEMATICAL BOLD CAPITAL C
← ( 𝐶 ) 1D436 MATHEMATICAL ITALIC CAPITAL C
← ( 𝑪 ) 1D46A MATHEMATICAL BOLD ITALIC CAPITAL C
← ( 𝒞 ) 1D49E MATHEMATICAL SCRIPT CAPITAL C
← ( 𝓒 ) 1D4D2 MATHEMATICAL BOLD SCRIPT CAPITAL C
← ( 𝕮 ) 1D56E MATHEMATICAL BOLD FRAKTUR CAPITAL C
← ( 𝖢 ) 1D5A2 MATHEMATICAL SANS-SERIF CAPITAL C
← ( 𝗖 ) 1D5D6 MATHEMATICAL SANS-SERIF BOLD CAPITAL C
← ( 𝘊 ) 1D60A MATHEMATICAL SANS-SERIF ITALIC CAPITAL C
← ( 𝘾 ) 1D63E MATHEMATICAL SANS-SERIF BOLD ITALIC CAPITAL C
← ( 𝙲 ) 1D672 MATHEMATICAL MONOSPACE CAPITAL C
(hah, ho appena scoperto che chromium implementa questa semplificazione, quando ho tentato di cercare 𝑪 ha trovato la maggior parte delle istanze confuse della lettera C - provalo qui!)
Un esempio di algoritmo che utilizza questi dati è implementato in python qui.
Nel tuo ultimo screenshot @billgraziano, il primo riferimento numerico codificato in ampersand che hai pubblicato ( \\u0026#119815; ) sarebbe:
← ( 𝐇 ) 1D407 MATHEMATICAL BOLD CAPITAL H
(l’ordinale di 𝐇 è 119815 codificato in decimale o 1D407 codificato in esadecimale)
Quindi un’espressione regolare completa insensibile alle maiuscole/minuscole per “helpline” che potresti usare sarebbe:
[HHℋℌℍ𝐇𝐻𝑯𝓗𝕳𝖧𝗛𝘏𝙃𝙃Η𝚮𝛨𝜢𝝜𝞖ⲎНᎻᕼꓧ𐋏ⱧҢĦӉӇhhℎ𝐡𝒉𝒽𝓱𝔥𝕙𝖍𝗁𝗵𝗵𝚑𝚑һհᏂɦꚕᏲħℏћ][E⋿Eℰ𝐄𝐸𝑬𝓔𝔈𝔼𝕰𝖤𝗘𝘌𝙀𝙴Ε𝚬𝛦𝜠𝝚𝞔ЕⴹᎬꓰ𑢦𑢮𐊆Ɇe℮eℯⅇ𝐞𝑒𝒆𝓮𝔢𝕖𝖊𝖾𝗲𝘦𝙚𝚎ꬲеҽɇҿ][L𝈪Ⅼℒ𝐋𝐿𝑳𝓛𝔏𝕃𝕷𝖫𝗟𝘓𝙇𝙻ⳐᏞᒪꓡ𖼖𑢣𑢲𐐛𐔦ŁLjLJl\\|∣⏽│1۱𐌠𝟏𝟙𝟣𝟭𝟷IIⅠℐℑ𝐈𝐼𝑰𝓘𝕀𝕴𝖨𝗜𝘐𝙄𝙸Ɩlⅼℓ𝐥𝑙𝒍𝓁𝓵𝔩𝕝𝖑𝗅𝗹𝗹𝙡𝚕ǀΙ𝚰𝛪𝜤𝝞𝞘ⲒІӀⵏᛁꓲ𖼨𐊊𐌉łɭƗƚɫŀĿᒷ🄂⒈⒓㏫㋋㍤⒔㏬㍥⒕㏭㍦⒖㏮㍧⒗㏯㍨⒘㏰㍩⒙㏱㍪⒚㏲㍫ljIJ‖∥Ⅱǁ𐆙⒒Ⅲ𐆘㏪㋊㍣Ю⒑㏩㋉㍢ʪ₶ⅣⅨɮʫ㏠㋀㍙][PPℙ𝐏𝑃𝑷𝒫𝓟𝔓𝕻𝖯𝗣𝘗𝙋𝙿Ρ𝚸𝛲𝜬𝝦𝞠ⲢРᏢᑭꓑ𐊕ᒆp⍴p𝗽𝑝𝒑𝓅𝓹𝔭𝕡𝖕𝗉𝗽𝗽𝙥𝚙ρϱ𝛒𝛠𝜌𝜚𝝆𝝔𝞀𝞎𝞺𝟈ⲣрƥᵽᑷ][L𝈪Ⅼℒ𝐋𝐿𝑳𝓛𝔏𝕃𝕷𝖫𝗟𝘓𝙇𝙻ⳐᏞᒪꓡ𖼖𑢣𑢲𐐛𐔦ŁLjLJl\\|∣⏽│1۱𐌠𝟏𝟙𝟣𝟭𝟷IIⅠℐℑ𝐈𝐼𝑰𝓘𝕀𝕴𝖨𝗜𝘐𝙄 आईआईƖlⅼℓ𝐥𝑙𝒍𝓁𝓵𝔩𝕝𝖑𝗅𝗹𝗹𝙡𝚕ǀΙ𝚰𝛪𝜤𝝞𝞘ⲒІӀⵏᛁꓲ𖼨𐊊𐌉łɭƗƚɫŀĿᒷ🄂⒈⒓㏫㋋㍤⒔㏬㍥⒕㏭㍦⒖㏮㍧⒗㏯㍨⒘㏰㍩⒙㏱㍪⒚㏲㍫ljIJ‖∥Ⅱǁ𐆙⒒Ⅲ𐆘㏪㋊㍣Ю⒑㏩㋉㍢ʪ₶ⅣⅨɮʫ㏠㋀㍙][Ii˛⍳iⅰℹⅈ𝐢𝑖𝒊𝒾𝓲𝔦𝕚𝖎𝗂𝗶𝘪𝙞𝚒ı𝚤ɪɩιιͺ𝛊𝜄𝜾𝝸𝞲іꙇӏꭵᎥ𑣃⍸ɨᵻᵼⅱⅲijⅳⅸ][NNℕ𝐍𝑁𝑵𝒩𝓝𝔑𝕹𝖭𝗡𝘕𝙉𝙽Ν𝚴𝛮𝜨𝝢𝞜Ⲛꓠ𐔓𐆎ƝNjNJ№n𝐧𝑛𝒏𝓃𝓷𝔫𝕟𝖓𝗇𝗻𝗻𝙣𝙣ոռɳƞη𝛈𝜂𝜼𝝶𝞰ᵰnj][E⋿Eℰ𝐄𝐸𝑬𝓔𝔈𝔼𝕰𝖤𝗘𝘌𝙀𝙴Ε𝚬𝛦𝜠𝝚𝞔ЕⴹᎬꓰ𑢦𑢮𐊆Ɇe℮eℯⅇ𝐞𝑒𝒆𝓮𝔢𝕖𝖊𝖾𝗲𝘦𝙚𝚎ꬲеҽɇҿ]