Ótimo ver isso resolvido!
Gerenciamos um fórum internacional e, embora o inglês seja a língua principal, temos categorias dedicadas a outros idiomas e isso tem sido um incômodo de longa data.
Agora que skipped_locale é usado apenas para seems_unpretentious, eu me pergunto se podemos pular ‘ko’, já que o coreano moderno usa espaços? Tenha em mente que eu não falo coreano, então você pode querer verificar isso.
Enquanto tenho sua atenção, há mais uma coisa que acho que poderia ser uma melhoria fácil no TextSentinel, mas não ousei tocar (novamente, não sou um desenvolvedor Ruby). Se você tiver um momento, acho que é bem simples e poderia trazer um ganho de desempenho gratuito.
Pelo que entendi, isso verifica se uma palavra é mais longa que o limite dividindo o texto em palavras, calculando o comprimento de cada uma, escaneando todos os comprimentos para encontrar o maior e só então comparando-o com o limite.
Poderíamos talvez pular tudo isso simplesmente tentando corresponder o texto a algo como /\\p{Alnum}{#{max_word_length + 1},}/ (a sintaxe provavelmente está errada, mas espero que você entenda a ideia)?
Sem conhecer o funcionamento interno do Ruby, isso provavelmente pararia a verificação assim que houvesse uma correspondência e, se não houver nenhuma palavra muito longa (caso mais comum), o texto é escaneado apenas uma vez, pulando a divisão, a verificação individual do comprimento da palavra, etc.
Desculpe se estou sequestrando o tópico aqui, mas como o novo PR já foi mesclado, não tenho certeza do melhor lugar para postar isso, pois talvez seja pequeno demais para merecer um novo tópico, mas parece uma vitória fácil. Sinta-se à vontade para usá-lo.