Quando acesso a página de pesquisa e tento pesquisar com um caractere tailandês (sem vogal adicional), os resultados correspondem à quantidade filtrada pela tag.
Minha primeira sugestão é pesquisar na internet por problemas documentados semelhantes e tentar descobrir “a maneira” como outros mecanismos de busca gerenciam essa camada de complexidade; em seguida, examine o código do Discourse e veja quais alterações podem ser necessárias para melhorar esse algoritmo de busca.
A propósito: você já tentou outros conjuntos de caracteres tailandeses nas configurações do teclado do seu navegador?
Nota:
Em uma busca rápida, vi que alguns especialistas propuseram a abordagem do “Algoritmo de Busca em Duas Passadas”:
6 Conclusão
Apresentamos uma abordagem de aprendizado discriminativo para análise morfológica tailandesa. Consideramos a análise morfológica tailandesa como um problema de busca. Propomos o algoritmo de busca em duas passadas que encontra o caminho mais provável no espaço de busca expandido. O objetivo do nosso algoritmo é aumentar a cobertura das hipóteses de palavras com base na estimativa de probabilidade na rede. Os resultados experimentais no corpus ORCHID mostram que o algoritmo de busca em duas passadas pode melhorar o desempenho em relação à abordagem de busca padrão
Este artigo explica a história do desenvolvimento da língua tailandesa para computadores, examinando fatores como a língua, o alfabeto e o sistema de escrita, entre outros. O artigo também analisa as características dos caracteres tailandeses e os métodos de entrada/saída, e aborda questões-chave envolvidas no processamento de texto em tailandês. Por fim, o artigo relata pesquisas sobre processamento de linguagem e fornece informações detalhadas sobre recursos da língua tailandesa.