Não é possível pesquisar por tag tailandesa

versão do Discourse 2.6.0.beta1

Estas são postagens de exemplo que possuem uma tag em tailandês.

Quando acesso a página de pesquisa e tento pesquisar com um caractere tailandês (sem vogal adicional), os resultados correspondem à quantidade filtrada pela tag.


No entanto, quando pesquiso com uma vogal adicional, nenhum resultado é encontrado. (mas no filtro de tag existem 17 postagens)


4 curtidas

Olá K. @siriwatknp e Sawatdee da Tailândia,

Estou supondo que o mecanismo de busca do aplicativo tenha problemas com quase todas as vogais tailandesas, (4) marcas de tom e (5) diacríticos?

Referência:

1 curtida

Alguma sugestão de solução alternativa para esse problema?

Minha primeira sugestão é pesquisar na internet por problemas documentados semelhantes e tentar descobrir “a maneira” como outros mecanismos de busca gerenciam essa camada de complexidade; em seguida, examine o código do Discourse e veja quais alterações podem ser necessárias para melhorar esse algoritmo de busca.

A propósito: você já tentou outros conjuntos de caracteres tailandeses nas configurações do teclado do seu navegador?

Nota:

Em uma busca rápida, vi que alguns especialistas propuseram a abordagem do “Algoritmo de Busca em Duas Passadas”:

https://www.cicling.org/2008/RCS-vol-33/07-Kruengkrai.pdf

6 Conclusão
Apresentamos uma abordagem de aprendizado discriminativo para análise morfológica tailandesa. Consideramos a análise morfológica tailandesa como um problema de busca. Propomos o algoritmo de busca em duas passadas que encontra o caminho mais provável no espaço de busca expandido. O objetivo do nosso algoritmo é aumentar a cobertura das hipóteses de palavras com base na estimativa de probabilidade na rede. Os resultados experimentais no corpus ORCHID mostram que o algoritmo de busca em duas passadas pode melhorar o desempenho em relação à abordagem de busca padrão

Veja também: Computadores e a Língua Tailandesa

https://lexitron.nectec.or.th/KM_HL5001/file_HL5001/Paper/Inter%20Journal/krrn_52085.pdf

Este artigo explica a história do desenvolvimento da língua tailandesa para computadores, examinando fatores como a língua, o alfabeto e o sistema de escrita, entre outros. O artigo também analisa as características dos caracteres tailandeses e os métodos de entrada/saída, e aborda questões-chave envolvidas no processamento de texto em tailandês. Por fim, o artigo relata pesquisas sobre processamento de linguagem e fornece informações detalhadas sobre recursos da língua tailandesa.

2 curtidas

@siriwatknp Você pode me fornecer o texto e o termo de pesquisa para que eu possa tentar reproduzir o problema localmente?

7 curtidas

@siriwatknp Acabei de ver que você enviou um PR para corrigir esse problema :slight_smile: O PR parece bom para mim e foi mesclado.

5 curtidas