Cuando voy a la página de búsqueda e intento buscar con un carácter tailandés (sin vocal adicional), los resultados coinciden con la cantidad del filtro de etiquetas.
Mi primera sugerencia es buscar en internet problemas documentados similares y tratar de encontrar “la forma” en que otros motores de búsqueda gestionan esta capa de complejidad; y luego examinar el código de Discourse para ver qué cambios podrían ser necesarios para mejorar este algoritmo de búsqueda.
Por cierto: ¿Has probado otros conjuntos de caracteres tailandeses en la configuración del teclado de tu navegador?
Nota:
En una búsqueda rápida, veo que algunos expertos han propuesto el enfoque del “Algoritmo de Búsqueda en Dos Pasos”:
6 Conclusión
Hemos presentado un enfoque de aprendizaje discriminativo para el análisis morfológico del idioma tailandés. Consideramos el análisis morfológico del tailandés como un problema de búsqueda. Proponemos el algoritmo de búsqueda en dos pasos que encuentra la ruta más probable en el espacio de búsqueda expandido. El objetivo de nuestro algoritmo es aumentar la cobertura de las hipótesis de palabras basadas en la estimación de probabilidad en la red. Los resultados experimentales en el corpus ORCHID muestran que el algoritmo de búsqueda en dos pasos puede mejorar el rendimiento en comparación con el enfoque de búsqueda estándar.
Este artículo explica la historia del desarrollo del idioma tailandés para computadoras, examinando factores como el idioma, el sistema de escritura y el sistema de escritura, entre otros. El artículo también analiza las características de los caracteres tailandeses y los métodos de entrada/salida, y aborda los problemas clave involucrados en el procesamiento de texto en tailandés. Finalmente, el artículo informa sobre la investigación en procesamiento del lenguaje y proporciona información detallada sobre los recursos del idioma tailandés.