No se puede buscar por etiqueta tailandesa

Versión de Discourse 2.6.0.beta1

Estos son ejemplos de publicaciones que tienen la etiqueta en tailandés.

Cuando voy a la página de búsqueda e intento buscar con un carácter tailandés (sin vocal adicional), los resultados coinciden con la cantidad del filtro de etiquetas.


Sin embargo, cuando busco con una vocal adicional, no se encuentra ningún resultado. (pero en el filtro de etiquetas hay 17 publicaciones)


4 Me gusta

Hola K. @siriwatknp y Sawatdee de Tailandia,

Supongo que el motor de búsqueda de la aplicación tiene problemas con casi todas las vocales tailandesas, (4) marcas de tono y (5) diacríticos.

Referencia:

1 me gusta

¿Alguna sugerencia sobre una solución alternativa para este problema?

Mi primera sugerencia es buscar en internet problemas documentados similares y tratar de encontrar “la forma” en que otros motores de búsqueda gestionan esta capa de complejidad; y luego examinar el código de Discourse para ver qué cambios podrían ser necesarios para mejorar este algoritmo de búsqueda.

Por cierto: ¿Has probado otros conjuntos de caracteres tailandeses en la configuración del teclado de tu navegador?

Nota:

En una búsqueda rápida, veo que algunos expertos han propuesto el enfoque del “Algoritmo de Búsqueda en Dos Pasos”:

https://www.cicling.org/2008/RCS-vol-33/07-Kruengkrai.pdf

6 Conclusión
Hemos presentado un enfoque de aprendizaje discriminativo para el análisis morfológico del idioma tailandés. Consideramos el análisis morfológico del tailandés como un problema de búsqueda. Proponemos el algoritmo de búsqueda en dos pasos que encuentra la ruta más probable en el espacio de búsqueda expandido. El objetivo de nuestro algoritmo es aumentar la cobertura de las hipótesis de palabras basadas en la estimación de probabilidad en la red. Los resultados experimentales en el corpus ORCHID muestran que el algoritmo de búsqueda en dos pasos puede mejorar el rendimiento en comparación con el enfoque de búsqueda estándar.

Véase también: Computadoras y el idioma tailandés

https://lexitron.nectec.or.th/KM_HL5001/file_HL5001/Paper/Inter%20Journal/krrn_52085.pdf

Este artículo explica la historia del desarrollo del idioma tailandés para computadoras, examinando factores como el idioma, el sistema de escritura y el sistema de escritura, entre otros. El artículo también analiza las características de los caracteres tailandeses y los métodos de entrada/salida, y aborda los problemas clave involucrados en el procesamiento de texto en tailandés. Finalmente, el artículo informa sobre la investigación en procesamiento del lenguaje y proporciona información detallada sobre los recursos del idioma tailandés.

2 Me gusta

@siriwatknp ¿Podrías proporcionarme el texto y el término de búsqueda para que pueda intentar reproducir el problema localmente?

7 Me gusta

@siriwatknp Acabo de ver que enviaste un PR para solucionar este problema :slight_smile: El PR me parece bien y ya ha sido fusionado.

5 Me gusta