Algunas palabras francesas utilizan los siguientes caracteres:
Œ, œ, como en œuf (huevo) o cœur (corazón), œuvre (múltiples traducciones y significados, así que no los detallaré aquí, no importa), etc..
Æ, æ, como en nævus (el término científico para lunar (el punto en la piel, no el animal) o otros.
æ se usa raramente (¿creo que siempre son términos científicos/médicos del latín?), pero œ, sin embargo, está bastante presente en el idioma francés.
Lamentablemente, estos caracteres especiales no están presentes en la distribución del teclado francés y mucha gente simplemente escribe “oe” o “ae” en su lugar.
Pero algunos usuarios tienen distribuciones personalizadas, y la autocorrección de los teléfonos inteligentes, u otros sistemas de ayuda a la escritura, a menudo corrigen automáticamente las palabras utilizando los “caracteres fusionados” adecuados, como “oeuvre” → “œuvre”.
Actualmente, la búsqueda procesa “oe” y “œ” como cadenas diferentes, lo que lleva a resultados diferentes que deberían ser comunes.
¿Crees que deberíamos simplemente modificar la implementación de search_ignore_accents para usar unaccent o necesitaríamos una configuración completamente nueva?
Me gusta la idea de cambiar simplemente la implementación de ignorar acentos porque de todos modos hay paridad con lo que hace PG.
Esa es una buena pregunta
Definitivamente funcionaría para pero ¿podría haber otras locales donde no funcione como se espera?
Después de revisar los archivos /usr/share/postgresql/13/tsearch_data/unaccent.rules, parece bastante seguro.
Definitivamente apoyo eliminar el cambio de nuestra configuración search_ignore_accents para usar el unaccent de postgresql @nbianca ¿puedes añadir esto a tu lista?