títulos de temas y categorías para cada publicación, aunque el usuario no haya creado el tema. Un par de usuarios tienen “shenanigans”, “Dice” y “Mongerer” entre sus 5 principales. Estas son categorías o hilos que tienen muchísimas publicaciones, pero las palabras apenas se usan en el contenido de los hilos o en otros lugares.
títulos de emojis: el usuario añade a todas sus publicaciones. Musical y Keyboard estaban entre sus 5 palabras principales.
Usamos nuestros datos de búsqueda para encontrar las publicaciones de un usuario, y esos datos terminan con el título y la categoría agregados… y el emoji probablemente se procesa a partir de :musical_keyboard: (su referencia markdown) en “musical” y “keyboard”.
Creo que necesitaríamos hacer un procesamiento adicional o usar una fuente diferente para los datos de la publicación para evitar esto… el caso de la categoría es probablemente más probable que ocurra en sitios donde las personas hacen muchas publicaciones cortas (o solo de imágenes) en la misma categoría, porque en ese caso la categoría aparecería con mucha más frecuencia en relación con otro contenido de la publicación.
Sí, algo está muy mal con estos resultados de frecuencia de palabras. Para mí, “useful” (útil) es una de las 5 palabras más inusuales. Pero parece que nunca usé esta palabra: busqué, obtuve muchos “resultados”, los tres primeros ni siquiera contienen la palabra, y la barra lateral de discobot señala:
Parece que no hay ningún resultado directo que coincida con “@Ed_S useful” en la búsqueda.
¿Hay algún stemming (derivación) o coincidencia difusa demasiado agresiva en funcionamiento?