Búsqueda semántica de página completa… ¿solo puede ser en inglés? ¿Y se necesita algo de magia de Rails para facilitarle la vida?
Podría funcionar siempre que cambies el modelo de incrustaciones al multilingüe. No lo he probado, pero teóricamente debería funcionar.
Me pregunto porque en la mayoría de los casos no puede ofrecer nada y si hay resultados de búsqueda, estos no son relevantes.
¿Qué modelo estás utilizando para las incrustaciones?
¿Has generado incrustaciones para todos los temas?
¿Qué modelo estás utilizando para la búsqueda HyDE?
- text-embedding-ada-002
- por lo que sé, sí
- gpt-3.5-turbo
He hecho algunas pruebas — lo siento, no muy consistentemente, pero usando el estilo de una liebre entre los faros de un coche.
Definitivamente también funciona en finés. Creo que hay problemas más fundamentales con la IA y los idiomas minoritarios. Y los usuarios.
En primer lugar, OpenAI no tiene suficiente material para manejar el finés, pero estoy seguro de que esa situación incluye a todos los idiomas donde no hay suficiente material que la IA pueda usar para aprender. Eso significa que la semántica es una cuestión mucho más difícil que otras, y esas son realmente difíciles para Chat GPT cuando se usa un idioma que no sea inglés u otros importantes.
Parece que GPT-4 es más preciso que GPT-3.5-turbo. Pero cuando los aciertos de 3.5 eran solo ruido, quizás 8 de cada 10, e incluso Discourse podía ofrecer esos 2 aciertos usando puramente etiquetas, GPT-4 tuvo una proporción de éxito de aproximadamente el 50%. Y sí, esas son estadísticas de Stetson.
Crear una búsqueda donde el enfoque semántico sea… útil, es en realidad bastante difícil. Para mí, de todos modos, porque tenía expectativas sobre lo que debería obtener. Por lo tanto, no es solo una cuestión de búsquedas semánticas reales, sino más o menos de buscar usando una oración de búsqueda no precisa sobre una lista de términos de búsqueda creados a partir de esa oración. Sí, lo sé, esa también es una búsqueda semántica.
Mi punto débil es que el componente semántico funciona como debería, pero los problemas provienen de las limitaciones de la propia IA y de las expectativas demasiado altas del usuario. Y el idioma que no sea inglés no es un problema en sí mismo.
Pero…
La búsqueda semántica de página completa es terriblemente lenta. ¿Tengo razón si culpo a la debilidad técnica de mi VPS — no hay suficiente RAM, criaturas mágicas, etc.? Porque aquí es rápido.
En segundo lugar… ¿podemos en algún momento ofrecer los aciertos de la IA como predeterminados, sobre los generados por Discourse?
Solo para mantener las cosas y los temas juntos: me equivoqué mucho. Eso no tiene nada que ver con 3.5 y 4. La razón fue la actuación de la búsqueda semántica en móviles. Comienza a buscar después de tres caracteres y luego el resultado es muy incorrecto. Cuando se abre el filtro avanzado, o se hace clic en el botón de búsqueda si recuerdo bien, la IA realizará una nueva búsqueda y actualizará los resultados, y entonces la “tasa de aciertos” se acerca a lo correcto.