¿La búsqueda semántica de página completa es solo en inglés?

He hecho algunas pruebas — lo siento, no muy consistentemente, pero usando el estilo de una liebre entre los faros de un coche.

Definitivamente también funciona en finés. Creo que hay problemas más fundamentales con la IA y los idiomas minoritarios. Y los usuarios.

En primer lugar, OpenAI no tiene suficiente material para manejar el finés, pero estoy seguro de que esa situación incluye a todos los idiomas donde no hay suficiente material que la IA pueda usar para aprender. Eso significa que la semántica es una cuestión mucho más difícil que otras, y esas son realmente difíciles para Chat GPT cuando se usa un idioma que no sea inglés u otros importantes.

Parece que GPT-4 es más preciso que GPT-3.5-turbo. Pero cuando los aciertos de 3.5 eran solo ruido, quizás 8 de cada 10, e incluso Discourse podía ofrecer esos 2 aciertos usando puramente etiquetas, GPT-4 tuvo una proporción de éxito de aproximadamente el 50%. Y sí, esas son estadísticas de Stetson.

Crear una búsqueda donde el enfoque semántico sea… útil, es en realidad bastante difícil. Para mí, de todos modos, porque tenía expectativas sobre lo que debería obtener. Por lo tanto, no es solo una cuestión de búsquedas semánticas reales, sino más o menos de buscar usando una oración de búsqueda no precisa sobre una lista de términos de búsqueda creados a partir de esa oración. Sí, lo sé, esa también es una búsqueda semántica.

Mi punto débil es que el componente semántico funciona como debería, pero los problemas provienen de las limitaciones de la propia IA y de las expectativas demasiado altas del usuario. Y el idioma que no sea inglés no es un problema en sí mismo.

Pero…

La búsqueda semántica de página completa es terriblemente lenta. ¿Tengo razón si culpo a la debilidad técnica de mi VPS — no hay suficiente RAM, criaturas mágicas, etc.? Porque aquí es rápido.

En segundo lugar… ¿podemos en algún momento ofrecer los aciertos de la IA como predeterminados, sobre los generados por Discourse?