La recherche sémantique pleine page est-elle uniquement en anglais ?

Recherche sémantique pleine page… ne peut-elle être qu’en anglais ? Et faut-il une magie Rails pour lui faciliter la vie ?

Je pourrais travailler à condition que vous passiez le modèle d’intégration au modèle multilingue. Je ne l’ai pas testé, mais théoriquement, cela devrait fonctionner.

Je viens de commencer à me demander car dans la plupart des cas, il n’offre rien et s’il y a des résultats de recherche, ils sont totalement non pertinents.

Quel modèle utilisez-vous pour les embeddings ?
Avez-vous généré des embeddings pour tous les sujets ?
Quel modèle utilisez-vous pour la recherche HyDE ?

  • text-embedding-ada-002
  • Pour autant que je sache, oui
  • gpt-3.5-turbo

J’ai fait quelques tests — désolé, pas très régulièrement, mais en me comportant comme un lièvre pris dans les phares d’une voiture.

Elle peut certainement fonctionner en finnois aussi. Je pense qu’il y a des problèmes plus fondamentaux avec l’IA et les langues mineures. Et les utilisateurs.

Tout d’abord, OpenAI n’a pas assez de matériel pour gérer le finnois, mais je suis sûr que cette situation concerne toutes les langues pour lesquelles il n’y a pas assez de matériel que l’IA peut utiliser pour apprendre. Cela signifie que la recherche sémantique est beaucoup plus difficile que les autres questions, et celles-ci sont vraiment difficiles pour Chat GPT lorsqu’il est utilisé dans une langue autre que l’anglais ou d’autres langues majeures.

Il semble que GPT-4 soit plus précis que GPT-3.5-turbo. Mais lorsque les résultats de 3.5 n’étaient que du bruit environ 8 fois sur 10 et même Discourse pouvait proposer les 2 bons résultats en utilisant uniquement des tags, GPT-4 avait un ratio de succès d’environ 50 %. Et oui, ce sont des statistiques approximatives.

Créer une recherche où l’approche sémantique est… utile, est en fait assez difficile. Pour moi en tout cas, car j’avais des attentes quant à ce que je devrais obtenir. Il ne s’agit donc pas seulement de recherches sémantiques réelles, mais plus ou moins de rechercher en utilisant une phrase de recherche inexacte sur une liste de termes de recherche créés à partir de cette phrase. Oui, je sais — une telle recherche est aussi une recherche sémantique.

Mon très faible point est que le composant sémantique fonctionne comme il se doit, mais les problèmes viennent des limitations de l’IA elle-même et des attentes trop élevées de l’utilisateur. Et la langue autre que l’anglais n’est pas un problème en soi.

Mais…

La recherche sémantique sur page complète est horriblement lente. Ai-je raison si je blâme la faiblesse technique de mon VPS — pas assez de RAM, créatures magiques, etc. ? Parce qu’ici, c’est rapide.

Deuxièmement… pouvons-nous à un moment donné proposer les résultats de l’IA par défaut, par rapport à ceux générés par Discourse ?

Juste pour garder les choses et les sujets ensemble : j’avais très tort. Cela n’a rien à voir avec 3.5 et 4. La raison était le fonctionnement de la recherche sémantique sur mobile. Elle commence à rechercher après trois caractères, puis le résultat est très erroné. Lorsque le filtre avancé est ouvert, ou que le bouton de recherche est cliqué si je me souviens bien, l’IA effectue une nouvelle recherche et met à jour les résultats — et alors le « ratio de succès » est plus proche de la vérité.