La recherche sémantique pleine page est-elle uniquement en anglais ?

J’ai fait quelques tests — désolé, pas très régulièrement, mais en me comportant comme un lièvre pris dans les phares d’une voiture.

Elle peut certainement fonctionner en finnois aussi. Je pense qu’il y a des problèmes plus fondamentaux avec l’IA et les langues mineures. Et les utilisateurs.

Tout d’abord, OpenAI n’a pas assez de matériel pour gérer le finnois, mais je suis sûr que cette situation concerne toutes les langues pour lesquelles il n’y a pas assez de matériel que l’IA peut utiliser pour apprendre. Cela signifie que la recherche sémantique est beaucoup plus difficile que les autres questions, et celles-ci sont vraiment difficiles pour Chat GPT lorsqu’il est utilisé dans une langue autre que l’anglais ou d’autres langues majeures.

Il semble que GPT-4 soit plus précis que GPT-3.5-turbo. Mais lorsque les résultats de 3.5 n’étaient que du bruit environ 8 fois sur 10 et même Discourse pouvait proposer les 2 bons résultats en utilisant uniquement des tags, GPT-4 avait un ratio de succès d’environ 50 %. Et oui, ce sont des statistiques approximatives.

Créer une recherche où l’approche sémantique est… utile, est en fait assez difficile. Pour moi en tout cas, car j’avais des attentes quant à ce que je devrais obtenir. Il ne s’agit donc pas seulement de recherches sémantiques réelles, mais plus ou moins de rechercher en utilisant une phrase de recherche inexacte sur une liste de termes de recherche créés à partir de cette phrase. Oui, je sais — une telle recherche est aussi une recherche sémantique.

Mon très faible point est que le composant sémantique fonctionne comme il se doit, mais les problèmes viennent des limitations de l’IA elle-même et des attentes trop élevées de l’utilisateur. Et la langue autre que l’anglais n’est pas un problème en soi.

Mais…

La recherche sémantique sur page complète est horriblement lente. Ai-je raison si je blâme la faiblesse technique de mon VPS — pas assez de RAM, créatures magiques, etc. ? Parce qu’ici, c’est rapide.

Deuxièmement… pouvons-nous à un moment donné proposer les résultats de l’IA par défaut, par rapport à ceux générés par Discourse ?