Ist die ganzseitige semantische Suche nur auf Englisch?

Semantische Volltextsuche… kann sie nur Englisch? Und braucht es etwas Rails-Magie, um ihr Leben einfacher zu machen?

Ich könnte arbeiten, vorausgesetzt, Sie wechseln das Einbettungsmodell zum mehrsprachigen. Ich habe es nicht getestet, aber theoretisch sollte es funktionieren.

Ich habe mich gerade gewundert, weil es in den meisten Fällen nichts bieten kann und wenn es Suchergebnisse gibt, diese überhaupt nicht relevant sind.

Welches Modell verwenden Sie für Embeddings?
Haben Sie Embeddings für alle Themen generiert?
Welches Modell verwenden Sie für HyDE Search?

  • text-embedding-ada-002
  • Soweit ich weiß, ja
  • gpt-3.5-turbo

Ich habe ein wenig getestet – Entschuldigung, nicht sehr konsequent, aber wie ein Hase zwischen den Scheinwerfern eines Autos.

Sie kann definitiv auch Finnisch. Ich denke, es gibt grundlegendere Probleme mit KI und kleineren Sprachen. Und Benutzern.

Zunächst einmal hat OpenAI nicht genug Material, um Finnisch zu verarbeiten, aber ich bin sicher, dass diese Situation für alle Sprachen gilt, in denen es nicht genügend Material gibt, das die KI lernen kann. Das bedeutet, dass Semantik weitaus schwieriger ist als andere Fragen, und diese sind für Chat GPT wirklich schwierig, wenn es andere Sprachen als Englisch oder andere wichtige Sprachen verwendet.

Es scheint, dass GPT-4 genauer ist als GPT-3.5-turbo. Aber wenn Treffer bei 3.5 nur Rauschen waren, vielleicht 8 von 10 Mal, und selbst Discourse diese 2 richtigen Treffer nur mit reinen Tags liefern konnte, hatte GPT-4 eine Erfolgsquote von etwa 50 %. Und ja, das sind Stetson-Statistiken.

Eine Suche zu erstellen, bei der der semantische Ansatz hilfreich ist, ist tatsächlich ziemlich schwierig. Zumindest für mich, weil ich Erwartungen hatte, was ich bekommen sollte. Es geht also nicht nur um echte semantische Suchen, sondern mehr oder weniger um die Suche mit einem ungenauen Suchsatz über eine Liste von Suchbegriffen, die aus diesem Satz erstellt wurden. Ja, ich weiß – so etwas ist auch eine semantische Suche.

Mein sehr schwacher Punkt ist, dass die semantische Komponente wie erwartet funktioniert, aber die Probleme von den Einschränkungen der KI selbst und den zu hohen Erwartungen des Benutzers herrühren. Und Sprachen außer Englisch sind per se kein Problem.

Aber…

Die semantische Volltextsuche ist schrecklich langsam. Habe ich Recht, wenn ich die technische Schwäche meines VPS beschuldige – nicht genug RAM, magische Kreaturen usw.? Denn hier ist sie schnell.

Zweitens… können wir an einem bestimmten Punkt KI-Treffer als Standard anbieten, über die von Discourse generierten?

Nur um die Dinge und Themen zusammenzuhalten: Ich habe mich sehr geirrt. Das hat nichts mit 3.5 und 4 zu tun. Der Grund war das Verhalten der semantischen Suche auf Mobiltelefonen. Sie beginnt nach drei Zeichen mit der Suche und das Ergebnis ist dann sehr falsch. Wenn der erweiterte Filter geöffnet wird oder auf die Suchschaltfläche geklickt wird, wenn ich mich richtig erinnere, führt die KI eine neue Suche durch und aktualisiert die Ergebnisse – und dann liegt die „Trefferquote“ näher am Richtigen.