KI-Suche für nicht exakte Treffer

Wir nutzen unsere Website als Wissensdatenbank und Diskussionsforum für eine Universitätsabteilung. Ich kann mir zum Beispiel vorstellen, dass Leute Fragen stellen möchten wie:

  • Wann sind die Noten für den MSc verfügbar?
  • Was ist die Bestehensquote für MPsych-Studenten?
  • Wie viele Wochen Urlaub kann ich auf einmal buchen?
  • Was passiert, wenn mein Tutand ein Modul der Stufe 1 nicht besteht?
  • Was verlangt die Universität von mir, wenn sich mein Tutand selbst verletzt?
  • Wie viel bezahlen wir Forschungsteilnehmern?
  • Wie kann ich befördert werden?
  • Welche Quellen für Promotionsfinanzierung gibt es oder wann werden die Promotionsstipendien der Schule veröffentlicht?
  • Wo im Programm lernen die Studenten etwas über wiederholte Messungen der ANOVA?

In jedem dieser Fälle haben wir ziemlich gute Informationen, aber die herkömmliche Suche findet nicht die richtigen Ergebnisse zur Zusammenfassung. Manchmal findet sie nichts, aber manchmal findet sie alte Diskussionen, die nicht die „richtige“ Antwort sind.

5 „Gefällt mir“

Danke für das Feedback, Ben

Siehe die PR-Warteschlange, an der @falco arbeitet, um eine semantische Suche auf Hyde-Basis zu implementieren. Sobald diese fertig ist, werde ich versuchen, einen Befehl dafür hinzuzufügen.

2 „Gefällt mir“

Zur Information

Ich weiß, dass viele hier keine Programmierer sind und daher die Unterschiede zwischen Stichwortsuche und semantischer Suche verwirrend erscheinen mögen oder sie mehr Einblick in die Funktionsweise wünschen. Obwohl das Folgende für Programmierer ist, ist es grundlegend genug, dass Sie einige der Schlüsselkonzepte über die Unterschiede zwischen den beiden Suchmethoden lernen können, ohne ein Programmierer zu sein.

DeepLearning.AI hat kürzlich (14.08.2023) diesen kostenlosen Einführungskurs zu

Large Language Models with Semantic Search (ref)

hinzugefügt, der auf der Seite mit den Kurzlehrgängen zu finden ist.


Für diejenigen, die darauf achten, wer in der Welt der KI Rang und Namen hat, sollten einige der Vortragenden bekannt vorkommen.

1 „Gefällt mir“

Für diejenigen unter uns, die Forschungsarbeiten mögen und HyDE nicht kannten, hier ist die Arbeit.

„Precise Zero-Shot Dense Retrieval without Relevance Labels“ von Luyu Gao, Xueguang Ma, Jimmy Lin und Jamie Callan (pdf)

1 „Gefällt mir“

Können Sie einen Link bereitstellen? (Beantwortet unten)

Entschuldigen Sie die Frage, ich konnte ihn einfach nicht finden. Habe aber etwas über Bot-Befehle gelernt. (ref)

@EricGT danke für den Link. Dieses Paper ist ziemlich dicht für diejenigen, die nicht bereits viel über ML verstehen.

Ich denke, der Kernpunkt ist, dass HyDE, wie hier angewendet, ein LLM verwenden würde, um zuerst eine „erfundene“ Antwort basierend auf der Frage zu erstellen. Diese Antwort wird die Form eines echten Forumsbeitrags (zum Beispiel) haben, kann aber Halluzinationen enthalten und sachlich falsch sein, da der Inhalt vom LLM und nicht von einem kanonischen Dokumentensatz stammt. Dieses Dokument wird dem Benutzer nie gezeigt, aber der clevere Trick ist, dass dieses Dokument semantisch ähnlichen echten Dokumenten/Themen auf Ihrer Website entspricht. Die Suche gibt echte Dokumente zurück, die dem „erfundenen“ Dokument am ähnlichsten sind, und empirisch scheint dies besser zu funktionieren, als nur den rohen Suchbegriff mit semantisch ähnlichen Dokumenten in der Einbettungsdatenbank abzugleichen.

@sam Hyde basierte Suche klingt cool und ich freue mich darauf, sie auszuprobieren. Stellst du dir einstellbare Regler für einige dieser KI-Funktionen vor? Zum Beispiel könnte es schön sein, die Prompts zu bearbeiten, die sowohl zur Generierung des hypothetischen Dokuments als auch zur Steuerung der Zusammenfassung/Antwort verwendet werden. Zum Beispiel ist der aktuelle Chatbot ziemlich wortreich, wenn er Antworten findet. Es wäre schön, dem Prompt ein Präfix wie „prägnant“ oder „kurz“ hinzufügen zu können (wie ich es oft tue, wenn ich ChatGPT selbst benutze).

4 „Gefällt mir“
4 „Gefällt mir“

Guter Hinweis!


Ich weiß, dass viele dieser Aussage keine Beachtung schenken werden, aber wenn Sie echtes Geld für die Ausführung von Prompts bezahlen, ist dies eine der wertvollsten Aussagen, die Sie verstehen müssen.

Siehe:

Prompts

40-90%: Betrag, der durch Anhängen von „Sei prägnant“ an Ihre Eingabeaufforderung gespart wird

Es ist wichtig zu bedenken, dass Sie pro Token für Antworten bezahlen. Das bedeutet, dass Sie viel Geld sparen können, wenn Sie ein LLM bitten, prägnant zu sein [1]. Dies kann über das einfache Anhängen von „Sei prägnant“ an Ihre Eingabeaufforderung hinaus erweitert werden: Wenn Sie GPT-4 verwenden, um 10 Alternativen zu finden, bitten Sie es vielleicht um 5 und behalten Sie die andere Hälfte des Geldes.

1 „Gefällt mir“

Wir haben das Backend dafür bereit, aber es wird eine Weile dauern, bis wir es richtig in die Suchergebnisseite von Discourse integriert haben, da die Benutzeroberfläche etwas knifflig ist.

Heute bieten wir keine Kontrolle über die Prompts, aber wir werden diese in Zukunft anpassbar machen, nachdem wir die Funktion gut zum Laufen gebracht haben.

3 „Gefällt mir“

Du kannst sie hier auf Meta ausprobieren, gehe einfach zur Suchseite und probiere ein paar Fragen aus. Lass mich wissen, wie es für dich läuft.

2 „Gefällt mir“

Es ist großartig! Besonders wenn ich eine Suchphrase eingebe, die bei der exakten Übereinstimmungssuche „Keine Ergebnisse gefunden“ zurückgibt.

Ich erhalte ziemlich viele semantisch korrekte Treffer für geschlossene #marketplace-Themen. Möglicherweise ist es nützlich, diese zurückzugeben, aber vielleicht sollten sie am Ende der Liste erscheinen.

Vielleicht könnten einige Suchen auf bestimmte Kategorien oder Tags eingegrenzt werden. Zum Beispiel:

  • Bei der Suche nach „Wie kann ich verhindern, dass Aktivierungs-E-Mails gesendet werden, wenn sich Benutzer von WordPress aus anmelden?“ werden die besten Ergebnisse in Documentation oder Support > WordPress gefunden.

  • Bei der Suche nach „Wie schreibe ich eine Data Explorer-Abfrage, die die meistgelikten Themen zurückgibt?“ werden die besten Ergebnisse in den Kategorien Data & reporting und Documentation gefunden.

Wenn es möglich wäre, könnte die anfängliche Suche Ergebnisse aus den wahrscheinlichsten Kategorien zurückgeben und es könnte ein Vorschlag gemacht werden, die Suche auf andere Kategorien auszuweiten.

Wenn man die semantische Suche als erste Anlaufstelle für die Nutzung von Discourse als Kundensupport-Forum betrachtet, wäre es schön, bestimmte Kategorien oder Tags priorisieren zu können. Zum Beispiel könnte auf Meta die anfängliche Suche die Suche in der Kategorie Documentation priorisieren.

4 „Gefällt mir“

Das ist genau eines der Probleme, die ich mit dieser neuen Funktion angehen wollte. Die semantische Suche wird immer etwas finden.

Im Moment ist die semantische Suche ziemlich rudimentär. Sie besteht nur aus ein paar Codezeilen im Backend und gibt zurück, was semantisch am nächsten liegt. Ihr fehlen einige der Suchfunktionen, die wir in den letzten zehn Jahren zur Standard-Suche hinzugefügt haben, wie z. B. Suchverbesserungen in 2.3 und viele andere. Aus diesem Grund wird sie derzeit als ergänzendes Ergebnis-Set angeboten.

Wenn die Funktion gut angenommen wird und wir die Benutzeroberfläche im Produkt perfektionieren können, werden wir versuchen, die Discourse-spezifischen Teile in die semantischen Suchergebnisse zu integrieren.

5 „Gefällt mir“

Ja, das ist wirklich erstaunlich für komplexe Anfragen.

Obwohl sie für diese Abfrage keinen Beitrag gefunden hat, konnte sie genügend Themen finden, die auf den richtigen Ort hinweisen!

5 „Gefällt mir“