Beobachtbarkeit für Discourse AI

aas · 12. Juli 2024 um 16:00

Die Überwachung und Bewertung von LLMs ist entscheidend:

Ich begann vor fünf Jahren mit Sprachmodellen zu arbeiten, als ich das Team leitete, das CodeSearchNet, einen Vorläufer von GitHub CoPilot, entwickelte. Seitdem habe ich viele erfolgreiche und erfolglose Ansätze beim Aufbau von LLM-Produkten gesehen. Ich habe festgestellt, dass erfolglose Produkte fast immer eine gemeinsame Ursache haben: das Versäumnis, robuste Bewertungssysteme zu schaffen.

Wenn Discourse AI geschäftskritische LLM-Aufgaben unterstützen soll, denke ich, dass die Unterstützung von Überwachungstools wie LangSmith priorisiert werden sollte.

Die Verwendung von LangSmith ist so einfach wie das Ausführen von yarn add langchain langsmith und das Hinzufügen einiger Umgebungsvariablen.

Hat das Team von Discourse darüber nachgedacht, wie wir LLM-Tracing konfigurieren können? Haben Sie auch Gedanken dazu, wie wir dies implementieren können, bevor discourse-ai dies offiziell unterstützt?

Falco · 1. August 2024 um 16:10

Hahahaha, ich wünschte.

Wir protokollieren jede einzelne Anfrage und Antwort an LLMs in einer Tabelle und ermöglichen es Administratoren, diese jederzeit über den Data Explorer abzufragen. Haben Sie das schon ausprobiert?

{
  "max_tokens": 2000,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "temperature": 0,
  "stop": [
    "\n</output>"
  ],
  "messages": [
    {
      "role": "system",
      "content": "Sie sind ein Markdown-Korrektor. Sie korrigieren grobe Tippfehler und Formulierungsfehler, behalten aber die ursprüngliche Stimme des Benutzers bei.\nSie ändern keine Codeblöcke. Ich werde Ihnen Text zur Korrektur vorlegen. Wenn nichts behoben werden muss, geben Sie den Text zurück.\nSie finden den Text zwischen den XML-Tags <input></input>.\nSie werden IMMER den korrigierten Text zwischen den XML-Tags <output></output> zurückgeben.\n\n"
    },
    {
      "role": "user",
      "content": "<input>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried already?</input>"
    }
  ]
}

{
  "id": "chat-45cd241b6e0f4a58840fcc9f49dfa56a",
  "object": "chat.completion",
  "created": 1722528517,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "<output>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried this already?</output>",
        "tool_calls": []
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 135,
    "total_tokens": 174,
    "completion_tokens": 39
  }
}

Die Erstellung von Evals für unsere Funktionen steht definitiv auf unserer Roadmap für 3.4, insbesondere für die Anpassung unserer Funktionen für verwandte Themen und Zusammenfassungen.

aas · 12. August 2024 um 16:18

Ich habe nicht gesagt, dass es alles war, was dazu gehört. (:zwinker:) Aber ich schätze, es spielt keine Rolle, da ich denke, dass LLM-Aufrufe aus Ruby erfolgen.

Das habe ich noch nicht, aber das ist brillant – danke! Theoretisch könnte ich diese exportieren und programmatisch Traces in LangSmith für Evals und Experimente erstellen.

Thema		Antworten	Aufrufe
LLM prompt evals - Nice to know Community Building ai	0	134	6. Januar 2025
What LLM to use for Discourse AI? Site Management how-to , ai	0	758	23. Januar 2025
Run Discourse AI evals Developer Guides	1	138	1. Dezember 2025
Discourse AI - Large Language Model (LLM) settings page Site Management ai , how-to	20	2982	26. November 2025
We need prompt chains: Allow custom AI persona tools to access LangChain.js and/or longer execution time Feature ai	5	162	19. September 2024

Beobachtbarkeit für Discourse AI

Verwandte Themen