Beobachtbarkeit für Discourse AI

Die Überwachung und Bewertung von LLMs ist entscheidend:

Ich begann vor fünf Jahren mit Sprachmodellen zu arbeiten, als ich das Team leitete, das CodeSearchNet, einen Vorläufer von GitHub CoPilot, entwickelte. Seitdem habe ich viele erfolgreiche und erfolglose Ansätze beim Aufbau von LLM-Produkten gesehen. Ich habe festgestellt, dass erfolglose Produkte fast immer eine gemeinsame Ursache haben: das Versäumnis, robuste Bewertungssysteme zu schaffen.

Wenn Discourse AI geschäftskritische LLM-Aufgaben unterstützen soll, denke ich, dass die Unterstützung von Überwachungstools wie LangSmith priorisiert werden sollte.

Die Verwendung von LangSmith ist so einfach wie das Ausführen von yarn add langchain langsmith und das Hinzufügen einiger Umgebungsvariablen.

Hat das Team von Discourse darüber nachgedacht, wie wir LLM-Tracing konfigurieren können? Haben Sie auch Gedanken dazu, wie wir dies implementieren können, bevor discourse-ai dies offiziell unterstützt?

2 „Gefällt mir“

Hahahaha, ich wünschte.

Wir protokollieren jede einzelne Anfrage und Antwort an LLMs in einer Tabelle und ermöglichen es Administratoren, diese jederzeit über den Data Explorer abzufragen. Haben Sie das schon ausprobiert?

{
  "max_tokens": 2000,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "temperature": 0,
  "stop": [
    "\n</output>"
  ],
  "messages": [
    {
      "role": "system",
      "content": "Sie sind ein Markdown-Korrektor. Sie korrigieren grobe Tippfehler und Formulierungsfehler, behalten aber die ursprüngliche Stimme des Benutzers bei.\nSie ändern keine Codeblöcke. Ich werde Ihnen Text zur Korrektur vorlegen. Wenn nichts behoben werden muss, geben Sie den Text zurück.\nSie finden den Text zwischen den XML-Tags <input></input>.\nSie werden IMMER den korrigierten Text zwischen den XML-Tags <output></output> zurückgeben.\n\n"
    },
    {
      "role": "user",
      "content": "<input>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried already?</input>"
    }
  ]
}
{
  "id": "chat-45cd241b6e0f4a58840fcc9f49dfa56a",
  "object": "chat.completion",
  "created": 1722528517,
  "model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "<output>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried this already?</output>",
        "tool_calls": []
      },
      "logprobs": null,
      "finish_reason": "stop",
      "stop_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 135,
    "total_tokens": 174,
    "completion_tokens": 39
  }
}

Die Erstellung von Evals für unsere Funktionen steht definitiv auf unserer Roadmap für 3.4, insbesondere für die Anpassung unserer Funktionen für verwandte Themen und Zusammenfassungen.

1 „Gefällt mir“

Ich habe nicht gesagt, dass es alles war, was dazu gehört. (:zwinker:) Aber ich schätze, es spielt keine Rolle, da ich denke, dass LLM-Aufrufe aus Ruby erfolgen.

Das habe ich noch nicht, aber das ist brillant – danke! Theoretisch könnte ich diese exportieren und programmatisch Traces in LangSmith für Evals und Experimente erstellen.

1 „Gefällt mir“