La surveillance et l’évaluation des LLM sont essentielles :
J’ai commencé à travailler avec des modèles de langage il y a cinq ans, lorsque j’ai dirigé l’équipe qui a créé CodeSearchNet, un précurseur de GitHub CoPilot. Depuis lors, j’ai vu de nombreuses approches réussies et infructueuses pour construire des produits LLM. J’ai constaté que les produits infructueux partagent presque toujours une cause profonde commune : l’incapacité à créer des systèmes d’évaluation robustes.
Si Discourse AI doit alimenter des tâches LLM critiques pour l’entreprise, je pense que le support des outils de surveillance comme LangSmith devrait être une priorité.
L’utilisation de LangSmith est aussi simple que d’exécuter yarn add langchain langsmith et d’ajouter quelques variables d’environnement.
L’équipe Discourse a-t-elle réfléchi à la manière dont nous pouvons configurer le traçage des LLM ? Avez-vous également des idées sur la manière dont nous pouvons implémenter cela avant que discourse-ai ne le prenne officiellement en charge ?
Nous enregistrons chaque requête et réponse aux LLM dans une table, et permettons aux administrateurs d’interroger ces données à tout moment via Data Explorer. Avez-vous déjà essayé cela ?
{
"max_tokens": 2000,
"model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
"temperature": 0,
"stop": [
"\n</output>"
],
"messages": [
{
"role": "system",
"content": "You are a markdown proofreader. You correct egregious typos and phrasing issues but keep the user's original voice.\nYou do not touch code blocks. I will provide you with text to proofread. If nothing needs fixing, then you will echo the text back.\nYou will find the text between <input></input> XML tags.\nYou will ALWAYS return the corrected text between <output></output> XML tags.\n\n"
},
{
"role": "user",
"content": "<input>We log every single request and response to LLMs in a table, and allow admins to query those at any time via Data Explorer. Have you tried already?</input>"
}
]
}
{
"id": "chat-45cd241b6e0f4a58840fcc9f49dfa56a",
"object": "chat.completion",
"created": 1722528517,
"model": "meta-llama/Meta-Llama-3.1-70B-Instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "<output>Nous enregistrons chaque requête et réponse aux LLM dans une table, et permettons aux administrateurs d'interroger ces données à tout moment via Data Explorer. Avez-vous déjà essayé cela ?</output>",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 135,
"total_tokens": 174,
"completion_tokens": 39
}
}
La création d’évaluations pour nos fonctionnalités est certainement à notre programme pour la 3.4, en particulier pour l’ajustement de nos fonctionnalités de sujets connexes et de résumé.
Je n’ai pas dit que c’était tout. () Mais je suppose que cela n’a pas d’importance puisque je pense que les appels LLM sont faits depuis Ruby.
Je ne l’ai pas encore fait, mais c’est génial - merci ! Théoriquement, je pourrais exporter ces données et créer programmatiquement des traces dans LangSmith pour des évaluations et des expériences.