Justificando la función de límite estricto en el uso de IA del grupo de usuarios para bots de IA y Asistente IA

MachineScholar · 24 Julio, 2024 10:43

He realizado algunos cálculos y he llegado a la conclusión de que, sin la capacidad de limitar la entrada y salida de tokens de un usuario al mes o al día, uno puede meterse rápidamente en problemas. Actualmente, la única forma de limitar la interacción de un usuario con un bot de IA es permitir que los bots de IA solo funcionen en mensajes privados (desactivando el chat para cada persona) y establecer un límite de mensajes privados diarios permitidos, pero, por supuesto, esto no es realista. Aquí hay un ejemplo de un desglose de costos del “peor escenario” que justifica la necesidad de esta función, utilizando el enfoque que OpenAI utiliza para sus miembros de ChatGPT:

GPT-4o mini con contexto de 32k (P.D. la longitud del contexto se establece utilizando la configuración “Número de tokens para el prompt” en la página de configuración de LLM)
Costo actual: $0.15 1M de entrada / $0.60 1M de salida

Supongamos que el usuario introduce 32k y produce 16k cada día durante 30 días (un ciclo de facturación para una suscripción típica):
Costo de entrada mensual = 960,000 tokens = ~$0.14
Costo de salida mensual = 480,000 tokens = ~$0.28

De acuerdo, eso en realidad no está mal, ¿verdad? Menos de medio dólar. Sin embargo, ese es en realidad un uso bastante bajo, especialmente dado que GPT-4o mini puede generar hasta 16.4k tokens en un solo disparo (aunque sí, por supuesto, puedes diseñar el prompt y la configuración de LLM para evitarlo). Puedes empezar a multiplicar esos costos por la cantidad que creas que tus usuarios usarían el bot de IA. Lo peor es que este es un modelo increíblemente barato; los costos son exponencialmente más altos para Claude 3.5 Sonnet ($3 1M de entrada / $15 1M de salida) y GPT-4o ($5 1M de entrada / $15 1M de salida), y ni siquiera hablemos de GPT-4 Turbo, ¡jaja! Aquí tienes el mismo desglose para Claude 3.5 Sonnet:

Claude 3.5 Sonnet con contexto de 32k
Costo de entrada mensual = ~$2.88
Costo de salida mensual = ~$7.20
Total = ~$10.08

Pero de nuevo; este es un uso bajo. Por lo tanto, queda claro lo costoso que puede ser tener un uso ilimitado de LLM en bots de IA. Si multiplicas esto por 2, necesitarías cobrar una suscripción de $25 para obtener una ganancia de poco menos de $5

Aquí está lo que propongo formalmente:

Una configuración que permita una cantidad específica de entrada y salida de tokens para un grupo de usuarios específico cada mes o día para los bots de IA.

Este uso de tokens NO incluiría el prompt del sistema para las personas.
Los límites de tokens pueden ser por LLM, por persona o universales/en general.

Alternativamente al punto 1, se podría usar un límite entero simple para usar bots de IA en DMs y PMs. Ejemplo: límite de 100 DMs a cualquier persona por día.
Una configuración que permita una cantidad específica de salida de tokens para un grupo de usuarios específico cada mes o día para el asistente de IA.

La entrada de tokens puede no contarse, ya que sería poco práctico esperar que el usuario adivine cuántos tokens tiene un tema largo cuando, por ejemplo, genera un resumen.
También podría ser prudente establecer un límite entero estricto en la longitud (en palabras para que no se tenga que usar TikToken aquí) para los prompts personalizados, para que los usuarios no intenten eludir sus límites mensuales/diarios utilizando el Compositor como un chatbot sin medidor

Un contador de tokens en el perfil del usuario y quizás incluso en sus PMs y DMs. Sería genial si hubiera un pequeño texto junto a cada mensaje de usuario e IA que muestre el número de tokens que es (no queremos necesariamente permitir que todos tengan la función de depuración, y eso solo funciona en PMs de todos modos)

Un contador de tokens separado para el asistente de IA (para ayudar a mantener estas dos funciones separadas) que comparte un recuento entre explicar, corregir, prompt personalizado, etc.

Nota al margen: No estoy criticando esta función ni a los desarrolladores de ninguna manera y me disculpo si alguna parte de esto suena así. Honestamente, el plugin Discourse AI es una de mis tecnologías favoritas de todos los tiempos. De hecho, me está permitiendo construir el negocio de mis sueños como investigador y educador de IA sin tener que contratar ingenieros adicionales y pagar infraestructura adicional: puedo configurarlo todo yo mismo . Simplemente creo que esta función es la última pieza del rompecabezas, no solo para mí, sino para numerosos usuarios de Discourse que quieren que sus usuarios disfruten de esta maravillosa tecnología dentro de lo razonable.

merefield · 24 Julio, 2024 12:56

Esto se implementó en Discourse Chatbot como un sistema de cuotas semanales en marzo de 2023 y desde entonces se ha ampliado para que puedas definir cuotas para tres colecciones diferentes de Grupos de usuarios. Por ejemplo, los miembros de pago obtienen una cuota más alta.

A los usuarios que superan su cuota semanal se les muestra un mensaje educado (que no te cuesta nada).

Además, los administradores pueden ser alertados cuando se supera una cuota.

Te envié un mensaje privado al respecto en respuesta a una de tus publicaciones anteriores sobre este tema, pero no respondiste ¿Quizás estás alojado y no tienes acceso a mi plugin?

Sinceramente, con la llegada de GPT 4o-mini, los costos de las conversaciones decentes con bots se han desplomado.

Por cierto, Discourse Chatbot ahora es utilizado por al menos una empresa para soporte al cliente de primera línea, por lo que puedes estar seguro de que es estable y eficaz.

MachineScholar · 25 Julio, 2024 14:55

¡Disculpas por la falta de respuesta! Ahora recuerdo haberlo leído, pero no tengo idea de por qué no te respondí . Y estoy en una instancia droplet, así que ese no es el problema.

No tengo dudas sobre su estabilidad y calidad; de hecho, me gusta bastante el plugin y te respeto a ti y al esfuerzo que pones en él. Sin embargo, un chatbot solo satisface una necesidad parcial para mi proyecto empresarial. El AI Helper es una necesidad central, así como la capacidad de cambiar inmediatamente entre modelos. En un futuro cercano, implementaré mi propio modelo afinado y configuraré manualmente mis LLM, y esto es de misión crítica.

Solo explico todo esto para que no pienses que tengo algo en contra de tu trabajo! Más bien, el problema es mío; estoy intentando hacer algo bastante específico.

merefield · 25 Julio, 2024 14:58

Sí, respeto totalmente el alcance de la solicitud es más amplio

Solo ofrezco una solución parcial (si bien significativa).

sam · 13 Enero, 2025 02:50

Se espera que esto aterrice esta semana:

github.com/discourse/discourse-ai

FEATURE: llm quotas

main ← quotas2

opened 06:20AM - 02 Jan 25 UTC

SamSaffron

+1684 -152

Adds a comprehensive quota management system for LLM models that allows: - Se…tting per-group token and usage limits with configurable durations - Tracking and enforcing token/usage limits across user groups - Quota reset periods (hourly, daily, weekly, or custom) - Admin UI for managing quotas with real-time updates - Full test coverage for quota models and controllers This system provides granular control over LLM API usage by allowing admins to define limits on both total tokens and number of requests per group. Supports multiple concurrent quotas per model and automatically handles quota resets. ![image](https://github.com/user-attachments/assets/76375c76-889d-438b-b464-e65c7f7a41ed) ![image](https://github.com/user-attachments/assets/21752366-2b33-4fb7-8b3f-faee74c45413) ![image](https://github.com/user-attachments/assets/c7248930-0aa7-434e-805e-56adb7cbfb2f)

MachineScholar · 13 Enero, 2025 08:04

¡Esto es IMPRESIONANTE!

En los detalles a continuación, ¿implica esto que los tokens y las solicitudes totales se comparten entre todos los usuarios del grupo, o más bien que cada usuario del grupo puede utilizar las cantidades establecidas individualmente?

Este sistema proporciona un control granular sobre el uso de la API de LLM al permitir a los administradores definir límites tanto en el total de tokens como en el número de solicitudes por grupo.

sam · 13 Enero, 2025 08:15

Oh, necesito aclarar esto en la interfaz de usuario… todos los límites son por usuario y nunca se comparten entre los miembros del grupo. El límite de cuota de grupo compartido es un concepto interesante, pero ¿no estoy seguro de que tenga sentido en la práctica? ¿Se te ocurre alguna vez que esto sería útil?

Por ahora, mi implementación es:

Elegir la cuota más “relajada” que tiene el usuario dependiendo de los grupos de los que el usuario sea miembro.
Hacer cumplir por usuario.

(esto permite inmunidad a los administradores incluso si TL2 tiene una cuota estricta)

MachineScholar · 13 Enero, 2025 08:27

Preguntaba porque realmente no tendría sentido en la práctica . Mi opinión es que tu implementación aquí es la más ideal. Mi comunidad y yo apreciamos enormemente el trabajo que se está haciendo aquí

sam · 13 Enero, 2025 08:29

El único argumento a favor de la “cuota absoluta” es:

Quiero que Tl1 pueda jugar con IA pero… como salvaguardia, limita mi gasto a N$ al día. Tl1 tiene un número desconocido de miembros.

Pero supongo que si eso es lo que la gente busca, podrían poner las cuotas absolutas directamente en los paneles de control de Anthropic / Open AI, etc.

No estoy en contra de añadir cuotas absolutas más adelante, pero probablemente me saltaré esta iteración.

BrianC · 14 Enero, 2025 04:50

@sam Esta es una actualización fantástica ¿Estarán los límites de tokens vinculados a las suscripciones? Sería increíble si pudiéramos controlar el uso y permitir que se utilicen modelos más caros por una tarifa.

sam · 14 Enero, 2025 05:00

Sí, esto puede funcionar con el sistema, puedes configurar diferentes cuotas para diferentes grupos de usuarios.

sam · 21 Enero, 2025 06:10

Esto ahora está implementado y documentado:

sam · 26 Enero, 2025 21:00

Este tema se cerró automáticamente después de 5 días. Ya no se permiten nuevas respuestas.

Tema		Respuestas	Vistas
Limit the number of AI tokens a user can use in a day? Feature completed , ai	12	456	3 Abril 2025
Balancing Costs and Functionality in AI-Powered Forums Feature ai , ai-bot	4	693	21 Enero 2025
Configuring LLM Usage Quotas in Discourse AI Site Management official , how-to , ai	4	332	21 Enero 2025
LLM Quotas for Discourse AI Announcements ai	0	139	21 Enero 2025
Discourse AI - AI usage Site Management how-to , ai	0	364	23 Enero 2025

Justificando la función de límite estricto en el uso de IA del grupo de usuarios para bots de IA y Asistente IA

Temas relacionados