Esta es una guía dirigida a ejecutar tus propias instancias de los servicios que potencian los módulos de Discourse AI.
Introducción
Si deseas utilizar Discourse AI en tu instancia autoalojada, es posible que también necesites ejecutar los servicios complementarios para los módulos que deseas habilitar.
Cada módulo tiene uno o más servicios complementarios necesarios, y esos servicios utilizan más CPU / GPU / espacio en disco que el propio Discourse, así que ten en cuenta que esto no se recomienda para personas que no estén familiarizadas con la administración de servidores Linux y Docker.
Resumen / Ayudante de IA / Bot de IA
Embeddings
Sentimiento
Ejecución en producción
Es posible que desees colocar este servicio detrás de un proxy inverso para habilitar funciones como balanceo de carga, TLS, comprobaciones de estado, límites de tasa, etc., al ejecutarlo en un sitio en vivo.
Una vez que el servicio esté en funcionamiento, configura el módulo para que se conecte al dominio donde se ejecuta el servicio utilizando la configuración del sitio apropiada y luego habilita el módulo.
Composer Helper solo funciona con las API de OpenAI o Anthropic por ahora, por lo que funcionará perfectamente en situaciones autoalojadas siempre que tengas una de esas API.
¿La resumen requiere un servicio de clasificación local? ¿O funcionará solo con una clave API de OpenAI si se utiliza el modelo ChatGPT3.5? Lo activé pero no lo veo en los temas.
Según Discourse AI - Resumición, puedes usarlo con OpenAI configurando la clave de OpenAI (que ya hiciste), seleccionando uno de los modelos GPT como modelo de resumición y habilitando el módulo de resumición.
El botón de resumen solo se muestra actualmente para temas con más de 50 respuestas, pero pronto lo habilitaremos para todos los temas.
¿Podrías compartir algunas solicitudes de ejemplo? Actualmente estoy intentando configurar esto en un ASG de AWS en una instancia EC2 y no consigo que funcione; solo veo 400 solicitud incorrecta en los registros de Discourse.
Además, una URL de verificación de estado sería genial, / emite un error 404.
El resumen ya funciona con las API de OpenAI y Anthropic, por lo que eso te dará capacidades multilingües. Es posible que necesites modificar un poco para traducir el prompt y mantenerlo más centrado en el idioma del tema.
@Falco ¿Serías tan amable de dar un ejemplo de configuración de servidor que tenga ‘mucha CPU / GPU / Disco’ y pueda ejecutar la IA autoalojada junto con un foro promedio de Discourse?
Me gustaría verlo también, por favor. Además, dados los requisitos de recursos, ¿sería mejor (posible, más rentable?) descargar los servicios de IA complementarios a un VPS separado?
Depende de los modelos y módulos exactos de Discourse AI que desees ejecutar. Por ejemplo, el módulo de toxicidad utiliza 5 GB y el módulo NSFW utiliza 1 GB de RAM. El espacio en disco es similar, y la CPU/GPU se utiliza para la inferencia, por lo que tus necesidades dependen del número de solicitudes por segundo que esperes tener.
Algunos LLM son de código abierto como Falcon o varios modelos basados en LLaMA (que vienen con preguntas de licencia) se pueden autoalojar, pero hasta la fecha todos tienen un rendimiento inferior a GPT 4 o incluso 3.5.
Tu cálculo de servilleta está muy equivocado, si vas a autoalojar un LLM probablemente querrás una A100 o H100, quizás unas cuantas… intenta buscar los precios en Google…
De todos modos, intentaré aportar algo y volveré para actualizarlo cuando tenga algunos datos de usuario para comparar.
Aquí están los cálculos que realicé para usar la API de ChatGPT3.5 con los módulos anteriores, basándome en la suposición muy vaga de que un usuario activo promedio en un mes generará en promedio 100 palabras en una ejecución:
Costos de la API de ChatGPT3.5
$0.0003 por 100 palabras en una ejecución
1 usuario activo promedia alrededor de 100 palabras por día en cada módulo de IA
Costo mensual promedio por complemento/componente de IA: 0.009
6 = $0.054
Esto da un costo mensual total por usuario para los 6 complementos de $0.054 si se ejecutan en ChatGPT3.5.
Gracias. Aquí se muestran los precios actuales para cualquiera que se pregunte qué es un g4dn.xlarge. Espero que pueda publicar datos de utilización en algún momento para que podamos tener una idea de los costos del mundo real.