Para aquellos que se preguntan qué es una base de datos vectorial
Nota: Esto es de un proveedor comercial de bases de datos vectoriales, pero sigue siendo la mejor introducción que conozco y es la misma base de datos vectorial que utiliza OpenAI.
Para entender qué significa un vector con respecto a un modelo transformador, vea este video técnico de YouTube
Hola @sam, sí, de hecho, somos clientes felices de Discourse, y una de las combinaciones más comunes con GPT-4 para el caso de uso exacto que mencionaste: mira los logotipos + citas en nuestra página de inicio. ¿Podemos ayudarte con un POC?
Absolutamente, te conectaré con @Falco y podrás discutirlo.
Creo que sería espléndido que discourse-ai también incluyera un adaptador de pinecone, ya que reduce una enorme cantidad de fricción para los autoalojadores de nuestra plataforma.
Parece que has investigado los costos de entrenamiento, pero quería compartir mi entendimiento basado en la guía de ajuste fino de OpenAI. Si entiendo correctamente https://platform.openai.com/docs/guides/fine-tuning, recomiendan usar Ada para tareas de clasificación y proporcionar 100 ejemplos de cada clase. En ese caso, tendríamos un total de 200 ejemplos (spam y no spam). Suponiendo que un ejemplo promedio consta de 500 tokens, el total sería 500 * 200 = 100,000 tokens en Ada, lo que costaría $0.04 USD para entrenar. Si usaras Davinci en su lugar, el costo sería de $3.00 USD.
Supongo que el precio podría ser para un solo paso o una sola época de entrenamiento, pero no pude encontrar información más detallada en su sitio web. Por favor, házmelo saber si tienes alguna idea o si he entendido algo mal.
Como mencioné, esos costos fueron para mi caso de uso para mi negocio. Mi entrenamiento y uso es Davinci, no Ada, por lo que es 75 veces más caro allí. También agotamos prácticamente los tokens por solicitud.
No sé exactamente qué tendrían en mente Sam/Falco para su caso de uso, solo menciono en general que el ajuste fino puede ser costoso a escala.