Presentamos Discourse AI

Para aquellos que se preguntan qué es una base de datos vectorial

Nota: Esto es de un proveedor comercial de bases de datos vectoriales, pero sigue siendo la mejor introducción que conozco y es la misma base de datos vectorial que utiliza OpenAI.
Para entender qué significa un vector con respecto a un modelo transformador, vea este video técnico de YouTube

4 Me gusta

Usamos GitHub - pgvector/pgvector: Open-source vector similarity search for Postgres en discourse-ai, pero a largo plazo estamos considerando otras ideas como weaviate / elastic / milvus.

Pinecone es un usuario de Discourse :hugs: https://community.pinecone.io/

11 Me gusta

Hola @sam, sí, de hecho, somos clientes felices de Discourse, y una de las combinaciones más comunes con GPT-4 para el caso de uso exacto que mencionaste: mira los logotipos + citas en nuestra página de inicio. ¿Podemos ayudarte con un POC?

8 Me gusta

Absolutamente, te conectaré con @Falco y podrás discutirlo.

Creo que sería espléndido que discourse-ai también incluyera un adaptador de pinecone, ya que reduce una enorme cantidad de fricción para los autoalojadores de nuestra plataforma.

7 Me gusta

Parece que has investigado los costos de entrenamiento, pero quería compartir mi entendimiento basado en la guía de ajuste fino de OpenAI. Si entiendo correctamente https://platform.openai.com/docs/guides/fine-tuning, recomiendan usar Ada para tareas de clasificación y proporcionar 100 ejemplos de cada clase. En ese caso, tendríamos un total de 200 ejemplos (spam y no spam). Suponiendo que un ejemplo promedio consta de 500 tokens, el total sería 500 * 200 = 100,000 tokens en Ada, lo que costaría $0.04 USD para entrenar. Si usaras Davinci en su lugar, el costo sería de $3.00 USD.

Supongo que el precio podría ser para un solo paso o una sola época de entrenamiento, pero no pude encontrar información más detallada en su sitio web. Por favor, házmelo saber si tienes alguna idea o si he entendido algo mal.

2 Me gusta

Como mencioné, esos costos fueron para mi caso de uso para mi negocio. Mi entrenamiento y uso es Davinci, no Ada, por lo que es 75 veces más caro allí. También agotamos prácticamente los tokens por solicitud.

No sé exactamente qué tendrían en mente Sam/Falco para su caso de uso, solo menciono en general que el ajuste fino puede ser costoso a escala.

2 Me gusta

¡Felicitaciones por el lanzamiento @sam y @Falco!

Estaría encantado de apoyar a Discourse con la evaluación de Weaviate. :clap:

7 Me gusta