Auto-hospedagem de Embeddings para DiscourseAI

Para economizar espaço, é possível usar embeddings quantizados? Gostaria de usar embeddings quantizados binários para realmente reduzir o tamanho de armazenamento. Tendo feito alguns testes, obtenho mais de 90% de desempenho com 32x menos armazenamento!

1 curtida