Auto-hospedagem de Embeddings para DiscourseAI

Um amigo acabou de me enviar este tópico por DM.

Alguns Prós/Contras:

  • o infinity suporta embeddings multimodais (ou seja, enviar imagens/áudio) para o
  • suporte a GPU amd
  • vários modelos suportados no mesmo contêiner (controle o modelo via parâmetro model).
  • mais dtypes, por exemplo, quantização int8 dos pesos (principalmente isso é irrelevante, a memória de ativação é maior)
  • novos modelos frequentemente são lançados via “código de modelagem personalizado” enviado no repositório huggingface. O Infinity lê este código pytorch, se necessário. Isso o ajudará a evitar o “você pode suportar modelos xyz” de forma contínua)
  • mais modelos suportados (por exemplo, debertav2 para mixedbread)

Contras:

  • o tempo de inicialização a frio do TEI é melhor
3 curtidas