Um amigo acabou de me enviar este tópico por DM.
Alguns Prós/Contras:
- o infinity suporta embeddings multimodais (ou seja, enviar imagens/áudio) para o
- suporte a GPU amd
- vários modelos suportados no mesmo contêiner (controle o modelo via parâmetro
model). - mais dtypes, por exemplo, quantização int8 dos pesos (principalmente isso é irrelevante, a memória de ativação é maior)
- novos modelos frequentemente são lançados via “código de modelagem personalizado” enviado no repositório huggingface. O Infinity lê este código pytorch, se necessário. Isso o ajudará a evitar o “você pode suportar modelos xyz” de forma contínua)
- mais modelos suportados (por exemplo, debertav2 para mixedbread)
Contras:
- o tempo de inicialização a frio do TEI é melhor