一位朋友刚刚给我发了这条线索的私信。
一些优点/缺点:
- Infinity 支持多模态嵌入(即发送图像/音频)
- AMD GPU 支持
- 同一个容器中支持多个模型(通过
model参数控制模型)。 - 更多数据类型,例如权重的 int8 量化(这大多无关紧要,激活内存更大)
- 新模型通常通过 Hugging Face 存储库中提供的“自定义建模代码”发布。Infinity 在需要时会读取此 PyTorch 代码。这将帮助您避免持续的“你能支持 xyz 模型吗”的问题)
- 支持更多模型(例如,用于 MixedBread 的 debertav2)
缺点:
- TEI 的冷启动时间更好