Self-Hosting Embeddings for DiscourseAI

一位朋友刚刚给我发了这条线索的私信。

一些优点/缺点:

  • Infinity 支持多模态嵌入(即发送图像/音频)
  • AMD GPU 支持
  • 同一个容器中支持多个模型(通过 model 参数控制模型)。
  • 更多数据类型,例如权重的 int8 量化(这大多无关紧要,激活内存更大)
  • 新模型通常通过 Hugging Face 存储库中提供的“自定义建模代码”发布。Infinity 在需要时会读取此 PyTorch 代码。这将帮助您避免持续的“你能支持 xyz 模型吗”的问题)
  • 支持更多模型(例如,用于 MixedBread 的 debertav2)

缺点:

  • TEI 的冷启动时间更好
3 个赞