Самостоятельное размещение эмбеддингов для DiscourseAI

Друг только что прислал мне эту ветку в ДМ.

Плюсы и минусы:

  • Infinity поддерживает мультимодальные эмбеддинги (то есть отправку изображений и аудио) в
  • поддержку GPU от AMD
  • возможность запуска нескольких моделей в одном контейнере (управление моделью через параметр model)
  • больше типов данных, например, квантование весов до int8 (в основном это неактуально, так как память для активаций больше)
  • новые модели часто появляются в виде «пользовательского кода моделирования», поставляемого в репозитории Hugging Face. Infinity при необходимости читает этот код на PyTorch. Это поможет вам избежать постоянных вопросов «можете ли вы поддержать модель xyz»
  • поддержка большего числа моделей (например, DeBERTaV2 для Mixedbread)

Минусы:

  • время холодного запуска у TEI лучше
3 лайка