DiscourseAIのための自己ホスティング埋め込み

友人がこのスレッドをDMで送ってきました。

長所/短所:

  • Infinityはマルチモーダル埋め込み(画像/音声の送信)をサポートしています。
  • AMD GPUのサポート
  • 1つのコンテナで複数のモデルをサポート(modelパラメータでモデルを制御)。
  • より多くのデータ型、例えば重みのint8量子化(これはほとんどの場合無関係で、アクティベーションメモリの方が大きいです)。
  • Huggingfaceリポジトリで出荷される「カスタムモデリングコード」を通じて新しいモデルが頻繁にリリースされます。Infinityは必要に応じてこのPyTorchコードを読み取ります。これにより、「XYZモデルをサポートできますか」という問い合わせが継続的に発生するのを回避できます。
  • より多くのモデルをサポート(例:MixedBreadのdebertav2)。

短所:

  • TEIのコールドスタート時間は改善されました。
「いいね!」 3