HuggingFace TGI vs OpenAI API-Endpunktkosten

Ein Praktikant hat unsere Discourse-Site auf DigitalOcean mit OpenAI über einen API-Endpunkt, der mit dem Discourse AI-Plugin verbunden ist, bereitgestellt. Die Website funktioniert hervorragend. Der Praktikant schlug vor, sich HuggingFace TGI anzusehen. Ich versuche, dem Praktikanten eine Anleitung zu geben, um zu sehen, ob er mit HuggingFace auf dem richtigen Weg ist. Ich glaube, sie schlagen selbst gehostetes HuggingFace TGI vor, um Kosten zu senken. Wenn ich mir jedoch die GPU-Kosten für das Hosting ansehe, erscheint es teuer.

Ich könnte den Praktikanten bitten, spezifische Dienste und Kosten vorzuschlagen, aber ich versuche, mit strategischer Anleitung zu helfen. Die Alternative ist, dass der Praktikant weiterhin OpenAI, Anthropic, Gemini testet.

Gibt es Ratschläge, was ich dem Praktikanten zuweisen sollte?
Die Grundidee ist, Discourse AI in einer Produktionsbereitstellung von Discourse zu implementieren und dann den Kunden (denjenigen, der die Community finanziert) zu bitten, eine zusätzliche Servicegebühr für die Wartung der KI und die Bewerbung der neuen Funktionen zu zahlen.

Was die Aufgaben für Praktikanten betrifft, könnte ich ihnen auch die Hugging Face Inference API zuweisen. Ist sie günstiger als die Verwendung der OpenAI API?

Nutzt jemand spezifische Dienste von Google Cloud, AWS, Azure, um TGI zu hosten?

Sollten sie sich zum Beispiel für AWS g4dn.xlarge oder g5.xlarge ansehen?

Ist für GCP T4 GPUs der empfohlene Weg?

Gibt es Ratschläge, wie sie die Kosten berechnen würden?

1 „Gefällt mir“

Bei einer einzelnen Instanz ist es schwer, die API-Preise zu unterbieten, da Sie bei API-Preisen pro Aufruf bezahlen, während Sie beim Ausführen von TGI pro Stunde bezahlen, in der der Server läuft.

Nehmen wir an, Sie führen Llama 3.1 8B auf einem g6.xlarge aus. Das kostet Sie ungefähr 600 US-Dollar pro Monat. Dies könnte Ihnen etwa 450 Millionen Tokens in Anthropic Claude 3.5 Haiku einbringen.

Das Ausführen Ihres eigenen LLM ist sinnvoll, wenn Sie entweder Privatsphäre oder Skalierbarkeit benötigen.

5 „Gefällt mir“

Vielen Dank für Ihre Antwort. 600 $/Monat für Llama 3.1 8B in g6.xlarge wären angemessene Kosten, aber wie Sie gnädigerweise angemerkt haben, wären die API-Kosten günstiger. Daher werden wir uns wahrscheinlich für die OpenAI- und andere API-Kosten entscheiden. Welche Datenschutzbedenken gibt es?

Gibt es für Experimente mit HuggingFace TGI etwas Günstigeres als 600 $/Monat, das wir zum Testen verwenden könnten? Kann der Praktikant zum Beispiel die GPU-Instanz ausschalten, wenn er nicht arbeitet? Ich versuche herauszufinden, was ich ihm empfehlen kann. Ich bin etwas verwirrt über die Kosten für die GPU-fähigen Container und möchte dem Praktikanten nicht die Last der Kosteneinschätzung aufbürden. Wenn er einen Fehler beim Kauf eines Containers macht, könnte er sich schlecht fühlen.

Ich möchte ihnen die Ressourcen kaufen und sie dann anweisen, HuggingFace TGI in der von mir gekauften Ressource zu testen. Sie können dann über Leistungs- oder Ergebnisoptimierungsunterschiede berichten.

2 „Gefällt mir“