Ein Praktikant hat unsere Discourse-Site auf DigitalOcean mit OpenAI über einen API-Endpunkt, der mit dem Discourse AI-Plugin verbunden ist, bereitgestellt. Die Website funktioniert hervorragend. Der Praktikant schlug vor, sich HuggingFace TGI anzusehen. Ich versuche, dem Praktikanten eine Anleitung zu geben, um zu sehen, ob er mit HuggingFace auf dem richtigen Weg ist. Ich glaube, sie schlagen selbst gehostetes HuggingFace TGI vor, um Kosten zu senken. Wenn ich mir jedoch die GPU-Kosten für das Hosting ansehe, erscheint es teuer.
Ich könnte den Praktikanten bitten, spezifische Dienste und Kosten vorzuschlagen, aber ich versuche, mit strategischer Anleitung zu helfen. Die Alternative ist, dass der Praktikant weiterhin OpenAI, Anthropic, Gemini testet.
Gibt es Ratschläge, was ich dem Praktikanten zuweisen sollte?
Die Grundidee ist, Discourse AI in einer Produktionsbereitstellung von Discourse zu implementieren und dann den Kunden (denjenigen, der die Community finanziert) zu bitten, eine zusätzliche Servicegebühr für die Wartung der KI und die Bewerbung der neuen Funktionen zu zahlen.
Was die Aufgaben für Praktikanten betrifft, könnte ich ihnen auch die Hugging Face Inference API zuweisen. Ist sie günstiger als die Verwendung der OpenAI API?
Nutzt jemand spezifische Dienste von Google Cloud, AWS, Azure, um TGI zu hosten?
Sollten sie sich zum Beispiel für AWS g4dn.xlarge oder g5.xlarge ansehen?
Ist für GCP T4 GPUs der empfohlene Weg?
Gibt es Ratschläge, wie sie die Kosten berechnen würden?