Ich werde nächste Woche die Discourse AI-Integration dem Team erklären. Wir haben bereits einige API-Schlüssel, ABER es handelt sich allesamt um Schlüssel für bezahlte Konten.
Ich bin sicher, es wird gefragt werden: Gibt es Funktionen, die integriert werden können und kostenlos genutzt werden können? Dies ist für eine Schule und wir sind sicher, dass die Schüler alles nutzen möchten, aber die Kosten wären astronomisch.
Danke
Eigentlich ist Llama3 kostenlos, aber soweit ich das beurteilen kann, benötigt man einen Computer für 300.000 US-Dollar, um ihn auszuführen.
Wenn Sie ein gewisses Budget haben, könnten Sie es so einrichten, dass Sie monatlich so viel an den Dienst zahlen, den Sie bezahlen möchten, und wenn es für den Monat aufgebraucht ist, ist es für den Monat aufgebraucht. Sie würden versuchen, Limits festzulegen, damit dies nicht in der ersten Woche (oder am ersten Tag) geschieht. Es wäre kompliziert einzurichten, damit Lehrer, die es im Rahmen des Unterrichts nutzen möchten, sich darauf verlassen können.
Als Schule können Sie sich vielleicht für kostenlose Bildungsgutschriften bei Diensten wie AWS, Azure oder GCP anmelden und diese zur Unterstützung der Discourse AI-Funktionen nutzen.
Danke, das ist es, was ich ihnen sagen wollte. Es ist nicht kostenlos. Der Plan ist vorerst, weiterhin lokale Instanzen von Gpt4All und LmStudio zu verwenden.
Was es wert ist, du kannst die 70b-Version von Llama3 mit 48 GB VRAM ausführen, die du relativ einfach von einem Paar gebrauchter Nvidia RTX 3090s von eBay für jeweils etwa 750 US-Dollar beziehen kannst. Der Aufbau des restlichen Systems, um dies zu unterstützen, würde meiner Meinung nach im Bereich von etwa 3000 US-Dollar liegen.
Das ist eine Verbesserung um Faktor 100! Ich kann mir vorstellen, dass eine Schule so viel Geld hat, aber ich habe eine ziemlich gute Vorstellungskraft.
Vielen Dank dafür. Ich verstehe die Hardwareanforderungen meistens nicht.
Gemini Flash ist sehr günstig und die DeepSeek API ist so günstig, dass sie fast kostenlos ist.
Wenn Sie lokal ausführen müssen, können Sie eine Maschine für unter 1000 US-Dollar bauen, auf der Llama-Modelle ausgeführt werden können. Ich habe eine 4xP100-Maschine für 1000 US-Dollar gebaut, die über 64 GB VRAM verfügt. Eine 2xP40-Maschine mit 48 GB VRAM würde jedoch ausreichen, um 70B Llama auszuführen, und kann für 600 US-Dollar gebaut werden, wenn Sie gebrauchte Teile kaufen.
Für das ultimative Schnäppchen könnten Sie eine einzelne P40-GPU mit AQLM-Quantisierung verwenden, aber diese wäre ziemlich langsam (ca. 1 Token/Sekunde).
Interessant, dass niemand die Stromkosten für all diese Self-Hosting-Lösungen berücksichtigt. Ich schätze, das ist eine konsolidierte Rechnung, die ohnehin keiner spezifischen Maschine zugeordnet werden kann…
Sie haben gerade ein Thema angesprochen, das ein Freund, der für ein Energieversorgungsunternehmen arbeitet, neulich als Folge der Fernarbeit erwähnte. Klimaanlagen/Heizungen laufen jetzt rund um die Uhr, weil die Leute sie ständig benutzen müssen. Das Ergebnis waren astronomische Stromrechnungen für viele.