Ich glaube, die meisten Leute verwenden einen kostenpflichtigen Plan bei einem der größeren Anbieter von KI-Diensten (eine Liste der unterstützten Modelle finden Sie hier in der Dokumentation).
Leider sind mir keine erschwinglichen Optionen für Self-Hosters bekannt – alles, was ich kenne und GPU-basiert ist, liegt im von Ihnen genannten Preissegment, und ich vermute, dass die CPU-basierte Inferenz selbst auf leistungsfähigeren Maschinen zu langsam sein wird.