Думаю, большинство пользователей используют платный тариф у одного из крупных поставщиков AI-сервисов (список поддерживаемых моделей доступен здесь в документации).
К сожалению, мне не известно о каких-либо доступных вариантах для тех, кто разворачивает решение самостоятельно: все известные мне решения на базе GPU находятся в указанном вами ценовом диапазоне, и я подозреваю, что инференс на CPU будет слишком медленным, даже на более мощных машинах.