É importante entender as necessidades de você como administrador da comunidade e de seus membros ao escolher um Modelo de Linguagem Grande (LLM) para potencializar os recursos de IA do Discourse.
Vários fatores podem influenciar suas decisões:
- Desempenho para o caso de uso: Você está procurando o modelo com o melhor desempenho? O desempenho pode variar dependendo da tarefa (por exemplo, sumarização, pesquisa, raciocínio complexo, detecção de spam). A avaliação é baseada na capacidade do modelo de gerar respostas corretas, relevantes e coerentes.
- Comprimento do contexto: A janela de contexto é a quantidade de texto que um modelo pode “ver” e considerar de uma vez. Janelas de contexto maiores permitem o processamento de mais informações (por exemplo, tópicos mais longos para sumarização) e a manutenção da coerência em interações mais longas.
- Compatibilidade: O modelo é suportado nativamente pelo plugin Discourse AI? Ele exigirá pontos de extremidade de API ou configuração específicos? Verifique a documentação do plugin para provedores e modelos suportados.
- Suporte a idiomas: Embora muitos LLMs de ponta lidem bem com vários idiomas, o desempenho pode variar. Se sua comunidade usa principalmente um idioma diferente do inglês, recomenda-se testar modelos específicos para esse idioma.
- Capacidades multimodais: Alguns recursos, como Triagem de IA (detecção de NSFW), exigem modelos que possam processar imagens (visão). Certifique-se de que o modelo escolhido suporte as modalidades necessárias.
- Velocidade e Modos: Modelos maiores e mais poderosos podem ser mais lentos. Para recursos em tempo real como o Auxiliar de IA ou Pesquisa, modelos mais rápidos podem proporcionar uma melhor experiência ao usuário. Alguns modelos (como o Claude 3.7 Sonnet) oferecem modos diferentes, permitindo um equilíbrio entre velocidade e raciocínio mais profundo.
- Custo: O orçamento é frequentemente um fator chave. Os custos dos modelos variam significativamente com base no provedor e no nível do modelo. Os custos são normalmente medidos por token (entrada e saída). Modelos mais rápidos/menores são geralmente mais baratos do que modelos grandes/de alto desempenho. Modelos de código aberto podem frequentemente ser executados de forma mais econômica, dependendo da hospedagem.
- Preocupações com privacidade: Diferentes provedores de LLM têm políticas variadas de uso de dados e privacidade. Revise os termos de serviço, especialmente em relação a se seus dados podem ser usados para fins de treinamento. Alguns provedores oferecem opções de retenção zero de dados.
- Código Aberto vs. Código Fechado: Modelos de código aberto oferecem transparência e o potencial de auto-hospedagem ou ajuste fino, embora possam exigir mais esforço técnico. Modelos de código fechado são tipicamente mais fáceis de usar via APIs, mas oferecem menos controle e transparência.
Escolhendo um LLM para Recursos de IA do Discourse
O cenário de LLMs evolui rapidamente. A tabela abaixo fornece uma visão geral dos modelos populares e capazes atualmente, adequados para vários recursos de IA do Discourse, categorizados por seus pontos fortes e perfis de custo típicos. Os modelos dentro de cada categoria são listados em ordem alfabética.
Estas são diretrizes gerais. Sempre verifique a documentação oficial do plugin Discourse AI para a lista mais atualizada de modelos suportados e configurações necessárias. O desempenho e o custo mudam com frequência; consulte a documentação do provedor de LLM para obter os detalhes mais recentes. A disponibilidade e o desempenho de modelos de código aberto podem depender do provedor específico ou da configuração de hospedagem.
Uma opção alternativa para clientes hospedados é usar os LLMs de peso aberto pré-configurados hospedados pelo Discourse. Estes podem frequentemente ser habilitados via Admin → Configurações → IA →
ai_llm_enabled_modelsou configurações de recursos específicos.
| Categoria | Modelo | Provedor | Principais Pontos Fortes / Casos de Uso | Observações |
|---|---|---|---|---|
| Melhor Desempenho/Raciocínio | Claude 3.7 Sonnet (Thinking) | Anthropic | Capacidade máxima de raciocínio, tarefas complexas, análise, geração | Usa mais recursos/tempo do que o modo normal, excelente visão |
| DeepSeek-R1 | DeepSeek | Forte raciocínio, competitivo com os melhores, codificação, matemática | Opção de Código Aberto, custo potencialmente menor que equivalentes proprietários | |
| Gemini 2.5 Pro | Alto desempenho, janela de contexto muito grande, forte multimodal | Excelente para tudo, integra-se bem com o ecossistema Google | ||
| OpenAI o1 / o1-pro | OpenAI | Raciocínio de ponta, tarefas complexas, geração | Custo mais alto, o1-pro provavelmente necessário para capacidade máxima via API |
|
| Equilibrado (Multiuso) | Claude 3.7 Sonnet (Regular) | Anthropic | Alto desempenho, bom raciocínio, contexto grande, visão, modo mais rápido | Excelente escolha padrão, equilibra velocidade e capacidade |
| DeepSeek-V3 | DeepSeek | Forte desempenho geral, bom custo-benefício | Opção de Código Aberto, econômico para uso amplo | |
| GPT-4o | OpenAI | Excelente para tudo, forte multimodal, amplamente compatível | Ótimo equilíbrio de desempenho, velocidade e custo | |
| OpenAI o3-mini | OpenAI | Bom desempenho e raciocínio pelo custo | Um modelo de raciocínio flexível e inteligente adequado para muitas tarefas | |
| Econômico/Velocidade | Claude 3.5 Haiku | Anthropic | Extremamente rápido e de baixo custo, adequado para tarefas mais simples | Melhor para necessidades de alto volume e baixa latência como pesquisa, resumos básicos |
| Gemini 2.0 Flash | Muito rápido e econômico, boas capacidades gerais | Bom para sumarização, pesquisa, tarefas de auxílio | ||
| GPT-4o mini | OpenAI | Versão rápida e acessível do GPT-4o, boa para muitas tarefas | Bom equilíbrio de custo/desempenho para recursos mais simples | |
| Llama 3.3 (por exemplo, 70B) | Meta | Forte modelo de código aberto, opção multiuso frequentemente econômica | O desempenho varia por provedor/hospedagem, requer verificação de compatibilidade | |
| Capaz de Visão | Claude 3.7 Sonnet | Anthropic | Fortes capacidades de visão (ambos os modos) | Necessário para Triagem de IA/Detecção de NSFW |
| Gemini 2.5 Pro / 2.0 Flash | Fortes capacidades de visão | Necessário para Triagem de IA/Detecção de NSFW | ||
| GPT-4o / GPT-4o mini | OpenAI | Texto e visão integrados | Necessário para Triagem de IA/Detecção de NSFW | |
| Llama 3.2 | Meta | Capacidades de visão de código aberto | Requer verificação de compatibilidade/hospedagem/suporte do provedor | |
| LLM Hospedado pelo Discourse | Discourse | Modelo de visão pré-configurado para sites hospedados | Verifique as configurações de recursos específicas (por exemplo, Detecção de NSFW) | |
| Qwen-VL / outros | Vários | Verifique o plugin Discourse AI para modelos de visão suportados específicos | A configuração pode variar |
Recomendações Gerais de Mapeamento (Simplificado):
- Bot de IA (Perguntas e Respostas Complexas, Persona): Modelos de Melhor Desempenho/Raciocínio (Claude 3.7 Sonnet - Thinking, R1, Gemini 2.5 Pro, o1-pro) ou modelos Equilibrados fortes (GPT-4o, Claude 3.7 Sonnet - Regular, o3-mini).
- Pesquisa de IA: Modelos Econômicos/Velocidade (Haiku 3.5, Gemini 2.0 Flash, GPT-4o mini, Llama 3.3) ou modelos Equilibrados para um entendimento ligeiramente melhor (GPT-4o, DeepSeek-V3).
- Auxiliar de IA (Sugestões de Título, Revisão): Modelos Econômicos/Velocidade ou modelos Equilibrados. A velocidade é frequentemente preferida. Claude 3.7 Sonnet (Regular) ou GPT-4o mini são boas opções. Llama 3.3 também pode funcionar bem aqui.
- Resumir: Modelos Equilibrados (Claude 3.7 Sonnet - Regular, GPT-4o, o3-mini, DeepSeek-V3) ou modelos Econômicos (Gemini 2.0 Flash, Llama 3.3). Janelas de contexto mais longas (Gemini 2.5 Pro, Sonnet 3.7) são benéficas para tópicos longos, se o orçamento permitir.
- Detecção de Spam / Triagem de IA (Texto): Modelos Econômicos/Velocidade são geralmente suficientes e econômicos (Haiku 3.5, Gemini 2.0 Flash, GPT-4o mini, Llama 3.3).
- Triagem de IA (Detecção de Imagem NSFW): Requer um modelo com Capacidade de Visão (GPT-4o/mini, Sonnet 3.7, Gemini 2.5 Pro/2.0 Flash, Llama 3.2, modelos específicos hospedados/suportados pelo Discourse).
Lembre-se de configurar o(s) LLM(s) selecionado(s) nas configurações de Administrador do seu Discourse nas funcionalidades de IA relevantes.