Injeção de prompt para LLMs de longo contexto como alternativa ao RAG?

NOTA DE RODAPÉ:

Consegui reexecutar o teste acima com o GPT4o (contexto de 128k), certificando-me de usar configurações de token/chunk grandes. mas ainda é muito instável para o meu caso de uso de Q/A de white paper (perdido no meio, perdido no final, etc.). aqui estão minhas configurações, caso alguém queira duplicar e refinar. Adoraria se pudéssemos encontrar as configurações certas para este caso:

|PERSONA DE IA PERSONALIZADA||
|—|—||
|||
|Habilitado?|Sim|
|Prioridade|Sim|
|Permitir Chat|Sim|
|Permitir Menções|Sim|
|Visão Habilitada|Não||
|||
|Nome|Rag Testing Bot 3|
|Descrição|Testar RAG vs injeção de prompt de contexto longo|
|Modelo de Linguagem Padrão|GPT-4o-custom|
|Usuário| Rag_Testing_Bot_bot|
|Comandos Habilitados|Categorias, Ler, Resumo|
|Grupos Permitidos|trust_level_4||
|||
|Prompt do Sistema|Responda o mais abrangente possível a partir do contexto fornecido sobre Pesquisa de Remoção de Carbono Equatic no arquivo anexo. Não invente conteúdo. Não use conteúdo externo a esta sessão. Concentre-se no conteúdo fornecido e crie respostas a partir dele com a maior precisão e completude possível.|
|||
|Posts Máximos de Contexto|50|
|Temperatura|0.1|
|Top P|1||
|||
| ||
|Uploads| Equatics-paper1-with-unique-haystack-needles-v116.txt|
|||
|Tokens de Chunk de Upload|1024|
|Tokens de Sobreposição de Chunk de Upload|10|
|Chunks de Conversa de Pesquisa|10|
|Modelo de Linguagem para Consolidator de Perguntas|GPT-4o-custom||
|||
|BOT PERSONALIZADO||
|||
|Nome a exibir|GPT-4o-custom||
|||
|Nome do modelo|gpt-4o||
|||
|Serviço que hospeda o modelo|OpenAI|
|URL do serviço que hospeda o modelo|https://api.openai.com/v1/chat/completions|
|Chave de API do serviço que hospeda o modelo|D20230943sdf_fake_Qqxo2exWa91||
|||
|Tokenizador|OpenAITokenizer|
|Número de tokens para o prompt|30000|