¿Inyección de prompts para LLMs de contexto largo como alternativa a RAG?

NOTA AL PIE:\n\nPude volver a ejecutar la prueba anterior con GPT4o (contexto de 128k), asegurándome de usar configuraciones de tokens/fragmentos grandes. Sin embargo, sigue siendo muy inestable para mi caso de uso de preguntas y respuestas de mi libro blanco (se pierde en el medio, se pierde al final, etc.). Aquí están mis configuraciones si alguien quiere duplicar y refinar. Me encantaría si pudiéramos encontrar las configuraciones adecuadas para este caso:\n\n|PERSONA PERSONALIZADA DE IA||\n|—|—|\n|||\n|¿Habilitado?|Sí|\n|Prioridad|Sí|\n|Permitir chat|Sí|\n|Permitir menciones|Sí|\n|Visión habilitada|No|\n|||\n|Nombre|Rag Testing Bot 3|\n|Descripción|Probar RAG vs inyección de prompt de contexto largo|\n|Modelo de lenguaje predeterminado|GPT-4o-custom|\n|Usuario| Rag_Testing_Bot_bot|\n|Comandos habilitados|Categorías, Leer, Resumen|\n|Grupos permitidos|trust_level_4|\n|||\n|Prompt del sistema|Responde de la manera más completa posible a partir del contexto proporcionado sobre la investigación de eliminación de carbono de Equatic en el archivo adjunto. No inventes contenido. No uses contenido externo a esta sesión. Enfócate en el contenido proporcionado y crea respuestas a partir de él de la manera más precisa y completa posible. |\n|||\n|Publicaciones máximas de contexto|50|\n|Temperatura|0.1|\n|Top P|1|\n|||\n| ||\n|Cargas| Equatics-paper1-with-unique-haystack-needles-v116.txt|\n|||\n|Tokens de fragmento de carga|1024|\n|Tokens de superposición de fragmento de carga|10|\n|Fragmentos de conversación de búsqueda|10|\n|Modelo de lenguaje para el consolidado de preguntas|GPT-4o-custom|\n|||\n|BOT PERSONALIZADO ||\n|||\n|Nombre a mostrar|GPT-4o-custom|\n|||\n|Nombre del modelo|gpt-4o|\n|||\n|Servicio que aloja el modelo|OpenAI|\n|URL del servicio que aloja el modelo|https://api.openai.com/v1/chat/completions|\n|Clave API del servicio que aloja el modelo|D20230943sdf_fake_Qqxo2exWa91|\n|||\n|Tokenizador|OpenAITokenizer|\n|Número de tokens para el prompt|30000|