Iniezione di prompt per LLM a lungo contesto come alternativa a RAG?

NOTA A PIÈ DI PAGINA:

Sono riuscito a rieseguire il test sopra con GPT4o (contesto 128k), assicurandomi di utilizzare impostazioni di token/chunk elevate. Tuttavia, è ancora molto inaffidabile per il mio caso d’uso di domande e risposte per white paper (perso nel mezzo, perso alla fine, ecc.). Ecco le mie impostazioni se qualcuno vuole duplicare e perfezionare. Mi piacerebbe molto se potessimo trovare le impostazioni giuste per questo caso:

|PERSONA AI PERSONALIZZATA||
|—|—|\n|||\n|Abilitato?|Sì|\n|Priorità|Sì|\n|Consenti chat|Sì|\n|Consenti menzioni|Sì|\n|Visione abilitata|No|\n|||\n|Nome|Rag Testing Bot 3|\n|Descrizione|Test RAG vs injection di prompt a contesto lungo|\n|Modello linguistico predefinito|GPT-4o-custom|\n|Utente| Rag_Testing_Bot_bot|\n|Comandi abilitati|Categories, Read, Summary|\n|Gruppi consentiti|trust_level_4|\n|||\n|Prompt di sistema|Rispondi nel modo più completo possibile dal contesto fornito sulla ricerca sulla rimozione del carbonio di Equatic nel file allegato. Non inventare contenuti. Non utilizzare contenuti esterni a questa sessione. Concentrati sui contenuti forniti e crea risposte da essi nel modo più accurato e completo possibile. |\n|||\n|Post del contesto massimo|50|\n|Temperatura|0.1|\n|Top P|1|\n|||\n| ||\n|Upload| Equatics-paper1-with-unique-haystack-needles-v116.txt|\n|||\n|Token chunk di upload|1024|\n|Token di sovrapposizione chunk di upload|10|\n|Chunk di conversazione di ricerca|10|\n|Modello linguistico per il consolidatore di domande|GPT-4o-custom|\n|||\n|BOT PERSONALIZZATO ||\n|||\n|Nome da visualizzare|GPT-4o-custom|\n|||\n|Nome del modello|gpt-4o|\n|||\n|Servizio che ospita il modello|OpenAI|\n|URL del servizio che ospita il modello|https://api.openai.com/v1/chat/completions|\n|API Key del servizio che ospita il modello|D20230943sdf_fake_Qqxo2exWa91|\n|||\n|Tokenizer|OpenAITokenizer|\n|Numero di token per il prompt|30000|