Il RAG supporterà i file PDF in futuro?

JSON è solo testo, quindi lo supportiamo già.

È una rappresentazione inefficiente per gli LLM dato l’elevato volume di duplicazioni all’interno del formato, quindi sprecherebbe alcuni token, ma nel complesso funzionerà. Consiglierei di eseguire uno script su di esso e riformattarlo per migliorare le prestazioni di RAG.

È molto difficile farlo automaticamente perché il JSON può essere molto nidificato e scegliere una rappresentazione testuale specifica del dominio perfetta dipende molto dal dominio.

3 Mi Piace