Supporto PDF in Discourse AI (RAG)

sam · 18 Febbraio 2025, 4:32am

Questa guida spiega come implementare e utilizzare le funzionalità di elaborazione PDF all’interno di discourse-ai, inclusa l’estrazione di testo di base e l’elaborazione avanzata con l’assistenza di LLM.

Livello utente richiesto: Amministratore

Sommario

Il plugin discourse-ai supporta l’elaborazione di PDF per la RAG (Generazione Aumentata dal Recupero) in due modalità distinte:

Estrazione di testo di base
Elaborazione avanzata con analisi LLM

Estrazione di testo di base

Questa modalità fornisce funzionalità fondamentali di elaborazione PDF:

Estrae il contenuto di testo utilizzando la gem pdf-reader
Supporta file fino a 100MB
Funziona immediatamente dopo l’installazione del plugin
Elabora solo contenuto testuale (ignora gli elementi visivi)

Elaborazione avanzata con miglioramenti LLM

Questa modalità richiede una configurazione specifica e offre capacità più avanzate.

Requisiti:

Abbonamento al piano Enterprise o Discourse self-hosted
ImageMagick con supporto Ghostscript installato nel container
Impostazione del sito ai_rag_images_enabled abilitata

Capacità:

Interpreta immagini, grafici e diagrammi
Fornisce contesto da elementi visivi
Elabora i PDF pagina per pagina
Mantiene il limite di dimensione del file di 100MB

Dettagli di implementazione

Specifiche di elaborazione

Risoluzione di elaborazione delle pagine: 300 DPI
Tempo massimo di elaborazione: 600 secondi (10 minuti)
Pulizia automatica dei file temporanei
Integrazione completa con gli embedding dei documenti RAG

Flusso di elaborazione

Caricamento e convalida del PDF
Estrazione del contenuto (modalità base o avanzata)
Suddivisione del testo (chunking) con sovrapposizione configurabile
Generazione di embedding dei chunk e archiviazione
Monitoraggio dei progressi tramite MessageBus

Limitazioni

Sii consapevole di questi vincoli quando implementi l’elaborazione PDF:

Restrizioni sulla dimensione del file:
- 100MB per l’elaborazione PDF esistente
- 20MB per i nuovi caricamenti dall’interfaccia amministrativa
La modalità avanzata richiede risorse di sistema aggiuntive
Layout PDF complessi potrebbero non essere interpretati perfettamente
L’elaborazione avanzata aumenta significativamente il tempo di elaborazione

Vedi anche:

MachineScholar · 18 Febbraio 2025, 1:17pm

Questa è davvero una notizia fantastica. Grazie team! Non vedo l’ora che l’elaborazione potenziata sia terminata. Sarà fondamentale per alimentare gli LLM con articoli di ricerca.

Inoltre, c’è qualche piano per consentire di fare RAG “chattare-con-i-tuoi-PDF” caricando PDF in un PM di bot AI o in un argomento/post e menzionando il bot?

hameedacpa · 24 Febbraio 2025, 4:30am

@sam Puoi fornire un video semplice per spiegare questa ottima opzione, perché quello che hai menzionato non è abbastanza chiaro per implementarlo

hameedacpa · 24 Febbraio 2025, 8:42am

Dove posso trovare questa impostazione?

sam · 24 Febbraio 2025, 10:18am

È un’impostazione nascosta, devi usare la console, ma devi anche configurare il container, ti consiglio di aspettare qualche altra settimana.

hameedacpa · 24 Febbraio 2025, 2:47pm

Grazie, apprezzo il tuo fantastico lavoro

hameedacpa · 24 Febbraio 2025, 10:49pm

Nel mio sito web (Forum Arabo) ho fatto un test in arabo aggiungendo una legislazione nel primo post “argomento” e poi ho posto domande usando l’IA, ma le risposte non sono accurate e penso che sia perché non è Context Ragging

محاسبة دوت نت – 24 Feb 25

قرار وزاري رقم (120) لسنة 2023م في شأن التعديلات بموجب الأحكام الانتقالية...

المحاسبة والضرائب والتشريعات - دولة الإمارات ضريبة الشركات - دولة الإمارات

بسم الله الرحمن الرحيم تحية طيبة وبعد، يشرفني أن أقدم لكم تحليلاً مفصلاً للنص الذي تفضلتم بعرضه، مع الربط بينه وبين معايير المحاسبة الدولية IFRS والمعايير الدولية للتدقيق ISA، بالإضافة إلى أحدث الأبحاث والممارسات المهنية والقواعد المحاسبية...

sam · 25 Febbraio 2025, 1:00am

Mi dispiace, ma non funziona così, devi definire una persona o uno strumento e poi aggiungere l’upload lì.

C’è stata una discussione sul supporto di “upload and ask” qui: Upload and discuss pdfs in composer ma non è ancora supportato.

hameedacpa · 25 Febbraio 2025, 6:45am

Prima di tutto, grazie mille per il vostro ottimo lavoro. Mi piace molto.

Dopo aver giocato con le impostazioni e aver cambiato il modello AI in Gemini-Flash-2.0, ha funzionato benissimo per me. Ecco la situazione che ho:

Siamo una community di Revisori, Commercialisti e Consulenti Fiscali, e avevamo bisogno di uno strumento per condividere leggi correlate e stimolare discussioni su di esse. Questa discussione dovrebbe essere molto utile per i visitatori, dato che siamo professionisti nel nostro campo. Stiamo puntando al modello AI per controllare e analizzare la legislazione e rispondere alle nostre domande. Il grande esperimento ha portato alla conclusione che possiamo davvero discutere il contesto aggiunto nel primo post, e se il modello AI è abbastanza intelligente, risponderà alle nostre domande con un output di altissima qualità.

Grazie ancora e non vedo l’ora che arrivi il supporto PDF, poiché renderà Discourse il miglior software per forum.

sam · 28 Febbraio 2025, 12:04am

L’ultima immagine di discourse supporta la modalità avanzata se qualcuno vuole testare

MachineScholar · 28 Febbraio 2025, 12:01pm

Deve essere abilitato tramite console? Non vedo opzioni di modalità avanzata tramite l’interfaccia utente.

Inoltre, ricevo un errore quando tento di caricare questo pdf. È di 34 MB ma ho impostato la mia dimensione massima di allegato a 100 MB (sia nelle impostazioni di amministrazione che in app.yml). Ciò che è strano è che ho una versione compressa che è di 16 MB e si carica senza problemi. Ma forse il PDF più grande è semplicemente troppo complesso per ora? Ci sono molte immagini, equazioni, ecc.

Falco · 28 Febbraio 2025, 3:17pm

Sì, è necessario impostare SiteSetting.ai_rag_images_enabled = true nella console Rails per abilitarlo.

sam · 28 Febbraio 2025, 11:48pm

la mia ipotesi è che anche alcune cose di nginx debbano essere modificate nel container in modo che non faccia il rifiuto

Michael_Liu · 17 Aprile 2025, 12:17am

Ciao @sam
Sto riscontrando problemi nel caricamento e nell’indicizzazione dei PDF con questo errore: Job exception: undefined method `length’ for nil.

Mi chiedevo se l’errore fosse correlato alle impostazioni di cui abbiamo discusso sopra.
L’interfaccia si blocca all’indicizzazione dello 0% senza avanzare e
i dettagli dell’eccezione sono i seguenti:

/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:81:in `chunk_document'
/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:40:in `block in execute'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/transaction.rb:616:in `block in within_new_transaction'
activesupport-7.2.2.1/lib/active_support/concurrency/null_lock.rb:9:in `synchronize'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/transaction.rb:613:in `within_new_transaction'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/database_statements.rb:361:in `transaction'
activerecord-7.2.2.1/lib/active_record/transactions.rb:234:in `block in transaction'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/connection_pool.rb:415:in `with_connection'
activerecord-7.2.2.1/lib/active_record/connection_handling.rb:296:in `with_connection'
activerecord-7.2.2.1/lib/active_record/transactions.rb:233:in `transaction'
/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:39:in `execute'
/var/www/discourse/app/jobs/base.rb:316:in `block (2 levels) in perform'
rails_multisite-6.1.0/lib/rails_multisite/connection_management/null_instance.rb:49:in `with_connection'
rails_multisite-6.1.0/lib/rails_multisite/connection_management.rb:21:in `with_connection'
/var/www/discourse/app/jobs/base.rb:303:in `block in perform'
/var/www/discourse/app/jobs/base.rb:299:in `each'
/var/www/discourse/app/jobs/base.rb:299:in `perform'
sidekiq-7.3.9/lib/sidekiq/processor.rb:220:in `execute_job'
sidekiq-7.3.9/lib/sidekiq/processor.rb:185:in `block (4 levels) in process'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:180:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
/var/www/discourse/lib/sidekiq/pausable.rb:132:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
sidekiq-7.3.9/lib/sidekiq/job/interrupt_handler.rb:9:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
sidekiq-7.3.9/lib/sidekiq/metrics/tracking.rb:26:in `track'
sidekiq-7.3.9/lib/sidekiq/metrics/tracking.rb:134:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:173:in `invoke'
sidekiq-7.3.9/lib/sidekiq/processor.rb:184:in `block (3 levels) in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:145:in `block (6 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_retry.rb:118:in `local'
sidekiq-7.3.9/lib/sidekiq/processor.rb:144:in `block (5 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/config.rb:39:in `block in <class:Config>'
sidekiq-7.3.9/lib/sidekiq/processor.rb:139:in `block (4 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/processor.rb:281:in `stats'
sidekiq-7.3.9/lib/sidekiq/processor.rb:134:in `block (3 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_logger.rb:15:in `call'
sidekiq-7.3.9/lib/sidekiq/processor.rb:133:in `block (2 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_retry.rb:85:in `global'
sidekiq-7.3.9/lib/sidekiq/processor.rb:132:in `block in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_logger.rb:40:in `prepare'
sidekiq-7.3.9/lib/sidekiq/processor.rb:131:in `dispatch'
sidekiq-7.3.9/lib/sidekiq/processor.rb:183:in `block (2 levels) in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:182:in `handle_interrupt'
sidekiq-7.3.9/lib/sidekiq/processor.rb:182:in `block in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:181:in `handle_interrupt'
sidekiq-7.3.9/lib/sidekiq/processor.rb:181:in `process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:86:in `process_one'
sidekiq-7.3.9/lib/sidekiq/processor.rb:76:in `run'
sidekiq-7.3.9/lib/sidekiq/component.rb:10:in `watchdog'
sidekiq-7.3.9/lib/sidekiq/component.rb:19:in `block in safe_thread'

Michael_Liu · 17 Aprile 2025, 1:45am

grazie per questo aggiornamento fantastico,
ho solo una preoccupazione, limite di 100MB per ogni persona AI o per tutte le persone

pacharanero · 30 Aprile 2025, 9:52pm

Sono nuovo a Discourse AI ma ho molta esperienza con Discourse in generale.

Sono molto interessato a provare questo per un caso d’uso specifico in forma di demo in questa fase.

Ho abilitato l’impostazione del sito nascosta.

Non vedo nulla in SideKiq. Come posso vedere se sta funzionando?

Sono consapevole che questa è una funzionalità in pre-release e non ancora pronta per il grande pubblico, tuttavia sarebbe fantastico poterla sperimentare e provare.

Sono molto interessato a qualsiasi suggerimento, consiglio, screenshot o ricetta da parte di persone che la stanno provando.

Neil_Evans2 · 15 Luglio 2025, 6:18pm

Ricevo questo errore quando chiedo al bot di riassumere il contenuto di alcuni PDF sul mio sito. Non ho abilitato l’elaborazione avanzata e sto usando GPT 4.1. Avete qualche idea su cosa sto sbagliando?

Mi dispiace, sembra che il nostro sistema abbia riscontrato un problema imprevisto durante il tentativo di rispondere.

Dettagli dell’errore

{
“error”: {
“message”: “Un messaggio dell’assistente con ‘tool_calls’ deve essere seguito da messaggi dello strumento che rispondono a ciascun ‘tool_call_id’. I seguenti tool_call_ids non avevano messaggi di risposta: call_nrDCba5mt83oavbXfPq2BtEV”,
“type”: “invalid_request_error”,
“param”: “messages.[2].role”,
“code”: null
}
}

MachineScholar · 20 Agosto 2025, 7:12am

Posso chiedere qual è lo stato attuale del supporto PDF?

MachineScholar · 20 Agosto 2025, 7:24am

Quando si configurano le dimensioni di caricamento in app.yml, queste sono valide per l’intero sito, quindi si applicano a ogni persona.

kuaza · 22 Novembre 2025, 5:40pm

Ci sono aggiornamenti su questo argomento? Allego un PDF quando avvio una conversazione con l’IA, ma sembra ancora non riconoscerlo. Attualmente sto utilizzando GPT. Dovrei forse considerare di utilizzare un modello diverso specificamente progettato per l’elaborazione di PDF?

Argomento		Risposte	Visualizzazioni
Will RAG Support PDF Files in the Future? Feature ai-bot , ai , completed	23	520	Maggio 25, 2025
Upload and discuss pdfs in composer Feature ai	5	222	Febbraio 24, 2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai-bot , ai	3	92	Maggio 9, 2025
Using PDF and attachment support with AI bots Site Management ai-bot , how-to , ai	0	147	Dicembre 11, 2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	954	Ottobre 12, 2023