Esportare tutti i Forum Posts per caricamento manuale su LLM esterni?

Devo preparare un’esportazione o un backup che possa poi caricare manualmente in un’area di lavoro Perplexity.ai. Voglio includere tutti i post dell’intero sito. I tipi di file consentiti sono:

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

Posso caricare fino a 50 file di dimensioni pari o inferiori a 25 MB.

Non ho bisogno di includere immagini.

Quale sarebbe il metodo migliore?

(Inoltre, non è necessario, ma se possibile, vorrei che il/i file esportato/i includessero il contenuto dei documenti caricati dall’utente, come i file .pdf, in un formato leggibile dagli LLM.)

Qualcuno ha qualche idea su come preparare al meglio un’esportazione del genere?

Sto auto-ospitando.

Ecco cosa ho trovato finora…

Ask.Discourse.com ha detto...

Esportazione di contenuti escludendo le immagini:

  1. Utilizzo del plugin Data Explorer (se disponibile):
    • Il plugin Data Explorer di Discourse consente di eseguire query SQL personalizzate per estrarre diversi tipi di dati nel formato desiderato (ad esempio, JSON, CSV).
    • Query di esempio: Esegui una query per esportare tutti i post e gli argomenti. Questo ti fornirà dati strutturati.
  2. Esportazione JSON tramite API:
    • Ogni argomento o post su Discourse può essere esportato programmaticamente in JSON aggiungendo .json al suo URL.
    • Ad esempio:
https://<il-tuo-sito-discourse>/t/titolo-argomento/<id-argomento>.json
*   Se l'obiettivo è attivare programmaticamente queste esportazioni per tutti gli argomenti del sito in base agli `id-argomento`, si otterranno le conversazioni in singoli file `.json`.
  1. Opzione riga di comando automatizzata (se supportata):
    • Per i siti auto-ospitati, gli utenti avanzati possono lavorare direttamente con il database utilizzando comandi pg_dump o passaggi simili per l’estrazione di query dal database.
    • Tuttavia, i piani ospitati non consentono l’esecuzione diretta di questi strumenti.
  2. Documenti caricati dall’utente (ad esempio, PDF):
    • Sfortunatamente, la fusione del contenuto dei documenti caricati direttamente in .json o in qualsiasi altro formato di output come .txt non è supportata nativamente. Tuttavia, puoi scaricare e analizzare separatamente i documenti localmente utilizzando strumenti specializzati per includere il loro testo in formati strutturati.

Raccomandazione sul tipo di file:

Date le tue restrizioni di caricamento:

  • Per l’estrazione di testo, esporta file .json o .csv, poiché questi formati possono catturare al meglio post strutturati e dettagli degli argomenti.

Se sono necessarie ulteriori personalizzazioni, fammelo sapere!

Per maggiori dettagli, consulta la documentazione del plugin Data Explorer.

1 Mi Piace

L’esploratore di dati è l’approccio corretto qui:

Questo è l’approccio che consiglierei di adottare:

4 Mi Piace