Devo preparare un’esportazione o un backup che possa poi caricare manualmente in un’area di lavoro Perplexity.ai. Voglio includere tutti i post dell’intero sito. I tipi di file consentiti sono:
.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx
Posso caricare fino a 50 file di dimensioni pari o inferiori a 25 MB.
Non ho bisogno di includere immagini.
Quale sarebbe il metodo migliore?
(Inoltre, non è necessario, ma se possibile, vorrei che il/i file esportato/i includessero il contenuto dei documenti caricati dall’utente, come i file .pdf, in un formato leggibile dagli LLM.)
Qualcuno ha qualche idea su come preparare al meglio un’esportazione del genere?
Sto auto-ospitando.
Ecco cosa ho trovato finora…
Ask.Discourse.com ha detto...
Esportazione di contenuti escludendo le immagini:
- Utilizzo del plugin Data Explorer (se disponibile):
- Il plugin Data Explorer di Discourse consente di eseguire query SQL personalizzate per estrarre diversi tipi di dati nel formato desiderato (ad esempio,
JSON,CSV). - Query di esempio: Esegui una query per esportare tutti i post e gli argomenti. Questo ti fornirà dati strutturati.
- Il plugin Data Explorer di Discourse consente di eseguire query SQL personalizzate per estrarre diversi tipi di dati nel formato desiderato (ad esempio,
- Esportazione JSON tramite API:
- Ogni argomento o post su Discourse può essere esportato programmaticamente in
JSONaggiungendo.jsonal suo URL. - Ad esempio:
- Ogni argomento o post su Discourse può essere esportato programmaticamente in
https://<il-tuo-sito-discourse>/t/titolo-argomento/<id-argomento>.json
* Se l'obiettivo è attivare programmaticamente queste esportazioni per tutti gli argomenti del sito in base agli `id-argomento`, si otterranno le conversazioni in singoli file `.json`.
- Opzione riga di comando automatizzata (se supportata):
- Per i siti auto-ospitati, gli utenti avanzati possono lavorare direttamente con il database utilizzando comandi
pg_dumpo passaggi simili per l’estrazione di query dal database. - Tuttavia, i piani ospitati non consentono l’esecuzione diretta di questi strumenti.
- Per i siti auto-ospitati, gli utenti avanzati possono lavorare direttamente con il database utilizzando comandi
- Documenti caricati dall’utente (ad esempio, PDF):
- Sfortunatamente, la fusione del contenuto dei documenti caricati direttamente in
.jsono in qualsiasi altro formato di output come.txtnon è supportata nativamente. Tuttavia, puoi scaricare e analizzare separatamente i documenti localmente utilizzando strumenti specializzati per includere il loro testo in formati strutturati.
- Sfortunatamente, la fusione del contenuto dei documenti caricati direttamente in
Raccomandazione sul tipo di file:
Date le tue restrizioni di caricamento:
- Per l’estrazione di testo, esporta file
.jsono.csv, poiché questi formati possono catturare al meglio post strutturati e dettagli degli argomenti.
Se sono necessarie ulteriori personalizzazioni, fammelo sapere!
Per maggiori dettagli, consulta la documentazione del plugin Data Explorer.