Je dois préparer une exportation ou une sauvegarde que je pourrai ensuite importer manuellement dans un espace de travail Perplexity.ai. Je veux inclure toutes les publications sur l’ensemble du site. Les types de fichiers autorisés sont :
.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx
Je peux importer jusqu’à 50 fichiers de 25 Mo ou moins.
Je n’ai pas besoin d’inclure les images.
Quelle serait la meilleure méthode ?
(Aussi, pas nécessaire, mais si possible, j’aimerais que le(s) fichier(s) exporté(s) incluent le contenu des documents téléchargés par les utilisateurs, tels que les fichiers .pdf, dans un format lisible par les LLM.)
Quelqu’un a-t-il des idées sur la meilleure façon de préparer une telle exportation ?
J’héberge moi-même.
Voici ce que j’ai trouvé jusqu’à présent…
Ask.Discourse.com a dit...
Exportation de contenu tout en excluant les images :
- Utilisation du plugin Data Explorer (si disponible) :
- Le plugin Data Explorer de Discourse vous permet d’exécuter des requêtes SQL personnalisées pour extraire différents types de données dans le format souhaité (par exemple,
JSON,CSV). - Exemple de requête : Exécutez une requête pour exporter tous les messages et sujets. Cela vous donnera des données structurées.
- Le plugin Data Explorer de Discourse vous permet d’exécuter des requêtes SQL personnalisées pour extraire différents types de données dans le format souhaité (par exemple,
- Exportation JSON via l’API :
- Chaque sujet ou message sur Discourse peut être exporté par programme en
JSONen ajoutant.jsonà son URL. - Par exemple :
- Chaque sujet ou message sur Discourse peut être exporté par programme en
https://<votre-site-discourse>/t/titre-du-sujet/<id-du-sujet>.json
* Si vous souhaitez déclencher par programme ces exportations pour tous les sujets du site en fonction des `topic_ids`, cela permettrait d'obtenir les conversations dans des fichiers `.json` individuels.
- Option de ligne de commande automatisée (si prise en charge) :
- Pour les sites auto-hébergés, les utilisateurs avancés peuvent travailler directement avec la base de données en utilisant des commandes
pg_dumpou des étapes d’extraction de requêtes de base de données similaires. - Cependant, les plans hébergés ne permettent pas d’exécuter ces outils directement.
- Pour les sites auto-hébergés, les utilisateurs avancés peuvent travailler directement avec la base de données en utilisant des commandes
- Documents téléchargés par les utilisateurs (par exemple, PDF) :
- Malheureusement, la fusion du contenu des documents téléchargés directement dans un format
.jsonou tout autre format de sortie comme.txtn’est pas prise en charge nativement. Cependant, vous pouvez télécharger et analyser séparément les documents localement à l’aide d’outils spécialisés pour inclure leur texte dans des formats structurés.
- Malheureusement, la fusion du contenu des documents téléchargés directement dans un format
Recommandation de type de fichier :
Compte tenu de vos contraintes de téléchargement :
- Pour l’extraction de texte, exportez des fichiers
.jsonou.csv, car ces formats peuvent mieux capturer les messages structurés et les détails des sujets.
Si une personnalisation supplémentaire est nécessaire, n’hésitez pas à me le faire savoir !
Pour plus de détails, consultez la documentation du plugin Data Explorer.