Exporter tous les messages du forum pour une importation manuelle dans des LLM externes ?

Je dois préparer une exportation ou une sauvegarde que je pourrai ensuite importer manuellement dans un espace de travail Perplexity.ai. Je veux inclure toutes les publications sur l’ensemble du site. Les types de fichiers autorisés sont :

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

Je peux importer jusqu’à 50 fichiers de 25 Mo ou moins.
Je n’ai pas besoin d’inclure les images.

Quelle serait la meilleure méthode ?

(Aussi, pas nécessaire, mais si possible, j’aimerais que le(s) fichier(s) exporté(s) incluent le contenu des documents téléchargés par les utilisateurs, tels que les fichiers .pdf, dans un format lisible par les LLM.)

Quelqu’un a-t-il des idées sur la meilleure façon de préparer une telle exportation ?
J’héberge moi-même.

Voici ce que j’ai trouvé jusqu’à présent…

Ask.Discourse.com a dit...

Exportation de contenu tout en excluant les images :

  1. Utilisation du plugin Data Explorer (si disponible) :
    • Le plugin Data Explorer de Discourse vous permet d’exécuter des requêtes SQL personnalisées pour extraire différents types de données dans le format souhaité (par exemple, JSON, CSV).
    • Exemple de requête : Exécutez une requête pour exporter tous les messages et sujets. Cela vous donnera des données structurées.
  2. Exportation JSON via l’API :
    • Chaque sujet ou message sur Discourse peut être exporté par programme en JSON en ajoutant .json à son URL.
    • Par exemple :
https://<votre-site-discourse>/t/titre-du-sujet/<id-du-sujet>.json
*   Si vous souhaitez déclencher par programme ces exportations pour tous les sujets du site en fonction des `topic_ids`, cela permettrait d'obtenir les conversations dans des fichiers `.json` individuels.
  1. Option de ligne de commande automatisée (si prise en charge) :
    • Pour les sites auto-hébergés, les utilisateurs avancés peuvent travailler directement avec la base de données en utilisant des commandes pg_dump ou des étapes d’extraction de requêtes de base de données similaires.
    • Cependant, les plans hébergés ne permettent pas d’exécuter ces outils directement.
  2. Documents téléchargés par les utilisateurs (par exemple, PDF) :
    • Malheureusement, la fusion du contenu des documents téléchargés directement dans un format .json ou tout autre format de sortie comme .txt n’est pas prise en charge nativement. Cependant, vous pouvez télécharger et analyser séparément les documents localement à l’aide d’outils spécialisés pour inclure leur texte dans des formats structurés.

Recommandation de type de fichier :

Compte tenu de vos contraintes de téléchargement :

  • Pour l’extraction de texte, exportez des fichiers .json ou .csv, car ces formats peuvent mieux capturer les messages structurés et les détails des sujets.

Si une personnalisation supplémentaire est nécessaire, n’hésitez pas à me le faire savoir !

Pour plus de détails, consultez la documentation du plugin Data Explorer.

1 « J'aime »

L’explorateur de données est la bonne approche ici :

Voici l’approche que je recommanderais :

4 « J'aime »