¿Exportando todas las publicaciones del foro para subirlas manualmente a LLMs externos?

Necesito preparar una exportación o copia de seguridad que pueda cargar manualmente en un Espacio de Trabajo de Perplexity.ai. Quiero incluir todas las publicaciones de todo el sitio. Los tipos de archivo permitidos son:

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

Puedo cargar hasta 50 archivos de 25 MB o menos.
No necesito incluir imágenes.

¿Cuál sería el mejor método?

(Además, no es necesario, pero si es posible, me gustaría que el/los archivo(s) exportado(s) incluyeran el contenido de los documentos subidos por el usuario, como archivos .pdf, en un formato legible por los LLM).

¿Alguien tiene alguna idea sobre la mejor manera de preparar dicha exportación?

Me autoalojo.

Esto es lo que he encontrado hasta ahora…

Ask.Discourse.com dijo...

Exportar contenido excluyendo imágenes:

  1. Usando el plugin Data Explorer (si está disponible):
    • El plugin Data Explorer de Discourse te permite ejecutar consultas SQL personalizadas para extraer diferentes tipos de datos en el formato que desees (por ejemplo, JSON, CSV).
    • Consulta de ejemplo: Ejecuta una consulta para exportar todas las publicaciones y temas. Esto te dará datos estructurados.
  2. Exportación JSON a través de la API:
    • Cada tema o publicación en Discourse se puede exportar mediante programación con JSON añadiendo .json a su URL.
    • Por ejemplo:
https://<tu-sitio-discourse>/t/titulo-del-tema/<id-del-tema>.json
*   Si tu objetivo es activar programáticamente estas exportaciones para todos los temas del sitio basándote en los `topic_ids`, esto obtendría las conversaciones en archivos `.json` individuales.
  1. Opción automatizada de línea de comandos (si es compatible):
    • Para sitios autoalojados, los usuarios avanzados pueden trabajar directamente con la base de datos utilizando comandos pg_dump o pasos similares de extracción de consultas de bases de datos.
    • Sin embargo, los planes alojados no permiten ejecutar estas herramientas directamente.
  2. Documentos subidos por el usuario (por ejemplo, PDFs):
    • Desafortunadamente, fusionar el contenido de los documentos subidos directamente en .json o cualquier otro formato de salida como .txt no es compatible de forma nativa. Sin embargo, puedes descargar y analizar los documentos por separado localmente utilizando herramientas especializadas para incluir su texto en formatos estructurados.

Recomendación de tipo de archivo:

Dadas tus restricciones de carga:

  • Para la extracción de texto, exporta archivos .json o .csv, ya que estos formatos pueden capturar mejor las publicaciones estructuradas y los detalles de los temas.

Si necesitas personalización adicional, ¡házmelo saber!

Para más detalles, consulta la documentación del plugin Data Explorer.

1 me gusta

El explorador de datos es el enfoque correcto aquí:

Este es el enfoque que recomendaría:

4 Me gusta