Exportando todas as postagens do fórum para upload manual em LLMs externos?

Preciso preparar uma exportação ou backup que eu possa então carregar manualmente em um Espaço de Trabalho Perplexity.ai. Quero incluir todas as postagens em todo o site. Os tipos de arquivo permitidos são:

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

Posso carregar até 50 arquivos de 25 MB ou menores.
Não preciso incluir imagens.

Qual seria o melhor método?

(Além disso, não é necessário, mas se possível, gostaria que o(s) arquivo(s) exportado(s) incluísse(m) o conteúdo de documentos carregados pelo usuário, como arquivos .pdf, em um formato legível pelos LLMs.)

Alguém tem alguma ideia sobre a melhor forma de preparar tal exportação?
Estou auto-hospedando.

Aqui está o que encontrei até agora…

Ask.Discourse.com disse...

Exportando Conteúdo Excluindo Imagens:

  1. Usando o Plugin Data Explorer (se disponível):
    • O Plugin Data Explorer do Discourse permite executar consultas SQL personalizadas para extrair diferentes tipos de dados no formato desejado (por exemplo, JSON, CSV).
    • Exemplo de Consulta: Execute uma consulta para exportar todas as postagens e tópicos. Isso lhe dará dados estruturados.
  2. Exportação JSON via API:
    • Cada tópico ou postagem no Discourse pode ser exportado programaticamente com JSON anexando .json à sua URL.
    • Por exemplo:
https://<seu-site-discourse>/t/titulo-do-topico/<id-do-topico>.json
*   Se o seu objetivo for acionar programaticamente essas exportações para todos os tópicos do site com base nos `topic_ids`, isso obterá as conversas em arquivos `.json` individuais.
  1. Opção Automatizada de Linha de Comando (se suportado):
    • Para sites auto-hospedados, usuários avançados podem trabalhar diretamente com o banco de dados usando comandos pg_dump ou etapas semelhantes de extração de consulta de banco de dados.
    • No entanto, os planos hospedados não permitem a execução direta dessas ferramentas.
  2. Documentos Carregados pelo Usuário (por exemplo, PDFs):
    • Infelizmente, a fusão do conteúdo de documentos carregados diretamente em .json ou qualquer outro formato de saída como .txt não é suportada nativamente. No entanto, você pode baixar e analisar separadamente os documentos localmente usando ferramentas especializadas para incluir seu texto em formatos estruturados.

Recomendação de Tipo de Arquivo:

Dadas as suas restrições de upload:

  • Para extração de texto, exporte arquivos .json ou .csv, pois esses formatos podem capturar melhor as postagens estruturadas e os detalhes do tópico.

Se precisar de personalização adicional, por favor, me avise!

Para mais detalhes, confira a documentação do Plugin Data Explorer.

1 curtida

O explorador de dados é a abordagem correta aqui:

Esta é a abordagem que eu recomendaria:

4 curtidas