Preciso preparar uma exportação ou backup que eu possa então carregar manualmente em um Espaço de Trabalho Perplexity.ai. Quero incluir todas as postagens em todo o site. Os tipos de arquivo permitidos são:
.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx
Posso carregar até 50 arquivos de 25 MB ou menores.
Não preciso incluir imagens.
Qual seria o melhor método?
(Além disso, não é necessário, mas se possível, gostaria que o(s) arquivo(s) exportado(s) incluísse(m) o conteúdo de documentos carregados pelo usuário, como arquivos .pdf, em um formato legível pelos LLMs.)
Alguém tem alguma ideia sobre a melhor forma de preparar tal exportação?
Estou auto-hospedando.
Aqui está o que encontrei até agora…
Ask.Discourse.com disse...
Exportando Conteúdo Excluindo Imagens:
- Usando o Plugin Data Explorer (se disponível):
- O Plugin Data Explorer do Discourse permite executar consultas SQL personalizadas para extrair diferentes tipos de dados no formato desejado (por exemplo,
JSON,CSV). - Exemplo de Consulta: Execute uma consulta para exportar todas as postagens e tópicos. Isso lhe dará dados estruturados.
- O Plugin Data Explorer do Discourse permite executar consultas SQL personalizadas para extrair diferentes tipos de dados no formato desejado (por exemplo,
- Exportação JSON via API:
- Cada tópico ou postagem no Discourse pode ser exportado programaticamente com
JSONanexando.jsonà sua URL. - Por exemplo:
- Cada tópico ou postagem no Discourse pode ser exportado programaticamente com
https://<seu-site-discourse>/t/titulo-do-topico/<id-do-topico>.json
* Se o seu objetivo for acionar programaticamente essas exportações para todos os tópicos do site com base nos `topic_ids`, isso obterá as conversas em arquivos `.json` individuais.
- Opção Automatizada de Linha de Comando (se suportado):
- Para sites auto-hospedados, usuários avançados podem trabalhar diretamente com o banco de dados usando comandos
pg_dumpou etapas semelhantes de extração de consulta de banco de dados. - No entanto, os planos hospedados não permitem a execução direta dessas ferramentas.
- Para sites auto-hospedados, usuários avançados podem trabalhar diretamente com o banco de dados usando comandos
- Documentos Carregados pelo Usuário (por exemplo, PDFs):
- Infelizmente, a fusão do conteúdo de documentos carregados diretamente em
.jsonou qualquer outro formato de saída como.txtnão é suportada nativamente. No entanto, você pode baixar e analisar separadamente os documentos localmente usando ferramentas especializadas para incluir seu texto em formatos estruturados.
- Infelizmente, a fusão do conteúdo de documentos carregados diretamente em
Recomendação de Tipo de Arquivo:
Dadas as suas restrições de upload:
- Para extração de texto, exporte arquivos
.jsonou.csv, pois esses formatos podem capturar melhor as postagens estruturadas e os detalhes do tópico.
Se precisar de personalização adicional, por favor, me avise!
Para mais detalhes, confira a documentação do Plugin Data Explorer.