Despejar todas as conversas em um arquivo e dados estruturados

Wall-E · Setembro 1, 2021, 2:59pm

Esta pergunta é semelhante a esta: Does Discourse support export conversations as an organized bulk of data?

mas estamos procurando uma maneira de realizar algum processamento de linguagem natural (NLP) em todas as conversas do nosso site Discourse. Alguém da nossa equipe perguntou se isso poderia ser feito atuando em algum nível mais baixo, no backend, por exemplo, exportando o banco de dados, mas sem os dados das tabelas, usando algo como pg_dump --schema-only. Não entendi completamente o que meu colega quis dizer, mas achei que talvez você soubesse.

pfaffman · Setembro 1, 2021, 3:02pm

Se você estiver em um ambiente auto-hospedado, eles podem executar o comando pg_dump que acham que ajudará.

Você também pode exportar dados em vários formatos com o Plugin Data Explorer.

Wall-E · Setembro 1, 2021, 8:44pm

Esse plugin parece fornecer a maior parte do que estamos procurando! Obrigado!

Wall-E · Setembro 14, 2021, 10:40pm

Então, instalei o plugin e revisei todas as consultas feitas em (Superseded) What cool data explorer queries have you come up with?, mas não encontrei nada que permita exportar as conversas em si. Por exemplo, solicitei os 100 tópicos mais ativos. Recebo entradas do banco de dados com IDs de tópicos (veja a captura de tela), mas não as conversas. Isso ocorre porque o plugin serve apenas para extrair dados do banco de dados e não recupera as próprias conversas? Se for isso, existe uma maneira de usar as informações extraídas do banco de dados para buscar as conversas em arquivos JSON, cujos IDs de tópicos sejam os mesmos recuperados do banco de dados pelo plugin?

pfaffman · Setembro 14, 2021, 11:35pm

 SELECT * FROM posts where topic_id=425

Isso trará as postagens do primeiro tópico da sua consulta (supondo que eu consiga digitar neste celular).

Mas, se o que você deseja é JSON, você poderia fazer algo como

  https://meta.discourse.org/t/dump-all-conversations-in-a-file-and-structured-data/202351.json

Wall-E · Setembro 15, 2021, 12:17am

Não entendi sua primeira opção, talvez haja um erro de digitação no seu texto? Você quis dizer que recebo apenas o primeiro post do tópico?

Em relação à segunda opção com a extensão .json, existe uma URL alternativa que usa o topic_id ou qualquer outra entrada que possa ser usada para obter a conversa em JSON de forma mais programática, sem precisar conhecer o título do tópico?

pfaffman · Setembro 15, 2021, 12:38am

Você tentou a consulta SQL? Houve algum erro? Edição: Eu verifiquei. Essa consulta retornará todos os posts de um tópico.

Você pode obter qualquer tópico apenas com o ID do tópico.

https://meta.discourse.org/t/-/202351.json

Wall-E · Setembro 15, 2021, 1:03pm

A consulta estava correta, eu apenas não entendi bem sua explicação sobre o que ela realmente fornece. Obrigado por verificar novamente. São ótimas soluções.

Tópico		Respostas	Visualizações
Does Discourse support export conversations as an organized bulk of data? Feature	4	1124	21 de Fevereiro de 2021
Exporting all Topic titles and IDs? Development	1	1553	22 de Janeiro de 2018
Exporting all Forum Posts for Manual Upload into External LLMs? Support ai	1	279	27 de Janeiro de 2025
Discourse Public Data Dump Developer Guides	1	1153	13 de Maio de 2025
Saving a Conversation Support	9	1031	3 de Novembro de 2021

Despejar todas as conversas em um arquivo e dados estruturados

Tópicos relacionados