Despejar todas as conversas em um arquivo e dados estruturados

Esta pergunta é semelhante a esta: Does Discourse support export conversations as an organized bulk of data?

mas estamos procurando uma maneira de realizar algum processamento de linguagem natural (NLP) em todas as conversas do nosso site Discourse. Alguém da nossa equipe perguntou se isso poderia ser feito atuando em algum nível mais baixo, no backend, por exemplo, exportando o banco de dados, mas sem os dados das tabelas, usando algo como pg_dump --schema-only. Não entendi completamente o que meu colega quis dizer, mas achei que talvez você soubesse.

Se você estiver em um ambiente auto-hospedado, eles podem executar o comando pg_dump que acham que ajudará.

Você também pode exportar dados em vários formatos com o Plugin Data Explorer.

Esse plugin parece fornecer a maior parte do que estamos procurando! Obrigado!

Então, instalei o plugin e revisei todas as consultas feitas em (Superseded) What cool data explorer queries have you come up with?, mas não encontrei nada que permita exportar as conversas em si. Por exemplo, solicitei os 100 tópicos mais ativos. Recebo entradas do banco de dados com IDs de tópicos (veja a captura de tela), mas não as conversas. Isso ocorre porque o plugin serve apenas para extrair dados do banco de dados e não recupera as próprias conversas? Se for isso, existe uma maneira de usar as informações extraídas do banco de dados para buscar as conversas em arquivos JSON, cujos IDs de tópicos sejam os mesmos recuperados do banco de dados pelo plugin?

 SELECT * FROM posts where topic_id=425

Isso trará as postagens do primeiro tópico da sua consulta (supondo que eu consiga digitar neste celular).

Mas, se o que você deseja é JSON, você poderia fazer algo como

  https://meta.discourse.org/t/dump-all-conversations-in-a-file-and-structured-data/202351.json

Não entendi sua primeira opção, talvez haja um erro de digitação no seu texto? Você quis dizer que recebo apenas o primeiro post do tópico?

Em relação à segunda opção com a extensão .json, existe uma URL alternativa que usa o topic_id ou qualquer outra entrada que possa ser usada para obter a conversa em JSON de forma mais programática, sem precisar conhecer o título do tópico?

Você tentou a consulta SQL? Houve algum erro? Edição: Eu verifiquei. Essa consulta retornará todos os posts de um tópico.

Você pode obter qualquer tópico apenas com o ID do tópico.

https://meta.discourse.org/t/-/202351.json

A consulta estava correta, eu apenas não entendi bem sua explicação sobre o que ela realmente fornece. Obrigado por verificar novamente. São ótimas soluções.