Volcar todas las conversaciones en un archivo y datos estructurados

Wall-E · 1 Septiembre, 2021 14:59

Esta pregunta es similar a esta: Does Discourse support export conversations as an organized bulk of data?

pero estamos buscando una forma de realizar algún procesamiento de lenguaje natural (NLP) sobre todas las conversaciones de nuestro sitio Discourse. Alguien de nuestro equipo preguntó si esto podría hacerse actuando a un nivel bajo, en el backend, por ejemplo, exportando la base de datos pero sin los datos de las tablas, con algo como pg_dump --schema-only. No entendí completamente lo que quiso decir mi colega, pero pensé que quizás tú sí.

pfaffman · 1 Septiembre, 2021 15:02

Si eres autoalojado, entonces pueden ejecutar el comando pg_dump que crean que les ayudará.

También puedes volcar datos en varios formatos con el Plugin Data Explorer.

Wall-E · 1 Septiembre, 2021 20:44

¡Este plugin parece ofrecer la mayoría de lo que estamos buscando! ¡Gracias!

Wall-E · 14 Septiembre, 2021 22:40

Así que instalé el plugin y revisé todas las consultas realizadas en (Superseded) What cool data explorer queries have you come up with?, pero no hay nada que permita exportar las conversaciones reales. Por ejemplo, he solicitado los 100 temas más activos. Obtengo entradas de base de datos con identificadores de tema (véase la captura de pantalla), pero no las conversaciones. ¿Es esto porque el plugin solo sirve para extraer datos de la base de datos y no obtiene las conversaciones en sí? Si es correcto, ¿existe una manera de usar la información extraída de la base de datos para obtener las conversaciones en archivos JSON, cuyos identificadores de tema sean los extraídos de la base de datos por el plugin?

pfaffman · 14 Septiembre, 2021 23:35

SELECT * FROM posts where topic_id=425

Eso te dará las publicaciones del primer tema en tu consulta (asumiendo que puedo escribir en este teléfono).

Pero si lo que buscas es JSON, podrías hacer algo como

  https://meta.discourse.org/t/dump-all-conversations-in-a-file-and-structured-data/202351.json

Wall-E · 15 Septiembre, 2021 00:17

No entendí tu primera opción; ¿quizás haya un error tipográfico en tu texto? ¿Quisiste decir que solo obtengo el primer mensaje del tema?

En cuanto a la segunda opción con la extensión .json, ¿existe una URL alternativa que utilice el topic_id o cualquier otro identificador que permita obtener la conversación en formato JSON de manera más programática sin necesidad de conocer el título del tema?

pfaffman · 15 Septiembre, 2021 00:38

¿Probaste la consulta SQL? ¿Hubo algún error? Edición: Lo verifiqué. Esa consulta devolverá todos los posts de un tema.

Puedes obtener cualquier tema solo con el ID del tema.

https://meta.discourse.org/t/-/202351.json

Wall-E · 15 Septiembre, 2021 13:03

la consulta estaba bien, simplemente malinterpreté tu explicación sobre lo que realmente ofrece. Gracias por verificarlo de nuevo. Estas son excelentes soluciones.

Tema		Respuestas	Vistas
Does Discourse support export conversations as an organized bulk of data? Feature	4	1124	21 Febrero 2021
Exporting all Topic titles and IDs? Development	1	1552	22 Enero 2018
Exporting all Forum Posts for Manual Upload into External LLMs? Support ai	1	278	27 Enero 2025
Discourse Public Data Dump Developer Guides	1	1153	13 Mayo 2025
Saving a Conversation Support	9	1031	3 Noviembre 2021

Volcar todas las conversaciones en un archivo y datos estructurados

Temas relacionados