Volcar todas las conversaciones en un archivo y datos estructurados

Esta pregunta es similar a esta: Does Discourse support export conversations as an organized bulk of data?

pero estamos buscando una forma de realizar algún procesamiento de lenguaje natural (NLP) sobre todas las conversaciones de nuestro sitio Discourse. Alguien de nuestro equipo preguntó si esto podría hacerse actuando a un nivel bajo, en el backend, por ejemplo, exportando la base de datos pero sin los datos de las tablas, con algo como pg_dump --schema-only. No entendí completamente lo que quiso decir mi colega, pero pensé que quizás tú sí.

Si eres autoalojado, entonces pueden ejecutar el comando pg_dump que crean que les ayudará.

También puedes volcar datos en varios formatos con el Plugin Data Explorer.

2 Me gusta

¡Este plugin parece ofrecer la mayoría de lo que estamos buscando! ¡Gracias!

Así que instalé el plugin y revisé todas las consultas realizadas en (Superseded) What cool data explorer queries have you come up with?, pero no hay nada que permita exportar las conversaciones reales. Por ejemplo, he solicitado los 100 temas más activos. Obtengo entradas de base de datos con identificadores de tema (véase la captura de pantalla), pero no las conversaciones. ¿Es esto porque el plugin solo sirve para extraer datos de la base de datos y no obtiene las conversaciones en sí? Si es correcto, ¿existe una manera de usar la información extraída de la base de datos para obtener las conversaciones en archivos JSON, cuyos identificadores de tema sean los extraídos de la base de datos por el plugin?

SELECT * FROM posts where topic_id=425

Eso te dará las publicaciones del primer tema en tu consulta (asumiendo que puedo escribir en este teléfono).

Pero si lo que buscas es JSON, podrías hacer algo como

  https://meta.discourse.org/t/dump-all-conversations-in-a-file-and-structured-data/202351.json

No entendí tu primera opción; ¿quizás haya un error tipográfico en tu texto? ¿Quisiste decir que solo obtengo el primer mensaje del tema?

En cuanto a la segunda opción con la extensión .json, ¿existe una URL alternativa que utilice el topic_id o cualquier otro identificador que permita obtener la conversación en formato JSON de manera más programática sin necesidad de conocer el título del tema?

¿Probaste la consulta SQL? ¿Hubo algún error? Edición: Lo verifiqué. Esa consulta devolverá todos los posts de un tema.

Puedes obtener cualquier tema solo con el ID del tema.

https://meta.discourse.org/t/-/202351.json

la consulta estaba bien, simplemente malinterpreté tu explicación sobre lo que realmente ofrece. Gracias por verificarlo de nuevo. Estas son excelentes soluciones.

1 me gusta

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.