Importar HTML a Discourse

Buenos días:

Cuando Google Grupos fue descontinuado, los administradores de un grupo existente exportaron todos los mensajes a HTML. Luego subieron todos los archivos HTML a Groups.io y ese fue su proceso de migración.

Hoy en día, hay unos cuantos cientos de estos archivos HTML con títulos como HtmlDigest001 que contienen cientos de temas diferentes por archivo y cada tema tiene docenas de mensajes.

He estado luchando con scripts de Python intentando extraer texto organizado por tema y fecha de publicación en documentos de Word individuales, pero sin éxito.

Estaba pensando ahora si Discourse podría importar estos archivos HTML y de alguna manera convertirlos en mensajes separados. O si existe una herramienta capaz de realizar esta tarea.

Gracias por su tiempo y ayuda.

Saludos.

Bueno, todo es posible. Necesitarías escribir algo que los analice y, digamos, los inserte en una base de datos. Puedes consultar uno de los importadores de json o csv. La gema nokogiri puede ayudar.

2 Me gusta