Buenos días:
Cuando Google Grupos fue descontinuado, los administradores de un grupo existente exportaron todos los mensajes a HTML. Luego subieron todos los archivos HTML a Groups.io y ese fue su proceso de migración.
Hoy en día, hay unos cuantos cientos de estos archivos HTML con títulos como HtmlDigest001 que contienen cientos de temas diferentes por archivo y cada tema tiene docenas de mensajes.
He estado luchando con scripts de Python intentando extraer texto organizado por tema y fecha de publicación en documentos de Word individuales, pero sin éxito.
Estaba pensando ahora si Discourse podría importar estos archivos HTML y de alguna manera convertirlos en mensajes separados. O si existe una herramienta capaz de realizar esta tarea.
Gracias por su tiempo y ayuda.
Saludos.