¡Gracias Jay! Aprecio el ánimo.
Uf, preferiría no pensar en eso.
Probablemente fueron más de 15 o 20 horas después de que me pusiste en el camino correcto con la consulta SQL.
Me gustaría que me dieras tu opinión sobre esto si tienes alguna idea:
Tomó alrededor de 70 horas hacer una prueba completa con datos de producción en un VPS muy potente. Me gustaría que mis usuarios interactuaran nuevamente lo antes posible, incluso si la importación de publicaciones y mensajes privados aún está incompleta. O una idea alternativa que se me ocurrió sería deshabilitar la función preprocess_posts, que también modifiqué en gran medida con reemplazos adicionales de expresiones regulares gsub y también para pasar todas las publicaciones y mensajes privados a través de Pandoc con uno o dos comandos diferentes dependiendo de si la publicación original era marcado Textile o HTML puro. Si deshabilito toda la rutina preprocess_posts, probablemente reduciría el tiempo de importación casi a la mitad, y luego podría agregar todo ese material de formato a la sección postprocess_posts una vez que se importen todos los datos sin procesar. Pero la desventaja es que, después del hecho, no podría acceder fácilmente a la columna de la base de datos original que muestra el formato de origen (Textile o HTML) para cada publicación, lo cual es una condición para mi manipulación de Pandoc. ¿O podría agregar un campo personalizado a cada publicación etiquetándola como textile o html y luego recuperarla más tarde durante el post-procesamiento? No sé, solo estoy pensando en voz alta.