Plugin para ayudar a mapear hilos pre-migración después de la migración

Crius · 8 Febrero, 2023 18:43

Hola, mi grupo de locos idiotas y yo estamos muy cerca de migrar finalmente nuestro foro de Vbulletin3 a Discourse después de haber escrito un script ad-hoc que finalmente logra migrar las 21 millones de respuestas de la base de datos original a Discourse.

Ahora, tenemos el problema de los enlaces a los temas/respuestas escritos en las propias respuestas.

En la migración que hemos escrito, creamos un mapeo de los IDs de los temas/respuestas “antiguos” y a qué se mapean en Discourse.

Por ejemplo:

   id   | topic_id |   name    | value  |         created_at         |         updated_at
--------+----------+-----------+--------+----------------------------+----------------------------
 581727 |   581736 | import_id | 599137 | 2023-02-08 16:30:01.600759 | 2023-02-08 16:30:01.600759

Lo que estaba pensando ahora es en un plugin que simplemente intercepte los enlaces al formato del foro antiguo y los transforme con referencia al nuevo hilo/respuesta.

Así, por ejemplo, algo como:

https://oldforum.something.com/showthread.php?t=123456

Desencadenaría una búsqueda en la tabla topics_custom_field usando el valor 123456, encontraría el topic_id de Discourse, luego consultaría la tabla topic_links con ese ID y encontraría la url. Finalmente, lo reemplazaría en la publicación del lado del cliente (asumiendo JS para manipular el contenido).

Algo similar para las publicaciones.

Sin embargo, no encuentro ningún buen ejemplo de cómo empezar a crear algo así para Discourse.
¿Alguien puede darme alguna pista, ejemplo o plugins que hagan algo similar (comprobar respuestas en busca de alguna subcadena y reemplazarla, consultar la API? ¿la base de datos? para obtener un valor a partir de otro?).

Gracias

RGJ · 8 Febrero, 2023 19:19

Esto ya existe en el núcleo, se llama Permalinks, y el importador existente de VB4 tiene código para ello

github.com/discourse/discourse

script/import_scripts/vbulletin.rb

main


      
              # Add the following to permalink_normalizations for this to work:
              # /forum\/.*?\/(\d*)\-.*/thread/\1
          
              topics.each do |thread|
                topic_id = "thread-#{thread["threadid"]}"
                topic = topic_lookup_from_imported_post_id(topic_id)
                if topic.present?
                  url_slug = "thread/#{thread["threadid"]}" if thread["title"].present?
                  if url_slug.present? && topic[:topic_id].present?
                    Permalink.create(url: url_slug, topic_id: topic[:topic_id].to_i)
                  end
                end
              end
            end
          end

Deberías introducir algo como /showthread\\.php\\?(\\d*)/thread/\\1 en la configuración permalink_normalizations.

Crius · 8 Febrero, 2023 19:21

Solo para confirmar, ¿debería ejecutar esta lógica después de que la migración se haya completado?
Así que recorre todas las respuestas de nuevo y cambia los permalinks.

RGJ · 8 Febrero, 2023 19:27

¿Cómo quieres decir, cambios? ¿Ya tienes enlaces permanentes?

Crius · 8 Febrero, 2023 19:45

Cuando migramos el contenido de una respuesta con, por ejemplo: https://oldforum.something.com/showthread.php?t=123456 no sabe qué id tendrá ese tema en Discourse… ¿no?

RGJ · 8 Febrero, 2023 19:46

lo hará si usas el código anterior para crear permalinks.

showthread.php?t= se refiere a un tema/hilo y no a una respuesta, por cierto.

Crius · 8 Febrero, 2023 19:50

Solo estaba usando ese enlace como ejemplo

Desafortunadamente, no podemos usar ese código porque la importación tarda una eternidad en importar 20 millones de publicaciones y la importación masiva simplemente no funciona. Faltan piezas.

Es por eso que tuvimos que escribir nuestro propio script de migración. Hace todo (pm, usuarios, grupos de usuarios, categorías, temas, respuestas) en aproximadamente 6 horas con 4 núcleos y 8 GB de RAM, pero notamos que nos faltaban los permalinks

RGJ · 8 Febrero, 2023 20:27

¿Quizás podrías considerar la solución de mapa nginx para permalinks? Redirect vBulletin URLs to Discourse URLs

Crius · 8 Febrero, 2023 21:46

Lo discutimos internamente y simplemente haremos una segunda pasada cuando todas las respuestas hayan sido migradas.

Gracias por compartir ideas conmigo Richard

pfaffman · 9 Febrero, 2023 03:41

¿Tu script creó los import_ids? Si es así, incluso si no creaste los permalinks, puedes procesarlos con bastante rapidez para crearlos.

Crius · 9 Febrero, 2023 07:51

Sí, Jay, lo tenemos.

Crius:

En la migración que hemos escrito, escribimos un mapeo de los IDs de los temas y publicaciones “antiguos” y a qué se mapean en Discourse.

Por ejemplo:
   id   | topic_id |   name    | value  |         created_at         |         updated_at
--------+----------+-----------+--------+----------------------------+----------------------------
 581727 |   581736 | import_id | 599137 | 2023-02-08 16:30:01.600759 | 2023-02-08 16:30:01.600759

Intentamos evitar procesar de nuevo las más de 20 millones de respuestas, pero nos dimos cuenta de que las soluciones alternativas (plugin, redirección nginx, etc.) serían bastante complicadas o dependerían de factores externos que la convertirían en una solución a medias, así que simplemente volveremos a procesar las respuestas y gestionaremos los permalinks. Añadirá algo de tiempo a la migración, pero esperemos que no demasiado.

Todo lo demás está “cocinado” sobre la marcha, ya que sabemos qué “crudo” debe convertirse a HTML.

Para los permalinks no podemos hacer eso, ya que si se añade un permalink con una edición, podría hacer referencia a un tema que aún no ha sido procesado (ID de tema superior) y que no se encuentra en la tabla topics_custom_field en el momento de su procesamiento.

pfaffman · 9 Febrero, 2023 14:55

No sé cómo podrías haber creado topic_custom_fields sin haber creado primero el tema. Pensaría que podrías hacer algo como

TopicCustomField.each do |tcf|

y crear los permalinks, pero hay mucho que no sé sobre tu código.

Crius · 9 Febrero, 2023 15:54

Permítame aclarar:

Los temas y todas sus respuestas se importan siguiendo los IDs de tema de menor a mayor en la base de datos de vbulletin. Eso también significa que estamos importando en orden cronológico.

Sin embargo, eso llevaría a pensar que si alguna vez encuentras una referencia a otro tema, siempre será para uno que ya existía.

Pero hay casos en los que esto no es cierto, solo un par de ejemplos:

Tema dividido con un comentario que llevó a la división. La división sería con un ID que es mayor pero existe en un tema con un ID menor.
Edición para lectores futuros en la que las publicaciones de temas antiguos hacen referencia a temas más recientes.

Así que, sí, mientras que topic_custom_field se genera y se completa a medida que avanza la importación, como se explicó en el primer tema, no es fiable hacerlo “sobre la marcha” porque no puedes estar seguro de encontrar siempre la correspondencia correcta entre los IDs.

Se necesita otro pase después de que la importación completa haya terminado.

Sobre TopicCustomField.each do |tcf|, no estoy seguro de lo que haría la parte tcf. Ruby no es un idioma que haya aprendido. Nuestro script está escrito en C# ya que la mayoría de las personas que se ofrecieron a trabajar con él, ya lo usan en el trabajo.

Tema		Respuestas	Vistas
Migration from FluxBB while preserving incoming links Migration fluxbb	8	1417	14 Noviembre 2022
Bulk importing Redirects to New Discourse Topics Migration	2	282	12 Abril 2024
Remapping old imported forum permalinks to posts and topics? Development	7	1520	31 Octubre 2016
Problem with permalinks after migration Migration	8	668	17 Enero 2021
Redirect old forum URLs to new Discourse URLs using permalinks Migrating to Discourse how-to	10	29638	13 Septiembre 2024

Plugin para ayudar a mapear hilos pre-migración después de la migración

Temas relacionados