Problema de codificación de caracteres en base de datos MyBB importada

Paul_King · 12 Marzo, 2020 23:37

Hola, tengo una serie de publicaciones e incluso nombres de usuario importados de un foro MyBB que están mostrando caracteres aleatorios como â€™ y Â.

Por lo que puedo deducir de informes de comportamientos similares en WordPress, ¿esto podría ser un problema de codificación entre Latin1 y UTF-8?

¿Existe una forma sencilla de eliminarlos después de la importación?

¿A qué caracteres originales corresponden realmente estos símbolos? No puedo imaginar qué caracteres originales podrían haber sido sustituidos por ellos.

Además, veo que algunas publicaciones importadas contienen una gran cantidad de MyCode no procesado; ¿existe alguna forma de que esto se procese en Discourse?

pfaffman · 13 Marzo, 2020 00:17

Sí, esa es mi hipótesis. Estoy trabajando ahora con una importación que presenta problemas similares. La mayoría se deben a cosas como comillas tipográficas y guiones largos.

Está lejos de ser sencillo, pero puedes realizar un posprocesamiento que aplique force_encoding o que intente reemplazar los caracteres uno por uno.

Algo así:

Post.all.each do |post|
  post.raw = post.raw.force_encoding('utf-8').encode("Windows-1252").force_encoding('utf-8')
  post.save!
  post.rebake!
end

Sin embargo, te recomendaría probarlo extensamente en un entorno de staging antes de ejecutarlo sobre tus datos en producción.

Paul_King · 13 Marzo, 2020 02:39

Gracias, Jay.
¿Hay alguna forma inteligente de abordar el problema en su origen, es decir, volver a exportar la base de datos del foro antiguo y luego volver a importarla libre de problemas con caracteres y códigos de formato (mycode)?

pfaffman · 13 Marzo, 2020 03:09

Si aún no has ido en vivo, de modo que empezar de nuevo no sea una opción, esa es la mejor manera de hacerlo.

Paul_King · 13 Marzo, 2020 03:18

El sitio no está oficialmente en línea, pero ¿cuál es la mejor manera de manejar problemas de caracteres y el análisis de mycode al exportar desde MyBB?

Falco · 13 Marzo, 2020 03:32

Exportar todos los datos en UTF-8, si es posible, resolverá esos problemas.

Paul_King · 13 Marzo, 2020 04:54

Volví a la instalación original de MyBB y encontré una advertencia en el panel de administración/Herramientas y mantenimiento/Salud del sistema:

Se recomienda no usar diferentes codificaciones en tu base de datos. Esto podría causar comportamientos inesperados o errores de MySQL.

Se listan las tablas y pude ver que la mayoría, pero no todas, estaban en formato UTF-8. Parecía que algunas, especialmente las asociadas con complementos, estaban en un formato más antiguo.

Al hacer clic en el enlace ‘Convertir todo’, apareció una respuesta indicando que era necesario editar /inc/config.php para admitir UTF-8 completo de 4 bytes:

$config[‘database’][‘encoding’] = ‘utf8mb4’;

Después de editar config.php e intentar la conversión nuevamente, ahora todas muestran que coinciden. Intentaré volver a importar a Discourse y informaré si esto ayuda con los problemas de caracteres.

Aún no estoy seguro de cómo abordar el análisis de MyCode.

riking · 13 Marzo, 2020 05:08

No has incluido ningún ejemplo ni detalles al respecto. En este punto, lo mejor sería iniciar un nuevo hilo y mantener este centrado en el seguimiento de la codificación de caracteres.

Paul_King · 13 Marzo, 2020 09:56

Hola, un nuevo hilo con un ejemplo está aquí

Tema		Respuestas	Vistas
MyBB importer: "Invalid codepoint" Migration mybb	1	916	23 Febrero 2016
Imported MyBB database MyCode issue Migration mybb	3	686	13 Marzo 2020
Members problem on importing Mybb to Discourse Migration mybb	25	3530	4 Septiembre 2017
Error importing from vanilla: invalid byte sequence in UTF-8 Migration	23	2493	18 Octubre 2023
Migrate/Convert WP Posts to Discourse Topics Development	3	739	4 Noviembre 2021

Problema de codificación de caracteres en base de datos MyBB importada

Temas relacionados