Problème de codage de caractères de la base de données MyBB importée

Paul_King · Mars 12, 2020, 11:37

Bonjour, j’ai importé un grand nombre de messages et même des noms d’utilisateurs depuis un forum MyBB, et ils affichent des caractères aléatoires comme â€™ et Â.

D’après ce que je comprends des rapports sur un comportement similaire dans WordPress, cela pourrait être un problème d’encodage entre Latin1 et UTF-8 ?

Existe-t-il un moyen simple de les supprimer a posteriori ?

À quels caractères ces symboles correspondent-ils réellement ? Je n’arrive pas à imaginer quels caractères d’origine ils ont pu remplacer.

Par ailleurs, je constate que certains messages importés contiennent beaucoup de MyCode non analysé. Existe-t-il un moyen de l’analyser dans Discourse ?

pfaffman · Mars 13, 2020, 12:17

Oui, c’est mon hypothèse. Je travaille actuellement sur une importation présentant des problèmes similaires. La plupart concernent des éléments tels que les guillemets courbes et les tirets cadratins.

C’est loin d’être simple, mais vous pouvez effectuer un post-traitement qui soit applique un force_encoding, soit tente de remplacer les caractères un par un.

Quelque chose comme

Post.all.each do |post|
  post.raw = post.raw.force_encoding('utf-8').encode("Windows-1252").force_encoding('utf-8')
  post.save!
  post.rebake!
end

Mais je vous recommande de le tester largement sur un site de préproduction avant de l’exécuter sur vos données en production.

Paul_King · Mars 13, 2020, 2:39

Merci, Jay.
Y a-t-il une astuce pour régler le problème à la source — c’est-à-dire réexporter la base de données de l’ancien forum, puis la réimporter sans problèmes de caractères ni de code BB ?

pfaffman · Mars 13, 2020, 3:09

Si vous n’avez pas encore lancé, ce qui signifie que repartir de zéro n’est pas une option, c’est la meilleure façon de procéder.

Paul_King · Mars 13, 2020, 3:18

Le site n’est pas officiellement en ligne, mais quelle est la meilleure façon de gérer les problèmes de caractères et l’analyse du mycode lors de l’exportation depuis MyBB ?

Falco · Mars 13, 2020, 3:32

Exporter toutes les données en UTF-8, si possible, résoudra ces problèmes.

Paul_King · Mars 13, 2020, 4:54

Je suis retourné à l’installation initiale de MyBB et j’ai trouvé dans le panneau d’administration/Outils et maintenance/Santé du système un avertissement :

Il est recommandé de ne pas utiliser de codages différents dans votre base de données. Cela peut entraîner des comportements inattendus ou des erreurs MySQL.

Les tables sont listées, et j’ai pu constater que la plupart, mais pas toutes, étaient au format UTF-8. Il semblait que certaines, en particulier celles associées à des plugins, étaient dans un format plus ancien.

En cliquant sur le lien « Tout convertir », une réponse est apparue indiquant que /inc/config.php devait être modifié pour prendre en charge l’UTF-8 complet sur 4 octets :

$config[‘database’][‘encoding’] = ‘utf8mb4’;

Après avoir modifié config.php et réessayé la conversion, tout est maintenant indiqué comme correspondant. Je vais essayer de réimporter vers Discourse et vous tiendrai informé si cela résout les problèmes de caractères.

Je ne suis toujours pas sûr de savoir comment gérer l’analyse MyCode, cependant ?

riking · Mars 13, 2020, 5:08

Vous n’avez inclus aucun exemple ni détail à ce sujet. À ce stade, il serait peut-être préférable de créer un nouveau sujet et de garder celui-ci centré sur le suivi concernant le codage des caractères.

Paul_King · Mars 13, 2020, 9:56

Bonjour, un nouveau sujet avec un exemple se trouve ici

Sujet		Réponses	Vues
MyBB importer: "Invalid codepoint" Migration mybb	1	916	Février 23, 2016
Imported MyBB database MyCode issue Migration mybb	3	686	Mars 13, 2020
Members problem on importing Mybb to Discourse Migration mybb	25	3530	Septembre 4, 2017
Error importing from vanilla: invalid byte sequence in UTF-8 Migration	23	2493	Octobre 18, 2023
Migrate/Convert WP Posts to Discourse Topics Development	3	739	Novembre 4, 2021

Problème de codage de caractères de la base de données MyBB importée

Sujets connexes