Merci pour ces conseils, Jay. J’ai en effet pensé à écrire un plugin, mais aussi qu’il devrait être réalisable depuis la console Rails pour les diverses opérations en masse, mais je ne connais pas Rails et cela semble de toute façon nécessiter le déclenchement de fonctions intégrées. Cela créerait le même problème d’écrasement, à moins que les tâches ne soient validées dans le cœur.
J’ai réussi jusqu’à présent avec l’Explorateur de données en aval et (très prudemment) psql en amont, mais je préférerais de loin faire les choses dans les règles de l’art, le destin étant ce qu’il est.
Je devrais probablement être explicite sur ce que je fais.
Je gère un forum qui en est à sa troisième ou quatrième manifestation, ayant été sous Phorum et phpBB entre mes mains et quelque chose d’autre avant que je ne m’en occupe. Le sujet est étroit et la base d’utilisateurs est minuscule, mais le contenu a été reporté à chaque migration et représente une grande quantité de connaissances institutionnelles. Discourse, avec sa catégorisation, son étiquetage et ses fonctionnalités d’interface, semblait être une excellente solution pour l’accessibilité des connaissances.
J’ai donc porté le forum qui n’a jamais été catégorisé ou étiqueté dans ses incarnations précédentes. Plutôt que de parcourir 100 000 messages/8 000 fils, j’ai utilisé un logiciel de traitement du langage naturel pour m’aider dans les catégorisations et l’étiquetage. Je mets ensuite à jour directement les tables topics, categories et topic_tag, en étant, comme je l’ai dit, très prudent.
Le processus est toujours en cours, mais j’ai un flux de travail stable et je peux facilement terminer avec les outils à portée de main. Cependant, à l’avenir, il y aura des mises à jour périodiques régulières pour intégrer de nouvelles catégorisations et étiquettes qui peuvent ou non différer des données précédentes. Vous comprenez donc le besoin.
Évidemment, l’Explorateur de données est un flux unidirectionnel, mais il a été très pratique. Je peux surmonter la limite de taille en faisant des lots et, maintenant, en augmentant le paramètre de limite, donc merci pour cela.