Erro ao importar do vanilla: sequência de bytes inválida em UTF-8

dpkoch · Dezembro 14, 2018, 11:30pm

Estou tentando importar de um fórum Vanilla usando as instruções publicadas aqui. No entanto, recebo o seguinte erro ao executar o script de importação vanilla.rb:

Carregando grupos existentes...
Carregando usuários existentes...
Carregando categorias existentes...
Carregando posts existentes...
Carregando tópicos existentes...
analisando arquivo...
lendo arquivo...
Traceback (most recent call last):
	5: from script/import_scripts/vanilla.rb:254:in `<main>'
	4: from /var/www/discourse/script/import_scripts/base.rb:47:in `perform'
	3: from script/import_scripts/vanilla.rb:17:in `execute'
	2: from script/import_scripts/vanilla.rb:37:in `parse_file'
	1: from script/import_scripts/vanilla.rb:72:in `read_file'
script/import_scripts/vanilla.rb:72:in `gsub': invalid byte sequence in UTF-8 (ArgumentError)

Tentei alterar o conjunto de caracteres do banco de dados MySQL para UTF8 seguindo as instruções aqui e depois reexportar o arquivo de exportação, mas isso não resolveu o problema. Alguma sugestão?

pfaffman · Dezembro 15, 2018, 1:09pm

You either need to keep trying to get it to really be UTF-8 or modify the import script to do it. It is a frustrating problem.

Nick_Chomey · Novembro 4, 2021, 2:11pm

@dpkoch Você conseguiu resolver isso?

pfaffman · Novembro 4, 2021, 2:45pm

Você pode pesquisar no Google sobre codificação UTF-8. É necessário fazer algo para converter a tabela para UTF-8. Na época em que fiz isso, havia complicações adicionais porque algumas linhas estavam em um formato e outras em outro. Acredito que fiz algo sem sentido, convertendo os dados item por item.

Nick_Chomey · Novembro 4, 2021, 2:52pm

Parece horrível… Teremos que mexer na codificação da tabela e ver o que acontece. Obrigado!

pfaffman · Novembro 4, 2021, 2:56pm

Ah, é terrível. Sua melhor aposta, com base numa lembrança vaga de uma única vez em que fiz isso há mais de um ano, é experimentar o maior número possível de conversões diferentes até finalmente encontrar uma que funcione para todos ou a maioria dos dados. Acredito que fiz várias transformações uma por uma, que acabaram sendo perda de tempo, até tropeçar numa conversão que funcionou para todos (a maioria?) dos dados.

Aqui está o que fiz. Use por sua conta e risco. (Isso era vbulletin, só pra constar).

  def char_map(raw_original)
    raw = raw_original.dup
    debug = false # (raw.length > 50)

    # windows 1252
    all = ''
    win_encoded = ''

    ### Codificação WIN1252
    win_encoded = ''
    begin
      win_encoded = raw.force_encoding('utf-8').encode("Windows-1252",
                            invalid: :replace, undef: :replace, replace: ""
                           ).force_encoding('utf-8').scrub
    rescue => e
      puts "\n#{'-'*50}\nWin1252 falhou para \n\n#{raw}\n\n"
      win_encoded = ''
    end

    ### Codificação ISO 8859
    iso_encoded = ''
    if all.length == 0 && win_encoded.length > 0 && win_encoded != raw
      all = (debug ? "Win1252--" : '') + win_encoded
    else
      all = raw
    end
    all = old_char_map(all)
    all
  end

Nick_Chomey · Novembro 4, 2021, 3:00pm

Esse código é usado dentro do script de importação ou no lado do servidor/banco de dados?

pfaffman · Novembro 4, 2021, 3:01pm

No script de importação. Não gosto de mexer no banco de dados.

Em algum lugar você chama essa função em raw para corrigir raw (e talvez os títulos?).

Nick_Chomey · Novembro 4, 2021, 3:02pm

Ok, muito obrigado! Isso deve me dar uma grande vantagem na depuração disso.

Nick_Chomey · Novembro 11, 2021, 12:27pm

Conseguimos fazer isso funcionar adicionando um comando simples para codificar o arquivo como UTF-8 ao lê-lo, usando algo como encode\"UTF-8\" nas linhas 76-80 do script de importação vanilla.rb.

Estou apenas aguardando a confirmação da sintaxe exata do cara que fez isso via linha de comando. Atualizarei isto quando a tiver.

Nick_Chomey · Novembro 13, 2021, 9:59pm

Aqui está o que ele usou para corrigir isso, começando na linha 76 de vanilla.rb

def read_file
  puts "reading file..."
  string = [File.read](http://file.read/)(@vanilla_file)
    .force_encoding('UTF-8').encode("UTF-8").gsub("\\N", "")
    .force_encoding('UTF-8').encode("UTF-8").gsub(/\\$\\n/m, "\\n")
    .force_encoding('UTF-8').encode("UTF-8").gsub("\\,", ",")
    .force_encoding('UTF-8').encode("UTF-8").gsub(/(?<!\\)\\"/, '""')
    .force_encoding('UTF-8').encode("UTF-8").gsub(/\\\\\\"/, '\\\"\"')
  [StringIO.new](http://stringio.new/)(string)
end

ddeveloper · Outubro 17, 2023, 12:33pm

Isso não funciona. Mesmo erro.

pfaffman · Outubro 17, 2023, 2:05pm

Você precisa pesquisar sobre codificação no Google e descobrir como corrigir sua codificação corrompida.

southpaw · Outubro 17, 2023, 3:02pm

Olá @ddeveloper,

Trabalhei nesse processo há apenas alguns meses (e não sou desenvolvedor ) e consegui migrar com sucesso um fórum Vanilla auto-hospedado para Discourse auto-hospedado. Uma coisa que foi fundamental para mim foi garantir, ao exportar os dados com o Vanilla Porter, que eu selecionasse “Vanilla 2” como o Source Forum Type no primeiro menu suspenso.

Usei a versão 2.6 do Vanilla Porter, disponível para download como um arquivo zip aqui: Vanilla Porter 2.6 RC1 — Vanilla Forums em vez da versão 2.5 vinculada em Migrate a Vanilla forum to Discourse.

Se bem me lembro, não encontrei o erro UTF-8 novamente ao usar o script mais recente do Vanilla Porter e o tipo de fórum “Vanilla 2”.

Se essas duas sugestões não fizerem diferença para sua importação, por favor, forneça alguns detalhes sobre as etapas que você tomou até agora e exatamente o que você está vendo. Às vezes, existem pequenas variações no “mesmo erro” que podem fazer uma grande diferença na solução de problemas.

ddeveloper · Outubro 17, 2023, 5:06pm

Eu segui o mesmo guia, exceto usando a versão 2.6 do porter. Usarei o arquivo de exportação da versão 2.6 e atualizarei aqui.

ddeveloper · Outubro 17, 2023, 5:35pm

Ok, tentei o porter 2.6 e ele resultou no mesmo erro de UTF-8:

Até agora, segui este guia: Migrate a Vanilla forum to Discourse

Tudo correu bem até este erro de codificação UTF-8. Algumas pessoas resolveram este problema. Tentei essas soluções e elas não funcionaram para mim.

Tentei a solução do @Nick_Chomey acima; tentando forçar a codificação utf-8 ao ler o arquivo txt, mas para minha frustração, também não funcionou.

southpaw · Outubro 17, 2023, 5:55pm

Só para ter certeza, qual Tipo de Fórum de Origem você selecionou no menu suspenso do Vanilla Porter?

Você poderia nos dizer que tipo de computador você está usando? As instruções para converter seu arquivo para codificação UTF-8 variarão.

ddeveloper · Outubro 17, 2023, 6:09pm

Obrigado por dedicar tempo para ajudar um colega do fórum.

Selecionei “Vanilla 2” em Source Forum Type.

Posso usar dispositivos baseados em Windows e Linux e tenho acesso a ambos.

Tópico		Respostas	Visualizações
Migrate a Vanilla forum to Discourse Sysadmins how-to	44	16546	30 de Janeiro de 2023
[Paid] Need a Vanilla 2 Import tool Marketplace	66	11347	3 de Março de 2015
Error when importing from Vanilla Migration	4	2014	28 de Setembro de 2015
Migrate/Convert WP Posts to Discourse Topics Development	3	734	4 de Novembro de 2021
Migrating vBulletin 5 database - Import script errors Migration vbulletin5	46	2805	8 de Março de 2023

Erro ao importar do vanilla: sequência de bytes inválida em UTF-8

Tópicos relacionados