AI:embeddings:backfill - Lidando com o Erro 400 da OpenAI por Excesso de Tokens em Embeddings

piffy · Janeiro 21, 2024, 2:37am

Estou tentando executar esta tarefa do Rake usando os embeddings da OpenAI:

Recebo uma mensagem de erro

[:/var/www/discourse# rake ai:embeddings:backfill --trace
** Invoke ai:embeddings:backfill (first_time)
** Invoke environment (first_time)
** Execute environment
** Execute ai:embeddings:backfill
.rake aborted!
Net::HTTPBadResponse: Net::HTTPBadResponse (Net::HTTPBadResponse)
/var/www/discourse/plugins/discourse-ai/lib/inference/open_ai_embeddings.rb:27:in `perform!’
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/text_embedding_ada_002.rb:36:in `vector_from’
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/base.rb:144:in `generate_representation_from’
/var/www/discourse/plugins/discourse-ai/lib/tasks/modules/embeddings/database.rake:19:in `block (2 levels) in ’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:71:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:71:in `block in find_each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:138:in `block in find_in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:245:in `block in in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:229:in `loop’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:229:in `in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:137:in `find_in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:70:in `find_each’
/var/www/discourse/plugins/discourse-ai/lib/tasks/modules/embeddings/database.rake:17:in `block in ’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `block in execute’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `execute’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:219:in `block in invoke_with_call_chain’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:199:in `synchronize’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:199:in `invoke_with_call_chain’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:188:in `invoke’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:182:in `invoke_task’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `block (2 levels) in top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `block in top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:147:in `run_with_threads’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:132:in `top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:83:in `block in run’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:208:in `standard_exception_handling’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:80:in `run’
bin/rake:13:in `<top (required)>’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:58:in `load’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:58:in `kernel_load’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:23:in `run’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:451:in `exec’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/command.rb:28:in `run’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/invocation.rb:127:in `invoke_command’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor.rb:527:in `dispatch’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:34:in `dispatch’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/base.rb:584:in `start’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:28:in `start’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/exe/bundle:28:in `block in <top (required)>’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/friendly_errors.rb:117:in `with_friendly_errors’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/exe/bundle:20:in `<top (required)>’
/usr/local/bin/bundle:25:in `load’
/usr/local/bin/bundle:25:in `’
Tasks: TOP => ai:embeddings:backfill

Você não precisa ler, eu descobri qual é o problema.

Um HTTPBadResponse está sendo lançado da linha abaixo:

github.com/discourse/discourse-ai

lib/inference/open_ai_embeddings.rb

4b4aedb50


      
                  response =
                    Faraday.post(
                      SiteSetting.ai_openai_embeddings_url,
                      { model: model, input: content }.to_json,
                      headers,
                    )
                  if response.status != 200
                    Rails.logger.warn(
                      "OpenAI Embeddings failed with status: #{response.status} body: #{response.body}",
                    )
                    raise Net::HTTPBadResponse
                  end
          
                  JSON.parse(response.body, symbolize_names: true)
                end
              end
            end
          end

a página /logs mostra isto:

OpenAI Embeddings failed with status: 400 body: {
  "error": {
    "message": "This model's maximum context length is 8192 tokens, however you requested 8506 tokens (8506 in your prompt; 0 for the completion). Please reduce your prompt; or completion length.",
    "type": "invalid_request_error",
    "param": null,
    "code": null
  }
}

Basicamente, parece que há algo com muitas palavras. Não tenho certeza qual é a diferença entre “prompt” e “completion” neste contexto. De qualquer forma, isso está impedindo o backfilling.

Eu alterei o limite máximo de posts nas configurações do site, então talvez isso seja causado por algum post muito longo? Nesse caso, eu esperaria que o conteúdo deste post fosse truncado ou talvez que esse post fosse simplesmente ignorado? De qualquer forma, está bloqueando o processo de backfilling inteiramente.

Falco · Janeiro 21, 2024, 4:52am

Obrigado pelo relatório, darei uma olhada na segunda-feira.

Falco · Janeiro 23, 2024, 6:06pm

Estamos truncando o conteúdo antes de enviá-lo usando nosso próprio Tokenizador OpenAI, então este é um erro inesperado.

Você pode compartilhar o texto problemático?

piffy · Janeiro 23, 2024, 6:26pm

Tudo que consigo ver é o stacktrace e o erro 400. Existe algum lugar onde eu possa ver qual foi a requisição? Caso contrário, não sei qual texto está causando o problema.

Falco · Janeiro 23, 2024, 6:34pm

Como você está executando a tarefa do rake, pode editar o arquivo em

github.com/discourse/discourse-ai

lib/tasks/modules/embeddings/database.rake

main


      
          .where("#{topics_table_name}.topic_id IS NULL")
          .where("category_id IN (?)", public_categories)

e adicionar um puts t.id entre as linhas 18 e 19 para imprimir o ID do tópico.

piffy · Janeiro 23, 2024, 7:16pm

Obrigado pela sua orientação. Acho que encontrei um caso extremo.

O problema era o texto Zalgo

Ou seja, este material:

Este “hello world” se torna 607 caracteres com todo o lixo nele

image776×486 19 KB

Havia uma postagem com um monte disso, então eu a deletei. O preenchimento pôde prosseguir. Provavelmente não é um problema de alta prioridade, mas não posso ser o único com uma postagem como essa em seu fórum.

Falco · Janeiro 23, 2024, 7:20pm

Ah, isso é interessante. Acho que isso aciona um problema com o tokenizador da OpenAI, o que faz com que nossa contagem esteja errada.

sam · Janeiro 29, 2024, 5:32am

Isso pode, na verdade, ser um bug no tokenizador oficial!!

Nossa contagem está totalmente alinhada!

Além disso… olhando para as contagens de tokens, o texto zalgo é um ataque infernal à IA, dado que infla as contagens de tokens por tão pouco valor.

@piffy há alguma chance de você colar o texto exato que você tinha em https://platform.openai.com/tokenizer para ver se as contagens de tokens se alinham com o que a API diz, pode haver uma reprodução para a OpenAI aqui.

piffy · Janeiro 29, 2024, 5:47am

Acima está o conteúdo bruto da postagem que vejo quando clico em “Editar”

Para mais contexto, esta foi uma falha na incorporação do tópico, então não sei os detalhes de implementação de como um tópico completo é incorporado. Mas posso dizer que remover esta postagem fez com que o problema fosse de não funcionar para funcionar.

Posso enviar a mensagem original no chat, sinto que postá-la neste tópico pode apenas recriar o problema aqui

Falco · Março 15, 2024, 2:15pm

Corrigido em

Tópico		Respostas	Visualizações
AI embeddings backfill rake aborted Support ai	4	570	30 de Janeiro de 2024
Embedding of post is not being properly truncated in discourse-ai plugin Bug ai	5	416	20 de Agosto de 2023
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	14	519	29 de Fevereiro de 2024
Something bad with embeddings (related topics getting too costly) Bug related-topics , ai	21	224	5 de Janeiro de 2025
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	130	3 de Novembro de 2025

AI:embeddings:backfill - Lidando com o Erro 400 da OpenAI por Excesso de Tokens em Embeddings

Tópicos relacionados