Ai:embeddings:backfill - Manejo del error 400 de OpenAI por tokens excesivos en embeddings

piffy · 21 Enero, 2024 02:37

Estoy intentando realizar esta tarea de rake usando las incrustaciones de OpenAI:

Recibo un mensaje de error

[:/var/www/discourse# rake ai:embeddings:backfill --trace
** Invoke ai:embeddings:backfill (first_time)
** Invoke environment (first_time)
** Execute environment
** Execute ai:embeddings:backfill
.rake aborted!
Net::HTTPBadResponse: Net::HTTPBadResponse (Net::HTTPBadResponse)
/var/www/discourse/plugins/discourse-ai/lib/inference/open_ai_embeddings.rb:27:in `perform!’
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/text_embedding_ada_002.rb:36:in `vector_from’
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/base.rb:144:in `generate_representation_from’
/var/www/discourse/plugins/discourse-ai/lib/tasks/modules/embeddings/database.rake:19:in `block (2 levels) in ’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:71:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:71:in `block in find_each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:138:in `block in find_in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:245:in `block in in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:229:in `loop’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:229:in `in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:137:in `find_in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:70:in `find_each’
/var/www/discourse/plugins/discourse-ai/lib/tasks/modules/embeddings/database.rake:17:in `block in ’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `block in execute’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `execute’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:219:in `block in invoke_with_call_chain’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:199:in `synchronize’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:199:in `invoke_with_call_chain’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:188:in `invoke’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:182:in `invoke_task’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `block (2 levels) in top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `block in top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:147:in `run_with_threads’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:132:in `top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:83:in `block in run’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:208:in `standard_exception_handling’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:80:in `run’
bin/rake:13:in `<top (required)>’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:58:in `load’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:58:in `kernel_load’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:23:in `run’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:451:in `exec’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/command.rb:28:in `run’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/invocation.rb:127:in `invoke_command’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor.rb:527:in `dispatch’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:34:in `dispatch’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/base.rb:584:in `start’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:28:in `start’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/exe/bundle:28:in `block in <top (required)>’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/friendly_errors.rb:117:in `with_friendly_errors’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/exe/bundle:20:in `<top (required)>’
/usr/local/bin/bundle:25:in `load’
/usr/local/bin/bundle:25:in `’
Tasks: TOP => ai:embeddings:backfill

No tienes que leerlo, ya descubrí cuál es el problema.

Se está lanzando un HTTPBadResponse desde la siguiente línea:

github.com/discourse/discourse-ai

lib/inference/open_ai_embeddings.rb

4b4aedb50


      
                  response =
                    Faraday.post(
                      SiteSetting.ai_openai_embeddings_url,
                      { model: model, input: content }.to_json,
                      headers,
                    )
                  if response.status != 200
                    Rails.logger.warn(
                      "OpenAI Embeddings failed with status: #{response.status} body: #{response.body}",
                    )
                    raise Net::HTTPBadResponse
                  end
          
                  JSON.parse(response.body, symbolize_names: true)
                end
              end
            end
          end

La página /logs muestra esto:

OpenAI Embeddings failed with status: 400 body: {
  "error": {
    "message": "This model's maximum context length is 8192 tokens, however you requested 8506 tokens (8506 in your prompt; 0 for the completion). Please reduce your prompt; or completion length.",
    "type": "invalid_request_error",
    "param": null,
    "code": null
  }
}

Básicamente, parece que hay algo con demasiadas palabras. No estoy seguro de cuál es la diferencia entre el “prompt” y la “completion” en este contexto. De cualquier manera, esto está impidiendo que se complete el backfilling.

He cambiado el límite máximo de publicaciones en la configuración del sitio, así que tal vez esté siendo causado por alguna publicación realmente larga. En este caso, esperaría que el contenido de esta publicación se truncara o que esa publicación simplemente se omitiera. De cualquier manera, está bloqueando por completo el proceso de backfilling.

Falco · 21 Enero, 2024 04:52

Gracias por el informe, lo revisaré el lunes.

Falco · 23 Enero, 2024 18:06

Estamos truncando el contenido antes de enviarlo utilizando nuestro propio tokenizador de OpenAI, por lo que este es un error inesperado.

¿Puedes compartir el texto problemático?

piffy · 23 Enero, 2024 18:26

Todo lo que puedo ver es el stacktrace y el error 400. ¿Hay algún lugar donde pueda ver cuál fue la solicitud? De lo contrario, no sé qué texto está causando el problema.

Falco · 23 Enero, 2024 18:34

Dado que estás ejecutando la tarea de rake, ¿puedes editar el archivo en

github.com/discourse/discourse-ai

lib/tasks/modules/embeddings/database.rake

main


      
          .where("#{topics_table_name}.topic_id IS NULL")
          .where("category_id IN (?)", public_categories)

y añadir un puts t.id entre las líneas 18 y 19 para imprimir el ID del tema.

piffy · 23 Enero, 2024 19:16

Gracias por tu guía. Creo que encontré un caso extremo.

El problema era el texto Zalgo

Es decir, esta cosa:

Este “hola mundo” se convierte en 607 caracteres con toda la basura encima.

image776×486 19 KB

Había una publicación con un montón de eso, así que la eliminé. El rellenado pudo continuar. Probablemente no sea un problema de alta prioridad, pero no puedo ser el único con una publicación como esta en su foro.

Falco · 23 Enero, 2024 19:20

Ohh eso es interesante. Supongo que desencadena un problema con el tokenizador de OpenAI, lo que hace que nuestro conteo sea incorrecto.

sam · 29 Enero, 2024 05:32

¡Esto podría ser en realidad un error en el tokenizador oficial!

¡Nuestro conteo coincide totalmente!

Además… si observamos los recuentos de tokens, el texto “zalgo” es un infierno de ataque contra la IA, dado que infla los recuentos de tokens por muy poco valor.

@piffy ¿hay alguna posibilidad de que puedas pegar el texto exacto que tenías en https://platform.openai.com/tokenizer para ver si los recuentos de tokens coinciden con lo que dice la API? Puede haber una forma de reproducirlo para OpenAI aquí.

piffy · 29 Enero, 2024 05:47

Arriba está el contenido sin procesar de la publicación que veo cuando hago clic en “Editar”.

Para más contexto, esto fue un fallo al incrustar el tema, así que no conozco los detalles de implementación de cómo se incrusta un tema completo. Pero puedo decirte que eliminar esta publicación hizo que pasara de no funcionar a funcionar.

Puedo enviarte el mensaje original por chat, siento que publicarlo en este hilo podría recrear el problema aquí

Falco · 15 Marzo, 2024 14:15

Corregido en

Tema		Respuestas	Vistas
AI embeddings backfill rake aborted Support ai	4	611	30 Enero 2024
Embedding of post is not being properly truncated in discourse-ai plugin Bug ai	5	429	20 Agosto 2023
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	14	573	29 Febrero 2024
Something bad with embeddings (related topics getting too costly) Bug ai , related-topics	21	303	5 Enero 2025
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	181	3 Noviembre 2025

Ai:embeddings:backfill - Manejo del error 400 de OpenAI por tokens excesivos en embeddings

Temas relacionados