AI:embeddings:backfill - Gestione dell'Errore 400 di OpenAI per Token Eccessivi in Embeddings

piffy · 21 Gennaio 2024, 2:37am

Sto cercando di eseguire questo task rake utilizzando gli embedding di OpenAI:

Ricevo un messaggio di errore

[:/var/www/discourse# rake ai:embeddings:backfill --trace
** Invoke ai:embeddings:backfill (first_time)
** Invoke environment (first_time)
** Execute environment
** Execute ai:embeddings:backfill
.rake aborted!
Net::HTTPBadResponse: Net::HTTPBadResponse (Net::HTTPBadResponse)
/var/www/discourse/plugins/discourse-ai/lib/inference/open_ai_embeddings.rb:27:in `perform!’
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/text_embedding_ada_002.rb:36:in `vector_from’
/var/www/discourse/plugins/discourse-ai/lib/embeddings/vector_representations/base.rb:144:in `generate_representation_from’
/var/www/discourse/plugins/discourse-ai/lib/tasks/modules/embeddings/database.rake:19:in `block (2 levels) in ’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:71:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:71:in `block in find_each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:138:in `block in find_in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:245:in `block in in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:229:in `loop’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:229:in `in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:137:in `find_in_batches’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/activerecord-7.0.8/lib/active_record/relation/batches.rb:70:in `find_each’
/var/www/discourse/plugins/discourse-ai/lib/tasks/modules/embeddings/database.rake:17:in `block in ’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `block in execute’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:281:in `execute’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:219:in `block in invoke_with_call_chain’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:199:in `synchronize’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:199:in `invoke_with_call_chain’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/task.rb:188:in `invoke’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:182:in `invoke_task’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `block (2 levels) in top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `each’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:138:in `block in top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:147:in `run_with_threads’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:132:in `top_level’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:83:in `block in run’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:208:in `standard_exception_handling’
/var/www/discourse/vendor/bundle/ruby/3.2.0/gems/rake-13.1.0/lib/rake/application.rb:80:in `run’
bin/rake:13:in `<top (required)>’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:58:in `load’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:58:in `kernel_load’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli/exec.rb:23:in `run’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:451:in `exec’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/command.rb:28:in `run’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/invocation.rb:127:in `invoke_command’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor.rb:527:in `dispatch’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:34:in `dispatch’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/vendor/thor/lib/thor/base.rb:584:in `start’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/cli.rb:28:in `start’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/exe/bundle:28:in `block in <top (required)>’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/lib/bundler/friendly_errors.rb:117:in `with_friendly_errors’
/usr/local/lib/ruby/gems/3.2.0/gems/bundler-2.5.3/exe/bundle:20:in `<top (required)>’
/usr/local/bin/bundle:25:in `load’
/usr/local/bin/bundle:25:in `’
Tasks: TOP => ai:embeddings:backfill

Non devi leggerlo, ho capito qual è il problema.

Viene generato un HTTPBadResponse dalla riga seguente:

github.com/discourse/discourse-ai

lib/inference/open_ai_embeddings.rb

4b4aedb50


      
                  response =
                    Faraday.post(
                      SiteSetting.ai_openai_embeddings_url,
                      { model: model, input: content }.to_json,
                      headers,
                    )
                  if response.status != 200
                    Rails.logger.warn(
                      "OpenAI Embeddings failed with status: #{response.status} body: #{response.body}",
                    )
                    raise Net::HTTPBadResponse
                  end
          
                  JSON.parse(response.body, symbolize_names: true)
                end
              end
            end
          end

la pagina /logs mostra questo:

OpenAI Embeddings failed with status: 400 body: {
  "error": {
    "message": "This model's maximum context length is 8192 tokens, however you requested 8506 tokens (8506 in your prompt; 0 for the completion). Please reduce your prompt; or completion length.",
    "type": "invalid_request_error",
    "param": null,
    "code": null
  }
}

Fondamentalmente sembra che ci sia qualcosa di troppo lungo. Non sono sicuro di quale sia la differenza tra “prompt” e “completion” in questo contesto. In ogni caso, questo mi impedisce di eseguire il backfill.

Ho modificato il limite massimo di post nelle impostazioni del sito, quindi forse è causato da un post molto lungo? In questo caso, mi aspetterei che il contenuto di questo post venga troncato o che venga semplicemente saltato? In ogni caso, blocca completamente il processo di backfill.

Falco · 21 Gennaio 2024, 4:52am

Grazie per la segnalazione, ci darò un’occhiata lunedì.

Falco · 23 Gennaio 2024, 6:06pm

Stiamo troncando il contenuto prima di inviarlo utilizzando il nostro Tokenizer OpenAI, quindi questo è un errore imprevisto.

Puoi condividere il testo problematico?

piffy · 23 Gennaio 2024, 6:26pm

Tutto ciò che posso vedere è lo stacktrace e l’errore 400. C’è un posto dove posso guardare per vedere qual era la richiesta? Altrimenti non so quale testo stia causando il problema.

Falco · 23 Gennaio 2024, 6:34pm

Poiché stai eseguendo il task rake, puoi modificare il file all’indirizzo

github.com/discourse/discourse-ai

lib/tasks/modules/embeddings/database.rake

main


      
          .where("#{topics_table_name}.topic_id IS NULL")
          .where("category_id IN (?)", public_categories)

e aggiungere un puts t.id tra le righe 18 e 19 per stampare l’ID dell’argomento.

piffy · 23 Gennaio 2024, 7:16pm

Grazie per la tua guida. Penso di aver trovato un caso limite pazzesco.

Il problema era il testo Zalgo

Cioè, questa roba:

Questo “hello world” diventa 607 caratteri con tutta la spazzatura sopra

image776×486 19 KB

C’era un post con un sacco di questo testo, quindi l’ho cancellato. Il backfill è stato in grado di procedere. Probabilmente non è un problema ad alta priorità, ma non posso essere l’unico ad avere un post del genere sul mio forum.

Falco · 23 Gennaio 2024, 7:20pm

Ohh è interessante. Immagino che attivi un problema con il tokenizer di OpenAI, che rende errato il nostro conteggio.

sam · 29 Gennaio 2024, 5:32am

Questo potrebbe in realtà essere un bug nel tokenizer ufficiale!!

Il nostro conteggio corrisponde perfettamente!

Inoltre… guardando i conteggi dei token, il testo zalgo è un attacco infernale all’IA, dato che gonfia i conteggi dei token per così poco valore.

@piffy c’è qualche possibilità che tu possa incollare il testo esatto che avevi in https://platform.openai.com/tokenizer per vedere se i conteggi dei token corrispondono a ciò che dice l’API, potrebbe esserci una riproduzione per Open AI qui.

piffy · 29 Gennaio 2024, 5:47am

Sopra è il contenuto del post grezzo che vedo quando faccio clic su “Modifica”

Per maggiore contesto, questo è stato un fallimento dell’argomento da incorporare, quindi non conosco i dettagli di implementazione su come viene incorporato un argomento completo. Ma posso dirvi che la rimozione di questo singolo post è passata da non funzionante a funzionante.

Posso inviarvi il messaggio originale in chat, sento che pubblicarlo in questo thread potrebbe ricreare il problema qui

Falco · 15 Marzo 2024, 2:15pm

Corretto in

Argomento		Risposte	Visualizzazioni
AI embeddings backfill rake aborted Support ai	4	521	Gennaio 30, 2024
Embedding of post is not being properly truncated in discourse-ai plugin Bug ai	5	407	Agosto 20, 2023
"Net::HTTPBadResponse" errors on Gemini Embeddings Bug ai , related-topics	14	489	Febbraio 29, 2024
Something bad with embeddings (related topics getting too costly) Bug ai , related-topics	21	188	Gennaio 5, 2025
Warning of embedding `input must have less than 8192 tokens` with discourse ai Support ai	5	84	Novembre 3, 2025

AI:embeddings:backfill - Gestione dell'Errore 400 di OpenAI per Token Eccessivi in Embeddings

Argomenti correlati