AI翻訳進捗グラフ

昨日、セルフホストのDiscourseサーバーでAI翻訳を有効にしました。全体としては順調……といった感じです。

翻訳進捗グラフが更新されないか、正確ではありません。現在表示されているのは以下の通りです:

これによると、2026年2月23日以降のすべての投稿が99%翻訳済みと表示されています。

これは正確ではありません。この期間には約3,000件の投稿があります。翻訳ログによると、現在処理されているのは約6日前の投稿です。

そこで質問ですが、以下の点をご存知の方はいらっしゃいますか:

  • このグラフの更新頻度はどのくらいですか?
  • 翻訳待ちの投稿を抽出するData Explorerのクエリ
  • 翻訳済みの投稿を抽出するData Explorerのクエリ
  • 翻訳を試みたが、エラーやその他の理由で失敗した投稿を抽出するData Explorerのクエリ

よろしくお願いします。

大規模なサイトではタイムアウトが発生していたため、このページをキャッシュする必要がありました。

翻訳には主に2つのステップがあります。

  1. 投稿の元の言語を検出する
  2. それ以外のすべての言語に翻訳する

初期段階では、サイトは主にステップ1(言語検出)に費やされます。当初は翻訳進捗ページでこの状況を表示していましたが、フィードバックで「情報が多すぎる」と指摘されたため、現在は表示を削除しています。

とはいえ、これは重要なご指摘です。進捗ページのキャッシュと、言語検出に関する情報の欠如により、プロセスの初期段階では体験が非常に悪い状態になっています。

最後に、バックフィル(過去データの一括処理)の速度は非常に慎重に設定しています。予算に応じて、この値を引き上げることを検討してください。

よりシンプルなレポート方式を検討することをお勧めします。

私の理解では、翻訳プロセスは2つの段階で実行されます:

  1. 翻訳対象となるトピックデータを翻訳する。
  2. 翻訳対象となる投稿データを翻訳する。

管理およびレポートの観点からは、現在処理中のものよりも、対象作業全体に対する進捗状況に関心があります。設定された翻訳対象条件に基づいたレポートを見ていただければ幸いです。

例えば:

ステータス

バックフィル設定は、2026年2月23日以降に作成されたすべてのコンテンツを翻訳するように構成されています。

領域 合計 対象 翻訳済み 完了率
トピック 25,000 540 450 83%
投稿 400,000 3,700 800 22%

翻訳失敗

投稿ID 理由
34543 xxxx行に不正な文字が含まれています

現在のグラフは運用アクティビティを示しているように見えますが、確かに有用です。しかし、私が本当に把握したいのは、対象作業のどれくらいが完了したかという点です。

個人的には、言語別の完了率にはあまり関心はありません。トピックや投稿は翻訳済みか、そうでないかのいずれかです。私にとっての重要な質問は、設定されたバックログのどれくらいが正常に処理されたかということです。

このアプローチは、すべての言語組み合わせの進捗を追跡するのではなく集計値に焦点を当てるため、データベースにも優しいと思われます。

言語別のレポートが依然として価値がある場合は、フィルターを通じて表示できるようにすればよいかもしれません。管理者が言語を選択し、その言語専用の同じ進捗テーブルを表示できるようにします。

いくつかの提案です。

p.s.

現在のキャッシュ期間は何ですか?