Limpar os registros do user_auth_token_logs?

RGJ · Setembro 13, 2024, 5:30pm

Temos um fórum onde user_auth_token_logs tem 61 milhões de linhas (e crescendo).

Existem apenas 25 mil user_auth_tokens.

Das 61 milhões de linhas, 54 milhões de linhas referem-se a um user_auth_token que não existe mais (ou seja, um problema de integridade do banco de dados). E das 61 milhões de linhas, cerca de 58 milhões são mais antigas que 2 meses (ou seja, aparentemente inúteis?)

Perguntas:

Poderíamos simplesmente limpar isso sem arriscar mais problemas de integridade?
Seria uma ideia ter um job para limpar isso automaticamente?

db=# select count(*) from user_auth_tokens;
 count
-------
 25648

db=# select count(*) from user_auth_token_logs;
  count
----------
 61415352

db=# select count(*) from user_auth_token_logs where user_auth_token_id not in (select id from user_auth_tokens);
  count
----------
 54558442

db=# select count(*) from user_auth_token_logs where created_at < '2024-07-13';
  count
----------
 58565943

pmusaraj · Setembro 13, 2024, 6:22pm

Sim, os user_auth_token_logs existem apenas para fins de depuração. Todas as linhas podem ser esvaziadas, a única consequência será que você não terá nenhum log para depurar.

Isso deve ser coberto por:

https://github.com/discourse/discourse/blob/main/app/jobs/scheduled/weekly.rb#L13

RGJ · Setembro 13, 2024, 7:07pm

Obrigado por isso, eu não percebia que estava lá.

Então… a limpeza só é executada quando verbose_auth_token_logging está definido como true (o que não é o caso nesta instância)

mas o registo não detalhado acontece sempre, independentemente da definição

github.com/discourse/discourse

app/models/user_auth_token.rb

main


      
              auth_token: auth_token,
            )
          end
          
          def user
            impersonated_user || acting_user
          end

por 8fb823c

A mover isto para Contribute > Bug

pmusaraj · Setembro 13, 2024, 7:45pm

Ah sim, boa observação. Parece que as linhas 214 a 217 também precisam ser corrigidas.

Eu estaria confortável com uma limpeza global após um certo período de tempo. @osama (já que você é o autor do commit vinculado acima), você acha que podemos limpar todos esses logs após algum tempo (e se sim, depois de quanto tempo)? Parece que precisamos manter alguns deles para detectar logins suspeitos.

RGJ · Setembro 13, 2024, 10:16pm

Por que precisa de correção? Essa parte do código é sobre a limpeza de UserAuthTokens rotacionados, não sobre os registros de log?

Atualização: após habilitar SiteSetting.verbose_auth_token_logging, acionar o job semanal e executar VACUUM FULL user_auth_token_logs, a tabela passou de 16GB para 687MB

Salvamos algumas árvores hoje

Osama · Setembro 16, 2024, 8:15pm

Sim, acho que podemos limpar a maioria dos logs, mas alguns deles precisam permanecer. Especificamente, acho que quaisquer registros que tenham suspicious, generate ou rotate como ação precisarão ser mantidos, pois são usados para detectar e gerar relatórios de logins suspeitos.

github.com/discourse/discourse

app/models/concerns/reports/suspicious_logins.rb

501f07ab1


      
              title: I18n.t("reports.suspicious_logins.labels.login_time"),
            },
          ]
          
          report.data = []
          
          sql = <<~SQL
            SELECT u.id user_id, u.username, u.uploaded_avatar_id, t.client_ip, t.user_agent, t.created_at login_time
            FROM user_auth_token_logs t
            JOIN users u ON u.id = t.user_id
            WHERE t.action = 'suspicious'
              AND t.created_at >= :start_date
              AND t.created_at <= :end_date
            ORDER BY t.created_at DESC
          SQL
          
          DB
            .query(sql, start_date: report.start_date, end_date: report.end_date)
            .each do |row|
              data = {}

github.com/discourse/discourse

app/models/user_auth_token.rb

501f07ab1


      
              Math.sin((lat2_rad - lat1_rad) / 2)**2 +
                Math.cos(lat1_rad) * Math.cos(lat2_rad) * Math.sin((lon2_rad - lon1_rad) / 2)**2
            c = 2 * Math.atan2(Math.sqrt(a), Math.sqrt(1 - a))
          
            c * EARTH_RADIUS_KM
          end
          
          def self.is_suspicious(user_id, user_ip)
            return false unless User.find_by(id: user_id)&.staff?
          
            ips = UserAuthTokenLog.where(user_id: user_id).pluck(:client_ip)
            ips.delete_at(ips.index(user_ip) || ips.length) # delete one occurrence (current)
            ips.uniq!
            return false if ips.empty? # first login is never suspicious
          
            if user_location = login_location(user_ip)
              ips.none? do |ip|
                if location = login_location(ip)
                  distance(user_location, location) < SiteSetting.max_suspicious_distance_km
                end
              end

JonahAragon1 · Agosto 8, 2025, 4:11pm

Estou vendo neste fórum que este bug nunca foi corrigido
O relatório de logins suspeitos parece se aplicar apenas a membros da equipe, há alguma razão para que esses logs precisem ser mantidos para não administradores?
Para que o relatório funcione, ele precisa de dados desde o início do histórico da conta? O log pode ser reduzido para algo como os últimos 6 meses?
No momento, não há nenhuma limpeza, o que é uma preocupação de privacidade.

RGJ · Agosto 8, 2025, 4:31pm

Eu também não entendo a discussão acima.
O bug é muito simples: se o modo não for verboso, nenhuma limpeza de UserAuthTokenLog é realizada, nunca. O if deve ser removido.

A implementação original apenas registrava quando SiteSetting.verbose_auth_token_logging era verdadeiro. O que ainda tinha o problema de que, após desativá-lo, os logs restantes mais recentes permaneceriam, mas isso é uma coisa pequena.

Mas esta alteração tornou o registro incondicional (“Os logs de tokens de autenticação generate, rotate e suspicious agora são sempre registrados, independentemente da configuração verbose_auth_token_logging”).
Resumo; Essa alteração esqueceu de tornar a remoção incondicional também.

sam · Agosto 11, 2025, 2:47am

Com certeza, resolveremos isso nas próximas semanas. Se houver urgência, sinta-se à vontade para enviar um PR (que esteja testado e confirme que isso funciona como esperado).

RGJ · Agosto 13, 2025, 10:05am

Eu fiz um PR Fix: cleanup UserAuthTokenLog unconditionally by communiteq · Pull Request #34288 · discourse/discourse · GitHub, seria legal se isso entrasse para a versão 3.5

RGJ · Agosto 14, 2025, 5:23am

E parece que fui superado

github.com/discourse/discourse

FIX: Automatically clean up user_auth_token_logs

main ← jonaharagon:patch-1

opened 04:11PM - 10 Aug 25 UTC

jonaharagon

+45 -25

Fixes: https://meta.discourse.org/t/clean-up-user-auth-token-logs/326397?u=jonah…aragon1 Currently (since 2021 when this logging was [made unconditional](https://github.com/discourse/discourse/commit/8fb823c30f7fd3086f4370c2dc6e4e3737ae6acf)) all user IP addresses and user agent strings for all forum users are continuously logged and never cleared. Keeping unnecessary PII is a massive liability for us, so I hope this can be merged ASAP. I observe (in my user archive download) this indefinite logging does not happen on Meta, presumably because you have _verbose_ logging enabled, but it does happen on virtually all Discourse-hosted and self-hosted sites, which indicates to me this is unintended behavior. I should not have to enable verbose logging to _decrease_ the amount of logging here, but that is what I had to do as a temporary solution. This change will keep the logs for a few months by default. I can find no reason the logs should be kept longer, _especially_ as they only seem to be used for a feature (suspicious login reporting) which currently only applies to staff accounts and not regular users. cc: @OsamaSayegh

pmusaraj · Agosto 14, 2025, 5:13pm

De fato, esse PR agora foi mesclado graças ao @Osama. Ele aborda a maioria dos tipos de user_auth_token_logs, mas não todos, e em breve forneceremos uma correção para as entradas de generate. (Veja a discussão no link do PR acima para mais contexto).

Manterei este tópico aberto enquanto abordamos o acompanhamento.

Tópico		Respostas	Visualizações
User anonymization and staff_action_logs Support	6	748	9 de Agosto de 2021
Logging checked_for_custom_avatar Bug	7	1153	2 de Janeiro de 2015
How to remove admin logs Support	13	2591	14 de Novembro de 2023
Is there a limit to user_auth_token? Support	3	573	17 de Outubro de 2018
Reset all login tokens Feature	7	2186	20 de Maio de 2016

Limpar os registros do user_auth_token_logs?

Tópicos relacionados