Hits para /srv/status contam como crawlers?

pfaffman · Março 5, 2020, 6:00pm

Tenho um site rodando com 3 pods do Kubernetes (foi o que eles quiseram!). As estatísticas do rastreador mostram mais de 120 mil visualizações de página por dia. Há… muito poucos… usuários e menos de 1000 posts, então não há muita atividade de rastreamento para ser feita. Observar o production.log de um dos pods por alguns minutos mostra apenas tráfego para /srv/status, que o Kubernetes está usando como monitor de saúde. Isso deveria ser contado como rastreamento? Estou deixando passar algo?

codinghorror · Março 6, 2020, 6:19pm

Não, isso não deve ser contado.

riking · Março 6, 2020, 8:35pm

120K está bem no ponto para uma taxa constante de 5k/h, então eu diria que eles estão sendo contados, mesmo não devendo.

Talvez algo esteja dando errado na detecção?

pfaffman · Março 6, 2020, 8:36pm

Posso confirmar que eles estão sendo contados (e estão sendo registrados a partir de 127.0.0.1)

SELECT * from web_crawler_requests
where date = '2020-03-05'
order by count desc

EDIT: Além disso, pareço ser ruim com números, aparentemente, e são ~12K/dia.

E isso também é confuso, porque se eu fizer grep -c /srv/status nos 3 pods, cada um tem ~15K de linhas correspondentes a /srv/status nas 20 horas em que estiveram ativos. Isso daria perto de 50K/dia.

sam · Março 6, 2020, 8:49pm

Eles são contados e, se você não quiser que sejam contados, há uma opção clara que você pode usar:

github.com/discourse/discourse

lib/middleware/request_tracker.rb

main


      
            ApplicationRequest.increment!(:api)
          elsif data[:is_user_api]
            ApplicationRequest.increment!(:user_api)
          elsif data[:track_view]
            if data[:is_crawler]
              ApplicationRequest.increment!(:page_view_crawler)
              WebCrawlerRequest.increment!(data[:user_agent])
            elsif data[:has_auth_cookie]
              ApplicationRequest.increment!(:page_view_logged_in)
              ApplicationRequest.increment!(:page_view_logged_in_mobile) if data[:is_mobile]
            elsif !SiteSetting.login_required
              ApplicationRequest.increment!(:page_view_anon)
              ApplicationRequest.increment!(:page_view_anon_mobile) if data[:is_mobile]
            end
          end
          
          if data[:browser_page_view] && !data[:is_crawler] && !data[:is_beacon]
            if data[:has_auth_cookie]
              ApplicationRequest.increment!(:page_view_logged_in_browser)
              ApplicationRequest.increment!(:page_view_logged_in_browser_mobile) if data[:is_mobile]

Defina o cabeçalho HTTP Discourse-Track-View como 0 na solicitação de origem.

pfaffman · Março 6, 2020, 8:57pm

Agradeço que você superestime o que está claro para mim.

Isso está quase claro.

Certo, então eu realmente preciso definir HTTP_DISCOURSE_TRACK_VIEW=false nas variáveis de ambiente passadas para o contêiner quando ele é iniciado? Ou devo arranjar uma maneira de fazer com que o serviço que acessa /srv/status inclua um cabeçalho Discourse-Track-View: 0? (ou talvez seja =, mas presumo que consiga descobrir isso).

EDIT: Acredito que isso tenha resolvido (obrigado, @Falco!), mas voltarei a relatar amanhã quando puder confirmar com certeza que funcionou.

EDIT2: E o GKE não possui apenas verificações de saúde do k8s, mas também verificações de saúde do balanceador de carga, então ambos precisam ser configurados com o cabeçalho Discourse-Track-View: 0.

Falco · Março 6, 2020, 8:58pm

A segunda. Supondo que o recurso permita o uso de cabeçalhos personalizados

riking · Março 6, 2020, 11:10pm

Sim, cabeçalhos personalizados:

pods/probe/http-liveness.yaml

apiVersion: v1
kind: Pod
metadata:
  labels: {...}
  name: liveness-http
spec:
  containers:
  - name: ...
    image: ...
    readinessProbe:
      httpGet:
        path: /srv/status
        port: 80
        httpHeaders:
        - name: Discourse-Track-View
          value: "0"
      periodSeconds: 3
    livenessProbe:
      httpGet:
        # enviado em https://github.com/discourse/discourse/pull/9136
        path: /srv/status?shutdown_ok=1
        port: 80
        httpHeaders:
        - name: Discourse-Track-View
          value: "0"  # observe as aspas, para evitar que o YAML interprete como um inteiro
      initialDelaySeconds: 3
      periodSeconds: 3

pfaffman · Março 6, 2020, 11:14pm

Obrigado, Kane! Agradeço muito isso. É isso que estou tentando, e parece que está funcionando, mas estou esperando até amanhã para ver se realmente está dando certo.

codinghorror · Março 8, 2020, 2:26am

Acho que, por padrão, @sam, essa rota não deve ser contada. Não vejo valor em contar “visualizações de página” para essa rota… você vê?

sam · Março 9, 2020, 6:56am

Claro, podemos adicionar uma bypass aqui. É apenas um pouco complicado de testar e não temos um padrão claro para bypass.

riking · Março 23, 2020, 7:57pm

As respostas já devem estar excluídas do rastreamento de visualizações, pois são do tipo text/plain e não text/html.

Qual é o caminho exato que o GoogleHC estava acessando? Se ele estava acessando /, esse é o seu problema; e a contagem de visualizações estava correta.

pfaffman · Março 23, 2020, 8:54pm

Hmm. Acredito que adicionei os cabeçalhos descritos acima tanto ao K8s quanto ao balanceador de carga, e que ambos estão acessando /srv/status, tenho quase certeza. Ainda estou recebendo exatamente 12.960 acessos por dia na maioria dos dias. Vou dar uma olhada mais detalhada em breve.

Obrigado pela sua ajuda!

pfaffman · Abril 2, 2020, 5:32pm

Esse era o problema. Achei que tivesse configurado tanto o balanceador de carga quanto a verificação de saúde do k8s para acessar /srv/status, mas um deles estava acessando /. Então, quando finalmente descobri como corrigir isso, o problema desapareceu.

A grande notícia é que adicionar o Discourse-Track-View não é necessário!

Agora, preciso fazer com que todos os meus verificadores de saúde do uptime robot usem /srv/status.

Tópico		Respostas	Visualizações
Consolidated Pageviews: exclude uptime crawler from report without blocking? Support dashboard-reports	5	88	29 de Agosto de 2024
Traffic Dashboard Stats Feature feedback	31	9062	16 de Maio de 2016
Unidentified Crawler with High Amounts of Pageviews Data & reporting	7	769	4 de Fevereiro de 2020
Can I ignore some user agents? Support	6	874	23 de Agosto de 2022
Are web crawler page views included in the monthly 500K page view limit? General free-plan	2	56	11 de Fevereiro de 2026

Hits para /srv/status contam como crawlers?

Tópicos relacionados