Discourse AI + Explorador de Dados?

jordan-violet · Agosto 4, 2023, 6:54pm

Decidi que queria uma consulta específica hoje. Sem querer incomodar meus engenheiros (demais), decidi pedir ao ChatGPT para escrever uma consulta de explorador de dados para mim com base no que eu sabia e no que eu sabia que queria. Fiquei bastante impressionado que ele acertou tudo (além de adicionar um ponto e vírgula no final que não deveria ter).

Aqui está a consulta que ele construiu para mim quando dei alguns parâmetros e pedi para ele construir uma consulta que me desse um total acumulado de todos os usuários por mês:

SELECT 
    timeframe "Mês, Ano",
    user_count as "Usuários Adicionados Neste Mês",
    SUM(user_count) OVER (ORDER BY TO_DATE(timeframe, 'Month, YYYY'))::integer as "Usuários (Total Acumulado)"
FROM (
    SELECT 
        TO_CHAR(u.created_at, 'Month, YYYY') as "timeframe",
        count(u.id) as "user_count"
    FROM 
        users u
    GROUP BY 
        timeframe
    ORDER BY
        timeframe
) subquery
ORDER BY 
    TO_DATE(timeframe, 'Month, YYYY')

Houve alguma consideração para integrar IA na área do explorador de dados?

JammyDodger · Agosto 8, 2023, 8:47am

Uma postagem foi dividida em um novo tópico: Poderíamos reabrir o tópico para compartilhar consultas do Explorer?

EricGT · Agosto 5, 2023, 7:56am

Gostaria de compartilhar o prompt, a versão do ChatGPT e o modelo usado com o ChatGPT.

Por exemplo

ChatGPT Versão de Agosto de 3
Modelo: GPT-3.5
Prompt

O que é o Discourse Data Explorer?

Conclusão

Até minha última atualização em setembro de 2021, não há uma ferramenta ou produto específico chamado “Discourse Data Explorer” que eu conheça. No entanto, posso fornecer uma explicação geral com base nas informações disponíveis até aquele momento.

Discourse é um software de fórum moderno e de código aberto que permite que comunidades online tenham discussões e interações. É amplamente utilizado para hospedar discussões, fóruns de perguntas e respostas e comunidades de suporte. O Discourse oferece um rico conjunto de recursos para gerenciar discussões, engajamento de usuários e moderação.

Um “Data Explorer” (Explorador de Dados) geralmente se refere a uma ferramenta ou recurso que permite aos usuários consultar e explorar dados dentro de um sistema ou plataforma. É frequentemente usado no contexto de bancos de dados ou plataformas de análise de dados.

Considerando os dois componentes, “Discourse Data Explorer” poderia potencialmente ser uma ferramenta ou plugin hipotético que oferece aos usuários a capacidade de explorar e consultar dados dentro de um fórum Discourse. Isso poderia ser útil para administradores de comunidade ou analistas de dados que desejam obter insights sobre o comportamento do usuário, tendências de conteúdo ou outras métricas relacionadas às discussões que ocorrem no fórum.

É importante notar que minhas informações podem estar desatualizadas e novos desenvolvimentos podem ter ocorrido após minha última atualização. Se “Discourse Data Explorer” for de fato um produto ou recurso real, recomendo pesquisar as informações mais recentes para obter detalhes precisos sobre suas capacidades e uso.

O motivo da pergunta é que você tem uma excelente ideia e foi bom vê-la compartilhada, mas no futuro outros podem tentar fazer outra pergunta e o compartilhamento do prompt, da conclusão e dos detalhes do ChatGPT são necessários se a ajuda for necessária para entender quaisquer problemas.

Observação: Sou um moderador de categoria no fórum Discourse da OpenAI, então tenho muita experiência com aqueles que buscam ajuda com prompts do ChatGPT. (ref)

A versão do ChatGPT pode ser encontrada no canto inferior direito, abaixo de onde um prompt é inserido

O modelo pode ser encontrado perto do topo da página, no meio

jordan-violet · Agosto 6, 2023, 4:48am

Eu…não gosto deste bot.

simon · Agosto 6, 2023, 6:30am

Expandindo um pouco essa ideia, permitir que os usuários interajam com aplicativos usando linguagem natural é praticamente o meu sonho em relação à IA. Com o Discourse e o plugin Data Explorer, seria possível obter resultados de prompts como “retornar uma lista de usuários que expressaram interesse em moderação”. Ou ainda melhor, “enviar um convite para o grupo community_moderation para todos os usuários que expressaram interesse em moderação”.

Voltando ao que é possível agora:

Testando com ChatGPT 3.0 e 3.5, obtive bons resultados ao pedir para ele retornar uma consulta PostgreSQL e copiar a estrutura das tabelas de meu interesse para o prompt. Por exemplo:

Resumo

Eu: Retorne uma consulta postgresql que liste todos os nomes de usuário para usuários que estão no grupo “community_moderators” para a seguinte estrutura de banco de dados:

# == Schema Information
#
# Table name: groups
#
#  id                                 :integer          not null, primary key
#  name                               :string           not null
#
# == Schema Information
#
# Table name: group_users
#
#  id                 :integer          not null, primary key
#  group_id           :integer          not null
#
# == Schema Information
#
# Table name: users
#
#  id                        :integer          not null, primary key
#  username                  :string(60)       not null

ChatGPT 3.5: Claro, aqui está uma consulta PostgreSQL que lista todos os nomes de usuário para usuários que estão no grupo “community_moderators” com base na estrutura de banco de dados fornecida:

SELECT u.username
FROM users u
JOIN group_users gu ON u.id = gu.user_id
JOIN groups g ON gu.group_id = g.id
WHERE g.name = 'community_moderators';

Esta consulta recupera os nomes de usuário da tabela users juntando-a com a tabela group_users pelo ID do usuário e, em seguida, juntando-a com a tabela groups pelo ID do grupo. Ela filtra os resultados para incluir apenas os nomes de usuário de usuários que estão no grupo “community_moderators”.

Eu: Aqui está a estrutura das tabelas de tópicos e posts da aplicação:

# == Schema Information
#
# Table name: topics
#
#  id                        :integer          not null, primary key
#  title                     :string           not null
#
# == Schema Information
#
# Table name: posts
#
#  id                      :integer          not null, primary key
#  user_id                 :integer
#  topic_id                :integer          not null
#  post_number             :integer          not null
#  raw                     :text             not null

Retorne uma consulta que liste todos os IDs de tópicos, IDs de posts e nomes de usuários para todos os posts criados por membros do grupo “community_moderators” que deem alguma indicação de que o autor está interessado em como moderar discussões polarizadas.

ChatGPT 3.5: Para conseguir isso, você precisaria juntar as tabelas posts, topics, users e group_users com base no esquema fornecido. Aqui está uma consulta PostgreSQL que recupera as informações solicitadas:

SELECT t.id AS topic_id, p.id AS post_id, u.username
FROM posts p
JOIN topics t ON p.topic_id = t.id
JOIN users u ON p.user_id = u.id
JOIN group_users gu ON u.id = gu.user_id
JOIN groups g ON gu.group_id = g.id
WHERE g.name = 'community_moderators'
  AND (p.raw ILIKE '%moderate%' OR p.raw ILIKE '%polarizing%' OR p.raw ILIKE '%discussion%');

Esta consulta recupera o topic_id, post_id e username para todos os posts criados por membros do grupo “community_moderators” que contêm certas palavras-chave indicando interesse em moderar discussões polarizadas. O operador ILIKE é usado para correspondência de padrões sem distinção entre maiúsculas e minúsculas na coluna raw da tabela posts.

Por favor, note que esta consulta assume que as palavras-chave que você forneceu são indicativas dos posts desejados. Pode ser necessário ajustar ou expandir as palavras-chave com base em seus critérios específicos.

Eu: Escreva uma consulta que retorne uma contagem de posts criados em cada período semanal desde setembro de 2022, criados por membros do grupo community_moderators que indicam algum interesse em como moderar discussões polarizadas.

ChatGPT 3.5: Para conseguir isso, você pode usar a seguinte consulta PostgreSQL para retornar uma contagem de posts criados em cada período semanal desde setembro de 2022, criados por membros do grupo “community_moderators” que indicam interesse em como moderar discussões polarizadas:

SELECT
    DATE_TRUNC('week', p.created_at) AS week_start,
    COUNT(p.id) AS post_count
FROM
    posts p
JOIN
    users u ON p.user_id = u.id
JOIN
    group_users gu ON u.id = gu.user_id
JOIN
    groups g ON gu.group_id = g.id
WHERE
    g.name = 'community_moderators'
    AND (p.raw ILIKE '%moderate%'
         OR p.raw ILIKE '%polarizing%'
         OR p.raw ILIKE '%political%'
         OR p.raw ILIKE '%contentious%'
         OR p.raw ILIKE '%debate%'
         OR p.raw ILIKE '%controversial%'
         OR p.raw ILIKE '%discussion%')
    AND p.created_at >= '2022-09-01' -- Data de início: Setembro de 2022
GROUP BY
    week_start
ORDER BY
    week_start;

Esta consulta calcula a contagem de posts criados por membros do grupo “community_moderators” que contêm as palavras-chave especificadas em cada período semanal desde setembro de 2022. Ela agrupa os resultados por semana e os ordena cronologicamente. Por favor, certifique-se de ajustar os nomes das colunas e as relações entre as tabelas com base no seu esquema de banco de dados real.

Os resultados parecem bons para mim e representam os tipos de consultas que me levaram um bom tempo para escrever no passado. Assumo que seria possível treinar um modelo na estrutura do banco de dados do Discourse para que detalhes sobre a estrutura pudessem ser omitidos dos prompts.

Lilly · Agosto 6, 2023, 3:01pm

ah, isso é ótimo, eu tive resultados mistos com as consultas SQL do explorador de dados do chatGPT, mas fazer isso dessa forma faz muito sentido. eu nem pensei em fornecer a estrutura da tabela e pedir consultas PostgreSQL. obrigado pela dica @simon

jordan-violet · Agosto 6, 2023, 4:45pm

Existe algum lugar onde eu possa ver um esquema completo do(s) banco(s) de dados do Discourse?

Lilly · Agosto 6, 2023, 5:12pm

oi @so-jordan-violet, eu só uso a ferramenta de tabela expansível (não sei o nome! kkk) no lado direito na interface de edição de consulta do explorador de dados:

jordan-violet · Agosto 6, 2023, 5:33pm

Se conseguirmos um documento baseado em texto (especialmente se estiver no formato de criação de tabela SQL), poderíamos fornecê-lo como instruções e provavelmente obter resultados bastante confiáveis.

Falco · Agosto 6, 2023, 5:33pm

Sim, temos este item no backlog da equipe de IA desde o início deste ano. A ideia é ingerir todo o esquema do Discourse (ou a parte importante) no prompt para permitir que ele crie quaisquer consultas.

Temos construído GitHub - discourse/data-explorer-examples: Examples for Discourse Data Explorer para ajudar a fornecer exemplos ao modelo, para que ele possa ser melhor fundamentado.

jordan-violet · Agosto 6, 2023, 5:35pm

Gostaria de ter mais tempo para analisar a base de código, mas você tem o SQL armazenado em algum lugar (publicamente) para os esquemas da tabela crest?

Estou trabalhando com LLM no meu próprio produto/empresa agora e adoraria brincar com isso.

Lilly · Agosto 6, 2023, 5:49pm

ah, isso é ótimo. obrigado pelo link Falco!

sam · Agosto 10, 2023, 5:45am

Eu apenas gero isso diretamente do esquema

github.com/discourse/data-explorer-examples

scripts/generate_sql.rb

main


      
          def get_schema
            schema = []
            table_name = nil
            columns = nil
          
            priority_tables = %w[posts topics notifications users user_actions]
          
            DB
              .query(<<~SQL, priority_tables)
                  select table_name, column_name from information_schema.columns
                  where table_schema = 'public'
                  order by case when table_name in (?) then 0 else 1 end asc, table_name
                SQL
              .each do |row|
                if table_name != row.table_name
                  schema << "#{table_name}(#{columns.join(",")})" if columns
                  table_name = row.table_name
                  columns = []
                end
                columns << row.column_name

This file has been truncated. show original

Algo como isto deve ajudá-lo a começar:

gist.github.com

https://gist.github.com/SamSaffron/bed2d9f942c4b55d9ec24a5927867457

schema

notifications(topic_id,created_at,updated_at,post_action_id,id,data,high_priority,read,user_id,notification_type,post_number)
posts(raw_email,reply_to_user_id,created_at,percent_rank,raw,hidden_reason_id,spam_count,user_id,via_email,image_upload_id,word_count,illegal_count,like_count,hidden_at,baked_version,deleted_by_id,id,baked_at,inappropriate_count,quote_count,wiki,reads,bookmark_count,post_type,post_number,last_editor_id,version,cooked,like_score,incoming_link_count,off_topic_count,last_version_at,user_deleted,action_code,edit_reason,self_edits,notify_user_count,reply_quoted,score,topic_id,reply_to_post_number,notify_moderators_count,deleted_at,reply_count,updated_at,public_version,locked_by_id,outbound_message_id,hidden,cook_method,sort_order)
topics(deleted_by_id,views,last_post_user_id,fancy_title,highest_post_number,pinned_at,closed,last_posted_at,featured_link,percent_rank,updated_at,has_summary,featured_user2_id,score,external_id,moderator_posts_count,bannered_until,deleted_at,reply_count,featured_user1_id,featured_user3_id,user_id,visible,pinned_globally,excerpt,incoming_link_count,slug,like_count,spam_count,featured_user4_id,notify_moderators_count,bumped_at,archetype,id,created_at,title,posts_count,category_id,reviewable_score,archived,participant_count,pinned_until,image_upload_id,slow_mode_seconds,word_count,subtype,highest_staff_post_number)
user_actions(action_type,user_id,target_topic_id,acting_user_id,created_at,id,target_post_id,updated_at,target_user_id)
users(approved_at,salt,active,username_lower,seen_notification_id,staged,username,group_locked_trust_level,name,views,last_emailed_at,created_at,approved_by_id,previous_visit_at,secure_identifier,password_algorithm,title,first_seen_at,primary_group_id,last_posted_at,admin,uploaded_avatar_id,silenced_till,registration_ip_address,suspended_till,ip_address,locale,trust_level,suspended_at,flair_group_id,date_of_birth,manual_locked_trust_level,moderator,last_seen_at,last_seen_reviewable_id,flag_level,id,password_hash,updated_at,approved)
ai_api_audit_logs(raw_request_payload,created_at,response_tokens,provider_id,id,request_tokens,raw_response_payload,updated_at,user_id)
ai_topic_embeddings_1_1(created_at,strategy_version,topic_id,embeddings,model_version,updated_at,digest)
ai_topic_embeddings_2_1(digest,topic_id,created_at,updated_at,embeddings,strategy_version,model_version)
ai_topic_embeddings_3_1(updated_at,strategy_version,model_version,topic_id,embeddings,digest,created_at)
allowed_pm_users(id,allowed_pm_user_id,user_id,updated_at,created_at)

This file has been truncated. show original

Tenho explorado todos os tipos de abordagens para fazer isso funcionar. Um problema, no entanto, é que o GPT 3.5 é tão direcionável que fica confuso.

Fornecer o esquema certamente ajuda, mas estou descobrindo que preciso ser ultra estratégico com exemplos.

Apenas contar uma história sobre “como contar os tópicos arquivados para um usuário” acaba direcionando uma consulta como “quantas postagens um usuário teve” para tópicos arquivados.

Eu estava pensando:

graph TD
A[Adicionar informações genéricas úteis] --> B[Gerar embeddings para a pergunta]
B --> C[Fazer uma busca de similaridade entre exemplos]
C --> D[Adicionar 3 exemplos ao prompt]
D --> E[Adicionar esquema ao prompt]
E --> F[Fazer a pergunta]
F --> G[Obter SQL]

Mas acontece que, a menos que os exemplos sejam espetaculares e você não inclua exemplos contrários… as coisas ficam ruins.

Estou começando a pensar que o melhor que temos por enquanto é apenas fornecer o esquema e um preâmbulo. Talvez adicionar outra etapa no final para validação e nova tentativa da consulta.

jordan-violet · Agosto 10, 2023, 5:29pm

Você teria um esquema completo que mostrasse os tipos de dados?

sam · Agosto 10, 2023, 9:00pm

Não tenho certeza se cabe no orçamento de tokens, vou tentar

simon · Agosto 10, 2023, 9:01pm

Com o ChatGPT 3.5, estou obtendo resultados inesperados quando forneço o esquema completo. Por exemplo, ele continua tentando encontrar o autor do tópico na tabela topic_users.

Obtenho resultados bem-sucedidos limitando as informações no prompt às tabelas e colunas necessárias para escrever a consulta. Também ao adicionar algumas informações adicionais sobre como as colunas são usadas. Por exemplo:

# Nome da tabela: user_actions
#
#  id              :integer          not null, primary key
#  action_type     :integer          not null (:like=>1,:was_liked=>2,:new_topic=>4,:reply=>5,:response=>6,:mention=>7,:quote=>9,:edit=>11,:new_private_message=>12,:got_private_message=>13,:solved=>15,:assigned=>16)
#  user_id         :integer          not null (o usuário que receberá crédito pela ação)
#  target_topic_id :integer
#  acting_user_id  :integer (o usuário que realizou a ação, por exemplo, um usuário da equipe pode realizar uma ação em nome de um usuário regular)
#  created_at      :datetime         not null

Outra maneira de fazer isso funcionar com o plugin Data Explorer seria ter os usuários preenchendo um formulário gerado dinamicamente que lista os dados que estão procurando e quais condições desejam aplicar aos dados. O prompt poderia ser gerado programaticamente pelo Discourse e, em seguida, enviado ao LLM para que a consulta seja escrita.

Edição: @jordan-violet, isso pode ser um ponto de partida útil. Aqui está um esquema parcial anotado que está funcionando para mim. Funciona bem desde que eu limite minhas consultas de modo que possam ser respondidas pelo esquema fornecido. Adicionei detalhes adicionais ao esquema para esclarecer pontos que parecem confundir o ChatGPT. A desvantagem óbvia dessa abordagem é que um esquema totalmente anotado excederá o limite de tokens do ChatGPT 3.5. Incluí algumas informações no esquema que poderiam ser omitidas para reduzir o número de tokens utilizados.

Resumo

# == Informações do Esquema
#
# Nome da tabela: application_requests
#
#  id       :integer          not null, primary key
#  date     :date             not null
#  req_type :integer          not null ("http_total"=>0,"http_2xx"=>1,"http_background"=>2,"http_3xx"=>3,"http_4xx"=>4,"http_5xx"=>5,"page_view_crawler"=>6,"page_view_logged_in"=>7,"page_view_anon"=>8,"page_view_logged_in_mobile"=>9,"page_view_anon_mobile"=>10,"api"=>11,"user_api"=>12)
#  count    :integer          default(0), not null
#
# Nome da tabela: users
#
#  id                        :integer          not null, primary key
#  username                  :string(60)       not null
#  created_at                :datetime         not null
#  updated_at                :datetime         not null
#  name                      :string           (nome real do usuário)
#  last_posted_at            :datetime
#  active                    :boolean          default(FALSE), not null
#  username_lower            :string(60)       not null
#  last_seen_at              :datetime
#  admin                     :boolean          default(FALSE), not null
#  trust_level               :integer          not null
#  approved                  :boolean          default(FALSE), not null
#  approved_by_id            :integer
#  approved_at               :datetime
#  previous_visit_at         :datetime
#  suspended_at              :datetime
#  suspended_till            :datetime
#  date_of_birth             :date
#  ip_address                :inet
#  moderator                 :boolean          default(FALSE)
#  title                     :string
#  locale                    :string(10)
#  primary_group_id          :integer
#  registration_ip_address   :inet
#  staged                    :boolean          default(FALSE), not null
#  first_seen_at             :datetime
#  silenced_till             :datetime
#
# Nome da tabela: topics
#
#  id                        :integer          not null, primary key
#  title                     :string           not null
#  last_posted_at            :datetime
#  created_at                :datetime         not null
#  updated_at                :datetime         not null
#  views                     :integer          default(0), not null
#  posts_count               :integer          default(0), not null
#  user_id                   :integer          (o ID do usuário que criou o tópico)
#  last_post_user_id         :integer          not null (o ID do usuário que criou a última postagem no tópico)
#  reply_count               :integer          default(0), not null
#  deleted_at                :datetime
#  highest_post_number       :integer          default(0), not null
#  like_count                :integer          default(0), not null
#  category_id               :integer
#  visible                   :boolean          default(TRUE), not null
#  moderator_posts_count     :integer          default(0), not null
#  closed                    :boolean          default(FALSE), not null
#  archived                  :boolean          default(FALSE), not null
#  bumped_at                 :datetime         not null
#  archetype                 :string           default("regular"), not null (pode ser definido como "regular" ou "private_message")
#  slug                      :string
#  deleted_by_id             :integer          (o ID do usuário que excluiu o tópico)
#  participant_count         :integer          default(1)
#  word_count                :integer
#  excerpt                   :string
#  highest_staff_post_number :integer          default(0), not null
#
# Nome da tabela: posts
#
#  id                      :integer          not null, primary key
#  user_id                 :integer          (o ID do usuário que criou a postagem)
#  topic_id                :integer          not null
#  post_number             :integer          not null (indica a ordem da postagem em seu tópico)
#  raw                     :text             not null (o conteúdo da postagem)
#  created_at              :datetime         not null
#  updated_at              :datetime         not null
#  reply_to_post_number    :integer          (o post_number ao qual a postagem é uma resposta)
#  reply_count             :integer          default(0), not null
#  deleted_at              :datetime
#  like_count              :integer          default(0), not null
#  bookmark_count          :integer          default(0), not null
#  reads                   :integer          default(0), not null (o número de vezes que a postagem foi lida)
#  post_type               :integer          default(1), not null (:regular=>1, :moderator_action=>2, :small_action=>3, :whisper=>4)
#  last_editor_id          :integer          (o ID do usuário que editou a postagem pela última vez)
#  hidden                  :boolean          default(FALSE), not null
#  hidden_reason_id        :integer          (:flag_threshold_reached=>1,:flag_threshold_reached_again=>2,:new_user_spam_threshold_reached=>3,:flagged_by_tl3_user=>4,:email_spam_header_found=>5,:flagged_by_tl4_user=>6,:email_authentication_result_header=>7,:imported_as_unlisted=>8)
#  edit_reason             :string
#  word_count              :integer
#  wiki                    :boolean          default(FALSE), not null
#
# Nome da tabela: categories
#
#  id                                        :integer          not null, primary key
#  name                                      :string(50)       not null
#  topic_id                                  :integer          (o ID do tópico usado para a descrição da categoria)
#  topic_count                               :integer          default(0), not null
#  created_at                                :datetime         not null
#  updated_at                                :datetime         not null
#  user_id                                   :integer          not null (o ID do usuário que criou o tópico)
#  topics_year                               :integer          default(0)
#  topics_month                              :integer          default(0)
#  topics_week                               :integer          default(0)
#  slug                                      :string           not null
#  description                               :text
#  text_color                                :string(6)        default("FFFFFF"), not null
#  read_restricted                           :boolean          default(FALSE), not null
#  auto_close_hours                          :float
#  post_count                                :integer          default(0), not null
#  latest_post_id                            :integer
#  latest_topic_id                           :integer
#  position                                  :integer
#  parent_category_id                        :integer
#  posts_year                                :integer          default(0)
#  posts_month                               :integer          default(0)
#  posts_week                                :integer          default(0)
#  topics_day                                :integer          default(0)
#  posts_day                                 :integer          default(0)
#
# Nome da tabela: groups
#
#  id                                 :integer          not null, primary key
#  name                               :string           not null
#  created_at                         :datetime         not null
#  automatic                          :boolean          default(FALSE), not null
#  user_count                         :integer          default(0), not null
#  title                              :string
#  bio_raw                            :text             (descrição do grupo)
#  allow_membership_requests          :boolean          default(FALSE), not null
#  full_name                          :string
#  visibility_level                   :integer          default(0), not null (quem pode ver o grupo :public=>0, :logged_on_users=>1, :members=>2, :staff=>3, :owners=>4)
#  messageable_level                  :integer          default(0) (quem pode enviar mensagens ao grupo :public=>0, :logged_on_users=>1, :members=>2, :staff=>3, :owners=>4)
#  mentionable_level                  :integer          default(0) (quem pode mencionar o grupo :public=>0, :logged_on_users=>1, :members=>2, :staff=>3, :owners=>4)
#  members_visibility_level           :integer          default(0), not null (quem vê os membros do grupo :public=>0, :logged_on_users=>1, :members=>2, :staff=>3, :owners=>4)
#
# Nome da tabela: group_users
#
#  id                 :integer          not null, primary key
#  group_id           :integer          not null
#  user_id            :integer          not null
#  created_at         :datetime         not null
#
# Nome da tabela: user_actions
#
#  id              :integer          not null, primary key
#  action_type     :integer          not null (:like=>1,:was_liked=>2,:new_topic=>4,:reply=>5,:response=>6,:mention=>7,:quote=>9,:edit=>11,:new_private_message=>12,:got_private_message=>13,:solved=>15,:assigned=>16)
#  user_id         :integer          not null (o usuário que receberá crédito pela ação)
#  target_topic_id :integer
#  target_post_id  :integer
#  target_user_id  :integer          (por exemplo, o ID do usuário cuja postagem foi curtida)
#  acting_user_id  :integer          (o usuário que realizou a ação, por exemplo, um usuário da equipe pode realizar uma ação em nome de um usuário regular)
#  created_at      :datetime         not null
#  updated_at      :datetime         not null
#
# Nome da tabela: topic_views
#
#  topic_id   :integer          not null
#  viewed_at  :date             not null
#  user_id    :integer         (será definido se o tópico foi visualizado por um usuário logado)
#  ip_address :inet            (será definido se o tópico foi visualizado por um usuário anônimo)
#
# Nome da tabela: user_visits
#
#  id         :integer          not null, primary key
#  user_id    :integer          not null
#  visited_at :date             not null
#  posts_read :integer          default(0)
#  mobile     :boolean          default(FALSE) (será definido como TRUE se o usuário visitou por um dispositivo móvel)
#  time_read  :integer          default(0), not null (o valor retornado é o número de segundos da visita)

Aqui está um link para uma sessão de chat onde eu testei: ChatGPT

Se você quiser tentar expandir essa lista, a maneira mais fácil é copiar o esquema do final do modelo que você está interessado, diretamente do código do Discourse: discourse/app/models at main · discourse/discourse · GitHub.

jordan-violet · Agosto 11, 2023, 9:59pm

Seria ótimo ter exatamente isso, mas uma lista abrangente de todas as tabelas. De onde você tirou isso?

EDIT: Ah, vejo seu link no final, desculpe. Provavelmente não terei tempo de juntar tudo. Estava esperando que houvesse um esquema SQL mestre em algum lugar

simon · Agosto 12, 2023, 12:05am

O problema é que apenas fornecer o esquema não é informação suficiente para o ChatGPT. Você precisa fornecer detalhes sobre coisas como:

o que os códigos inteiros de req_type em application_requests significam
para que serve a coluna user_id em topics
o que os códigos de action_type na tabela user_actions significam e qual a diferença entre as colunas user_id, target_user_id e acting_user_id dessa tabela

Com esses tipos de detalhes, o GPT 3.5 parece fazer um bom trabalho sem nenhum treinamento adicional. O problema então se torna que fornecer esse nível de detalhe sobre todo o banco de dados resultará no prompt excedendo o limite de tokens do ChatGPT (4096 tokens, incluindo o texto do prompt e a saída gerada). Se esse tipo de abordagem fosse usada, haveria a necessidade de uma maneira de limitar o que é enviado no prompt com base nas informações que o usuário queria obter da consulta do Data Explorer.

jordan-violet · Agosto 12, 2023, 12:07am

Essa não tem sido nada da minha experiência. Tive uma experiência bastante agradável com isso esta noite. Compartilharei alguns resultados mais tarde.

Isso me dá a sensação de uma função competente, mas muito de nível básico/júnior. Ela chega perto, eu digo o que fez de errado e ela conserta. Repetir.

Na verdade, estou gostando muito do que ela está me dando e do tempo que está me poupando com base no meu uso esta noite.

sam · Agosto 12, 2023, 12:16am

O GPT 3.5 lida com 16k sem problemas hoje

O problema começa a acontecer quando as solicitações são complicadas, levando em conta casos extremos e assim por diante

Tópico		Respostas	Visualizações
Create a Data Explorer query using the API Integrations data-explorer , rest-api , how-to	3	164	29 de Março de 2026
Discourse Data Explorer Plugin official , data-explorer , included-in-core	30	83957	22 de Outubro de 2025
Empower the SQL helper Feature data-explorer , ai , ai-bot	0	81	21 de Maio de 2025
Exploring your Discourse Data with Discourse MCP Announcements data-explorer , ai , sql-query	0	325	6 de Fevereiro de 2026
Run Data Explorer queries with the Discourse API Integrations data-explorer , rest-api , how-to	14	13826	6 de Maio de 2025

Discourse AI + Explorador de Dados?

Tópicos relacionados