Discourse AI + Data Explorer?

jordan-violet · 4 Agosto, 2023 18:54

Decidí que quería una consulta particular hoy. Al no querer molestar a mis ingenieros (demasiado), decidí pedirle a ChatGPT que me escribiera una consulta de explorador de datos basándome en lo que sabía y en lo que sabía que quería. Me quedé bastante impresionado de que acertara en todo (aparte de añadir un punto y coma al final que no debería haber añadido).

Aquí está la consulta que me creó cuando le di algunos parámetros y le pedí que me creara una consulta que me diera un total acumulado de todos los usuarios por mes:

SELECT 
    timeframe "Mes, Año",
    user_count as "Usuarios Unidos Este Mes",
    SUM(user_count) OVER (ORDER BY TO_DATE(timeframe, 'Month, YYYY'))::integer as "Usuarios (Total Acumulado)"
FROM (
    SELECT 
        TO_CHAR(u.created_at, 'Month, YYYY') as "timeframe",
        count(u.id) as "user_count"
    FROM 
        users u
    GROUP BY 
        timeframe
    ORDER BY
        timeframe
) subquery
ORDER BY 
    TO_DATE(timeframe, 'Month, YYYY')

¿Se ha considerado la integración de la IA en el área del explorador de datos?

JammyDodger · 8 Agosto, 2023 08:47

Se dividió una publicación en un nuevo tema: ¿Podríamos reabrir el tema para compartir consultas de Explorer?

EricGT · 5 Agosto, 2023 07:56

¿Te importaría compartir el prompt, la versión de ChatGPT y el modelo utilizado con ChatGPT?

Por ejemplo

Versión de ChatGPT del 3 de agosto
Modelo: GPT-3.5
Prompt

¿Qué es el Explorador de Datos de Discourse?

Completado

Hasta mi última actualización en septiembre de 2021, no tengo conocimiento de ninguna herramienta o producto específico llamado “Explorador de Datos de Discourse”. Sin embargo, puedo proporcionar una explicación general basada en la información disponible hasta ese momento.

Discourse es un software de foro moderno y de código abierto que permite a las comunidades en línea tener discusiones e interacciones. Se utiliza ampliamente para albergar debates, foros de preguntas y respuestas y comunidades de soporte. Discourse proporciona un rico conjunto de características para gestionar discusiones, la participación de los usuarios y la moderación.

Un “Explorador de Datos” generalmente se refiere a una herramienta o función que permite a los usuarios consultar y explorar datos dentro de un sistema o plataforma. A menudo se utiliza en el contexto de bases de datos o plataformas de análisis de datos.

Dados los dos componentes, “Explorador de Datos de Discourse” podría ser potencialmente una herramienta o plugin hipotético que brinde a los usuarios la capacidad de explorar y consultar datos dentro de un foro de Discourse. Esto podría ser útil para los administradores de la comunidad o los analistas de datos que desean obtener información sobre el comportamiento de los usuarios, las tendencias de contenido u otras métricas relacionadas con las discusiones que tienen lugar en el foro.

Es importante tener en cuenta que mi información puede estar desactualizada y que pueden haber ocurrido nuevos desarrollos después de mi última actualización. Si “Explorador de Datos de Discourse” es realmente un producto o característica real, recomiendo buscar la información más reciente para obtener detalles precisos sobre sus capacidades y uso.

La razón de la pregunta es que tienes una excelente idea y fue agradable verla compartida, pero en el futuro otros pueden intentar hacer otra pregunta y compartir el prompt, la completación y los detalles de ChatGPT son necesarios si se necesita ayuda para comprender algún problema.

Nota: Soy moderador de categoría en el foro de OpenAI Discourse, por lo que tengo mucha experiencia con aquellos que buscan ayuda con los prompts de ChatGPT. (ref)

La versión de ChatGPT se puede encontrar en la parte inferior derecha, debajo de donde se ingresa un prompt

El modelo se puede encontrar cerca de la parte superior de la página, en el centro

jordan-violet · 6 Agosto, 2023 04:48

Yo…no me gusta este bot.

simon · 6 Agosto, 2023 06:30

Ampliando un poco esta idea, permitir a los usuarios interactuar con aplicaciones utilizando lenguaje natural es prácticamente mi sueño en lo que respecta a la IA. Con Discourse y el plugin Data Explorer, podría ser posible obtener resultados de indicaciones como “devuelve una lista de usuarios que han expresado interés en la moderación”. O aún mejor, “envía una invitación al grupo community_moderation a todos los usuarios que hayan expresado interés en la moderación”.

Volviendo a lo que es posible ahora:

Probando con ChatGPT 3.0 y 3.5, he obtenido buenos resultados al pedirle que devuelva una consulta PostgreSQL y copiando la estructura de las tablas que me interesan en la indicación. Por ejemplo:

Resumen

Yo: Devuelve una consulta postgresql que liste todos los nombres de usuario de los usuarios que están en el grupo “community_moderators” para la siguiente estructura de base de datos:

# == Schema Information
#
# Table name: groups
#
#  id                                 :integer          not null, primary key
#  name                               :string           not null

# == Schema Information
#
# Table name: group_users
#
#  id                 :integer          not null, primary key
#  group_id           :integer          not null

# == Schema Information
#
# Table name: users
#
#  id                        :integer          not null, primary key
#  username                  :string(60)       not null

ChatGPT 3.5: Claro, aquí tienes una consulta PostgreSQL que lista todos los nombres de usuario de los usuarios que están en el grupo “community_moderators” basándose en la estructura de la base de datos proporcionada:

SELECT u.username
FROM users u
JOIN group_users gu ON u.id = gu.user_id
JOIN groups g ON gu.group_id = g.id
WHERE g.name = 'community_moderators';

Esta consulta recupera los nombres de usuario de la tabla users uniéndola con la tabla group_users por el ID de usuario y luego uniéndola con la tabla groups por el ID de grupo. Filtra los resultados para incluir solo los nombres de usuario de los usuarios que están en el grupo “community_moderators”.

Yo: Aquí está la estructura de las tablas de temas y publicaciones de la aplicación:

# == Schema Information
#
# Table name: topics
#
#  id                        :integer          not null, primary key
#  title                     :string           not null

# == Schema Information
#
# Table name: posts
#
#  id                      :integer          not null, primary key
#  user_id                 :integer
#  topic_id                :integer          not null
#  post_number             :integer          not null
#  raw                     :text             not null

Devuelve una consulta que liste todos los IDs de tema, IDs de publicación y nombres de usuario de todas las publicaciones creadas por miembros del grupo “community_moderators” que indiquen de alguna manera que el autor está interesado en cómo moderar discusiones polarizantes.

ChatGPT 3.5: Para lograr esto, necesitarías unir las tablas posts, topics, users y group_users basándote en el esquema proporcionado. Aquí tienes una consulta PostgreSQL que recupera la información solicitada:

SELECT t.id AS topic_id, p.id AS post_id, u.username
FROM posts p
JOIN topics t ON p.topic_id = t.id
JOIN users u ON p.user_id = u.id
JOIN group_users gu ON u.id = gu.user_id
JOIN groups g ON gu.group_id = g.id
WHERE g.name = 'community_moderators'
  AND (p.raw ILIKE '%moderate%' OR p.raw ILIKE '%polarizing%' OR p.raw ILIKE '%discussion%');

Esta consulta recupera el topic_id, post_id y username de todas las publicaciones creadas por miembros del grupo “community_moderators” que contienen ciertas palabras clave que indican un interés en moderar discusiones polarizantes. El operador ILIKE se utiliza para la coincidencia de patrones sin distinción entre mayúsculas y minúsculas en la columna raw de la tabla posts.

Ten en cuenta que esta consulta asume que las palabras clave que proporcionaste son indicativas de las publicaciones deseadas. Es posible que necesites ajustar o ampliar las palabras clave según tus criterios específicos.

Yo: Escribe una consulta que devuelva un recuento de publicaciones creadas en cada período semanal desde septiembre de 2022, creadas por miembros del grupo community_moderators que indiquen algún interés en cómo moderar discusiones polarizantes.

ChatGPT 3.5: Para lograr esto, puedes usar la siguiente consulta PostgreSQL para devolver un recuento de publicaciones creadas en cada período semanal desde septiembre de 2022, creadas por miembros del grupo “community_moderators” que indiquen un interés en cómo moderar discusiones polarizantes:

SELECT
    DATE_TRUNC('week', p.created_at) AS week_start,
    COUNT(p.id) AS post_count
FROM
    posts p
JOIN
    users u ON p.user_id = u.id
JOIN
    group_users gu ON u.id = gu.user_id
JOIN
    groups g ON gu.group_id = g.id
WHERE
    g.name = 'community_moderators'
    AND (p.raw ILIKE '%moderate%'
         OR p.raw ILIKE '%polarizing%'
         OR p.raw ILIKE '%political%'
         OR p.raw ILIKE '%contentious%'
         OR p.raw ILIKE '%debate%'
         OR p.raw ILIKE '%controversial%'
         OR p.raw ILIKE '%discussion%')
    AND p.created_at >= '2022-09-01' -- Fecha de inicio: Septiembre de 2022
GROUP BY
    week_start
ORDER BY
    week_start;

Esta consulta calcula el recuento de publicaciones creadas por miembros del grupo “community_moderators” que contienen las palabras clave especificadas en cada período semanal desde septiembre de 2022. Agrupa los resultados por semana y los ordena cronológicamente. Asegúrate de ajustar los nombres de las columnas y las relaciones de las tablas según el esquema real de tu base de datos.

Los resultados me parecen buenos y representan los tipos de consultas que me llevaban bastante tiempo escribir en el pasado. Supongo que sería posible entrenar un modelo con la estructura de la base de datos de Discourse para que los detalles sobre la estructura pudieran omitirse de las indicaciones.

Lilly · 6 Agosto, 2023 15:01

oh, esto es genial, he tenido resultados mixtos con las consultas SQL del explorador de datos de ChatGPT, pero hacerlo de esta manera tiene mucho sentido. Ni siquiera pensé en proporcionar la estructura de la tabla y pedir consultas PostgreSQL. gracias por el consejo @simon

jordan-violet · 6 Agosto, 2023 16:45

¿Hay algún lugar donde pueda ver un esquema completo de las bases de datos de Discourse?

Lilly · 6 Agosto, 2023 17:12

Hola @so-jordan-violet, solo uso la herramienta de tabla colapsable (¡no sé cómo se llama! jajaja) en el lado derecho de la interfaz de edición de consultas del explorador de datos:

jordan-violet · 6 Agosto, 2023 17:33

Si pudiéramos obtener un documento basado en texto (especialmente si está en formato sql create table) podríamos proporcionarlo como instrucciones y probablemente obtener resultados bastante fiables.

Falco · 6 Agosto, 2023 17:33

Sí, tenemos este elemento en la lista de tareas del equipo de IA desde principios de este año. La idea es ingerir la totalidad (o la parte importante) del esquema de Discourse en el prompt para permitirle crear cualquier consulta.

Hemos estado creando GitHub - discourse/data-explorer-examples: Examples for Discourse Data Explorer para ayudar a proporcionar ejemplos al modelo, para que pueda estar mejor fundamentado.

jordan-violet · 6 Agosto, 2023 17:35

Desearía tener más tiempo para examinar la base de código, pero ¿tienen el SQL almacenado en algún lugar (públicamente) para los esquemas de la tabla crest?

Estoy trabajando con LLM en mi propio producto/empresa en este momento y me encantaría jugar con esto.

Lilly · 6 Agosto, 2023 17:49

oh, esto es genial. ¡gracias por el enlace Falco!

sam · 10 Agosto, 2023 05:45

Simplemente genero esto directamente del esquema

github.com/discourse/data-explorer-examples

scripts/generate_sql.rb

main


      
          def get_schema
            schema = []
            table_name = nil
            columns = nil
          
            priority_tables = %w[posts topics notifications users user_actions]
          
            DB
              .query(<<~SQL, priority_tables)
                  select table_name, column_name from information_schema.columns
                  where table_schema = 'public'
                  order by case when table_name in (?) then 0 else 1 end asc, table_name
                SQL
              .each do |row|
                if table_name != row.table_name
                  schema << "#{table_name}(#{columns.join(",")})" if columns
                  table_name = row.table_name
                  columns = []
                end
                columns << row.column_name

This file has been truncated. show original

Algo como esto debería servirte para empezar:

gist.github.com

https://gist.github.com/SamSaffron/bed2d9f942c4b55d9ec24a5927867457

schema

notifications(topic_id,created_at,updated_at,post_action_id,id,data,high_priority,read,user_id,notification_type,post_number)
posts(raw_email,reply_to_user_id,created_at,percent_rank,raw,hidden_reason_id,spam_count,user_id,via_email,image_upload_id,word_count,illegal_count,like_count,hidden_at,baked_version,deleted_by_id,id,baked_at,inappropriate_count,quote_count,wiki,reads,bookmark_count,post_type,post_number,last_editor_id,version,cooked,like_score,incoming_link_count,off_topic_count,last_version_at,user_deleted,action_code,edit_reason,self_edits,notify_user_count,reply_quoted,score,topic_id,reply_to_post_number,notify_moderators_count,deleted_at,reply_count,updated_at,public_version,locked_by_id,outbound_message_id,hidden,cook_method,sort_order)
topics(deleted_by_id,views,last_post_user_id,fancy_title,highest_post_number,pinned_at,closed,last_posted_at,featured_link,percent_rank,updated_at,has_summary,featured_user2_id,score,external_id,moderator_posts_count,bannered_until,deleted_at,reply_count,featured_user1_id,featured_user3_id,user_id,visible,pinned_globally,excerpt,incoming_link_count,slug,like_count,spam_count,featured_user4_id,notify_moderators_count,bumped_at,archetype,id,created_at,title,posts_count,category_id,reviewable_score,archived,participant_count,pinned_until,image_upload_id,slow_mode_seconds,word_count,subtype,highest_staff_post_number)
user_actions(action_type,user_id,target_topic_id,acting_user_id,created_at,id,target_post_id,updated_at,target_user_id)
users(approved_at,salt,active,username_lower,seen_notification_id,staged,username,group_locked_trust_level,name,views,last_emailed_at,created_at,approved_by_id,previous_visit_at,secure_identifier,password_algorithm,title,first_seen_at,primary_group_id,last_posted_at,admin,uploaded_avatar_id,silenced_till,registration_ip_address,suspended_till,ip_address,locale,trust_level,suspended_at,flair_group_id,date_of_birth,manual_locked_trust_level,moderator,last_seen_at,last_seen_reviewable_id,flag_level,id,password_hash,updated_at,approved)
ai_api_audit_logs(raw_request_payload,created_at,response_tokens,provider_id,id,request_tokens,raw_response_payload,updated_at,user_id)
ai_topic_embeddings_1_1(created_at,strategy_version,topic_id,embeddings,model_version,updated_at,digest)
ai_topic_embeddings_2_1(digest,topic_id,created_at,updated_at,embeddings,strategy_version,model_version)
ai_topic_embeddings_3_1(updated_at,strategy_version,model_version,topic_id,embeddings,digest,created_at)
allowed_pm_users(id,allowed_pm_user_id,user_id,updated_at,created_at)

This file has been truncated. show original

He estado explorando todo tipo de enfoques para poner esto en marcha. Sin embargo, un problema es que GPT 3.5 es tan difícil de dirigir que se confunde.

Darle el esquema ciertamente ayuda, pero me doy cuenta de que necesito ser ultra estratégico con los ejemplos.

Simplemente contarle una historia sobre “cómo contar los temas archivados para un usuario” termina dirigiendo una consulta como “cuántas publicaciones tuvo un usuario” hacia temas archivados.

Estaba pensando:

graph TD
A[Añadir información genérica útil] --> B[Generar embeddings para la pregunta]
B --> C[Hacer una búsqueda de similitud entre ejemplos]
C --> D[Añadir 3 ejemplos al prompt]
D --> E[Añadir esquema al prompt]
E --> F[Hacer la pregunta]
F --> G[Obtener SQL]

Pero resulta que a menos que los ejemplos sean espectaculares y no incluyas contraejemplos… las cosas se ponen mal.

Estoy empezando a pensar que lo mejor que tenemos por ahora es simplemente darle el esquema y un preámbulo. Quizás añadir otro paso al final para la validación y reintento de la consulta.

jordan-violet · 10 Agosto, 2023 17:29

¿Tendrías un esquema completo que muestre los tipos de datos?

sam · 10 Agosto, 2023 21:00

No estoy seguro de si encaja en el presupuesto de tokens, lo intentaré.

simon · 10 Agosto, 2023 21:01

Con ChatGPT 3.5 estoy obteniendo resultados inesperados cuando proporciono el esquema completo. Por ejemplo, sigue intentando encontrar al autor del tema en la tabla topic_users.

Obtengo resultados exitosos limitando la información en el prompt a las tablas y columnas necesarias para escribir la consulta. También añadiendo información adicional sobre cómo se utilizan las columnas. Por ejemplo:

# Nombre de la tabla: user_actions
#
#  id              :integer          no nulo, clave primaria
#  action_type     :integer          no nulo (:like=1,:was_liked=2,:new_topic=4,:reply=5,:response=6,:mention=7,:quote=9,:edit=11,:new_private_message=12,:got_private_message=13,:solved=15,:assigned=16)
#  user_id         :integer          no nulo (el usuario al que se le acreditará la acción)
#  target_topic_id :integer
#  acting_user_id  :integer (el usuario que realizó la acción, por ejemplo, un usuario de staff puede realizar una acción en nombre de un usuario regular)
#  created_at      :datetime         no nulo

Otra forma de ver cómo hacer que esto funcione con el plugin Data Explorer sería que los usuarios rellenen un formulario generado dinámicamente que liste los datos que buscan y las condiciones que quieren aplicar a los datos. El prompt podría generarse programáticamente por Discourse y luego enviarse al LLM para que escriba la consulta.

Edición: @jordan-violet, esto podría ser un punto de partida útil. Aquí hay un esquema parcial anotado que me está funcionando. Funciona bien siempre que limite mis consultas para que puedan responderse con el esquema proporcionado. He añadido detalles adicionales al esquema para aclarar aspectos que parecen confundir a ChatGPT. La desventaja obvia de este enfoque es que un esquema totalmente anotado excederá el límite de tokens de ChatGPT 3.5. He incluido cierta información en el esquema que podría omitirse para reducir el número de tokens utilizados.

Resumen

# == Información del Esquema
#
# Nombre de la tabla: application_requests
#
#  id       :integer          no nulo, clave primaria
#  date     :date             no nulo
#  req_type :integer          no nulo ("http_total"=0,"http_2xx"=1,"http_background"=2,"http_3xx"=3,"http_4xx"=4,"http_5xx"=5,"page_view_crawler"=6,"page_view_logged_in"=7,"page_view_anon"=8,"page_view_logged_in_mobile"=9,"page_view_anon_mobile"=10,"api"=11,"user_api"=12)
#  count    :integer          por defecto(0), no nulo
#
# Nombre de la tabla: users
#
#  id                        :integer          no nulo, clave primaria
#  username                  :string(60)       no nulo
#  created_at                :datetime         no nulo
#  updated_at                :datetime         no nulo
#  name                      :string           (el nombre real del usuario)
#  last_posted_at            :datetime
#  active                    :boolean          por defecto(FALSO), no nulo
#  username_lower            :string(60)       no nulo
#  last_seen_at              :datetime
#  admin                     :boolean          por defecto(FALSO), no nulo
#  trust_level               :integer          no nulo
#  approved                  :boolean          por defecto(FALSO), no nulo
#  approved_by_id            :integer
#  approved_at               :datetime
#  previous_visit_at         :datetime
#  suspended_at              :datetime
#  suspended_till            :datetime
#  date_of_birth             :date
#  ip_address                :inet
#  moderator                 :boolean          por defecto(FALSO)
#  title                     :string
#  locale                    :string(10)
#  primary_group_id          :integer
#  registration_ip_address   :inet
#  staged                    :boolean          por defecto(FALSO), no nulo
#  first_seen_at             :datetime
#  silenced_till             :datetime
#
# Nombre de la tabla: topics
#
#  id                        :integer          no nulo, clave primaria
#  title                     :string           no nulo
#  last_posted_at            :datetime
#  created_at                :datetime         no nulo
#  updated_at                :datetime         no nulo
#  views                     :integer          por defecto(0), no nulo
#  posts_count               :integer          por defecto(0), no nulo
#  user_id                   :integer          (el id del usuario que creó el tema)
#  last_post_user_id         :integer          no nulo (el id del usuario que creó el último post en el tema)
#  reply_count               :integer          por defecto(0), no nulo
#  deleted_at                :datetime
#  highest_post_number       :integer          por defecto(0), no nulo
#  like_count                :integer          por defecto(0), no nulo
#  category_id               :integer
#  visible                   :boolean          por defecto(VERDADERO), no nulo
#  moderator_posts_count     :integer          por defecto(0), no nulo
#  closed                    :boolean          por defecto(FALSO), no nulo
#  archived                  :boolean          por defecto(FALSO), no nulo
#  bumped_at                 :datetime         no nulo
#  archetype                 :string           por defecto("regular"), no nulo (puede establecerse en "regular" o "private_message")
#  slug                      :string
#  deleted_by_id             :integer          (el id del usuario que eliminó el tema)
#  participant_count         :integer          por defecto(1)
#  word_count                :integer
#  excerpt                   :string
#  highest_staff_post_number :integer          por defecto(0), no nulo
#
# Nombre de la tabla: posts
#
#  id                      :integer          no nulo, clave primaria
#  user_id                 :integer          (el id del usuario que creó el post)
#  topic_id                :integer          no nulo
#  post_number             :integer          no nulo (indica el orden del post en su tema)
#  raw                     :text             no nulo (el contenido del post)
#  created_at              :datetime         no nulo
#  updated_at              :datetime         no nulo
#  reply_to_post_number    :integer          (el post_number al que el post responde)
#  reply_count             :integer          por defecto(0), no nulo
#  deleted_at              :datetime
#  like_count              :integer          por defecto(0), no nulo
#  bookmark_count          :integer          por defecto(0), no nulo
#  reads                   :integer          por defecto(0), no nulo (el número de veces que se ha leído el post)
#  post_type               :integer          por defecto(1), no nulo (:regular=1, :moderator_action=2, :small_action=3, :whisper=4)
#  last_editor_id          :integer          (el id del usuario que editó por última vez el post)
#  hidden                  :boolean          por defecto(FALSO), no nulo
#  hidden_reason_id        :integer          (:flag_threshold_reached=1,:flag_threshold_reached_again=2,:new_user_spam_threshold_reached=3,:flagged_by_tl3_user=4,:email_spam_header_found=5,:flagged_by_tl4_user=6,:email_authentication_result_header=7,:imported_as_unlisted=8)
#  edit_reason             :string
#  word_count              :integer
#  wiki                    :boolean          por defecto(FALSO), no nulo
#
# Nombre de la tabla: categories
#
#  id                                        :integer          no nulo, clave primaria
#  name                                      :string(50)       no nulo
#  topic_id                                  :integer          (el id del tema que se usa para la descripción de la categoría)
#  topic_count                               :integer          por defecto(0), no nulo
#  created_at                                :datetime         no nulo
#  updated_at                                :datetime         no nulo
#  user_id                                   :integer          no nulo (el id del usuario que creó el tema)
#  topics_year                               :integer          por defecto(0)
#  topics_month                              :integer          por defecto(0)
#  topics_week                               :integer          por defecto(0)
#  slug                                      :string           no nulo
#  description                               :text
#  text_color                                :string(6)        por defecto("FFFFFF"), no nulo
#  read_restricted                           :boolean          por defecto(FALSO), no nulo
#  auto_close_hours                          :float
#  post_count                                :integer          por defecto(0), no nulo
#  latest_post_id                            :integer
#  latest_topic_id                           :integer
#  position                                  :integer
#  parent_category_id                        :integer
#  posts_year                                :integer          por defecto(0)
#  posts_month                               :integer          por defecto(0)
#  posts_week                                :integer          por defecto(0)
#  topics_day                                :integer          por defecto(0)
#  posts_day                                 :integer          por defecto(0)
#
# Nombre de la tabla: groups
#
#  id                                 :integer          no nulo, clave primaria
#  name                               :string           no nulo
#  created_at                         :datetime         no nulo
#  automatic                          :boolean          por defecto(FALSO), no nulo
#  user_count                         :integer          por defecto(0), no nulo
#  title                              :string
#  bio_raw                            :text             (la descripción del grupo)
#  allow_membership_requests          :boolean          por defecto(FALSO), no nulo
#  full_name                          :string
#  visibility_level                   :integer          por defecto(0), no nulo (quién puede ver el grupo :public=0, :logged_on_users=1, :members=2, :staff=3, :owners=4)
#  messageable_level                  :integer          por defecto(0) (quién puede enviar mensajes al grupo :public=0, :logged_on_users=1, :members=2, :staff=3, :owners=4)
#  mentionable_level                  :integer          por defecto(0) (quién puede mencionar al grupo :public=0, :logged_on_users=1, :members=2, :staff=3, :owners=4)
#  members_visibility_level           :integer          por defecto(0), no nulo (quién ve los miembros del grupo :public=0, :logged_on_users=1, :members=2, :staff=3, :owners=4)
#
# Nombre de la tabla: group_users
#
#  id                 :integer          no nulo, clave primaria
#  group_id           :integer          no nulo
#  user_id            :integer          no nulo
#  created_at         :datetime         no nulo
#
# Nombre de la tabla: user_actions
#
#  id              :integer          no nulo, clave primaria
#  action_type     :integer          no nulo (:like=1,:was_liked=2,:new_topic=4,:reply=5,:response=6,:mention=7,:quote=9,:edit=11,:new_private_message=12,:got_private_message=13,:solved=15,:assigned=16)
#  user_id         :integer          no nulo (el usuario al que se le acreditará la acción)
#  target_topic_id :integer
#  target_post_id  :integer
#  target_user_id  :integer          (por ejemplo, el id del usuario cuyo post fue dado "like")
#  acting_user_id  :integer          (el usuario que realizó la acción, por ejemplo, un usuario de staff puede realizar una acción en nombre de un usuario regular)
#  created_at      :datetime         no nulo
#  updated_at      :datetime         no nulo
#
# Nombre de la tabla: topic_views
#
#  topic_id   :integer          no nulo
#  viewed_at  :date             no nulo
#  user_id    :integer         (se establecerá si el tema fue visto por un usuario conectado)
#  ip_address :inet            (se establecerá si el tema fue visto por un usuario anónimo)
#
# Nombre de la tabla: user_visits
#
#  id         :integer          no nulo, clave primaria
#  user_id    :integer          no nulo
#  visited_at :date             no nulo
#  posts_read :integer          por defecto(0)
#  mobile     :boolean          por defecto(FALSO) (se establecerá en VERDADERO si el usuario visitó desde un dispositivo móvil)
#  time_read  :integer          por defecto(0), no nulo (el valor devuelto es el número de segundos de la visita)

Aquí hay un enlace a una sesión de chat donde lo probé: ChatGPT

Si quieres intentar ampliar esta lista, la forma más fácil es copiar el esquema desde la parte inferior del modelo que te interese, directamente desde el código de Discourse: discourse/app/models at main · discourse/discourse · GitHub.

jordan-violet · 11 Agosto, 2023 21:59

Sería genial tener exactamente esto, pero una lista completa de todas las tablas. ¿De dónde sacaste esto?

EDITAR: Ah, veo tu enlace al final, lo siento. Probablemente no tendré tiempo de juntarlos todos. Esperaba que hubiera un esquema SQL maestro en alguna parte

simon · 12 Agosto, 2023 00:05

El problema es que solo proporcionar el esquema no es suficiente información para ChatGPT. Necesitas proporcionarle detalles sobre cosas como:

qué significan los códigos enteros de req_type de application_requests
para qué se utiliza la columna user_id de topics
qué significan los códigos de action_type de la tabla user_actions y cuál es la diferencia entre las columnas user_id, target_user_id y acting_user_id de esa tabla

Con ese tipo de detalles, GPT 3.5 parece hacer un buen trabajo sin ningún entrenamiento adicional. El problema entonces se convierte en que proporcionar este nivel de detalle sobre toda la base de datos resultará en que el prompt exceda el límite de tokens de ChatGPT (4096 tokens, incluyendo tanto el texto del prompt como la salida generada). Si se utilizara este tipo de enfoque, tendría que haber una manera de limitar lo que se incluye en el prompt en función de la información que el usuario quería obtener de la consulta del Explorador de Datos.

jordan-violet · 12 Agosto, 2023 00:07

Esa no ha sido en absoluto mi experiencia. He tenido una experiencia bastante agradable con él esta noche. Compartiré algunos resultados más tarde.

Me da la sensación de un rol competente, pero muy de nivel de entrada/junior. Se acerca a las cosas, le digo lo que hizo mal y lo arregla. Repetir.

De hecho, estoy disfrutando mucho de lo que me está dando, y del tiempo que me ahorra según mi uso de esta noche.

sam · 12 Agosto, 2023 00:16

GPT 3.5 maneja 16k sin problemas hoy

El problema comienza a ocurrir cuando las solicitudes son complicadas, tienen en cuenta los casos extremos, etc.

Tema		Respuestas	Vistas
Create a Data Explorer query using the API Integrations data-explorer , rest-api , how-to	3	162	29 Marzo 2026
Discourse Data Explorer Plugin official , data-explorer , included-in-core	30	83868	22 Octubre 2025
Empower the SQL helper Feature data-explorer , ai , ai-bot	0	81	21 Mayo 2025
Exploring your Discourse Data with Discourse MCP Announcements data-explorer , ai , sql-query	0	320	6 Febrero 2026
Run Data Explorer queries with the Discourse API Integrations data-explorer , rest-api , how-to	14	13799	6 Mayo 2025

Discourse AI + Data Explorer?

Temas relacionados