Discourse AI + Data Explorer?

jordan-violet · 4. August 2023 um 18:54

Ich habe beschlossen, dass ich heute eine besondere Abfrage wollte. Da ich meine Ingenieure nicht (zu sehr) belästigen wollte, habe ich beschlossen, ChatGPT zu bitten, mir eine Datenexplorationsabfrage zu schreiben, basierend auf dem, was ich wusste, und dem, was ich wusste, dass ich wollte. Ich war ziemlich überwältigt, dass es alles richtig gemacht hat (abgesehen davon, dass es ein Semikolon am Ende hinzugefügt hat, das es nicht hätte tun sollen).

Hier ist die Abfrage, die es für mich erstellt hat, als ich ihm einige Parameter gab und es bat, mir eine Abfrage zu erstellen, die mir eine laufende Gesamtzahl aller Benutzer nach Monat liefert:

SELECT 
    timeframe "Monat, Jahr",
    user_count as "In diesem Monat beigetretene Benutzer",
    SUM(user_count) OVER (ORDER BY TO_DATE(timeframe, 'Month, YYYY'))::integer as "Benutzer (laufende Summe)"
FROM (
    SELECT 
        TO_CHAR(u.created_at, 'Month, YYYY') as "timeframe",
        count(u.id) as "user_count"
    FROM 
        users u
    GROUP BY 
        timeframe
    ORDER BY
        timeframe
) subquery
ORDER BY 
    TO_DATE(timeframe, 'Month, YYYY')

Gab es Überlegungen zur Integration von KI in den Bereich des Datenexplorers?

JammyDodger · 8. August 2023 um 08:47

Ein Beitrag wurde in ein neues Thema aufgeteilt: Könnten wir das Thema wieder öffnen, um Explorer-Abfragen zu teilen?

EricGT · 5. August 2023 um 07:56

Möchten Sie die Eingabeaufforderung, die Version von ChatGPT und das in ChatGPT verwendete Modell mitteilen?

Zum Beispiel

ChatGPT August 3 Version
Modell: GPT-3.5
Eingabeaufforderung

Was ist Discourse Data Explorer?

Abschluss

Bis zu meinem letzten Update im September 2021 gibt es kein bestimmtes Tool oder Produkt namens „Discourse Data Explorer“, das mir bekannt ist. Ich kann jedoch eine allgemeine Erklärung auf der Grundlage der bis zu diesem Zeitpunkt verfügbaren Informationen geben.

Discourse ist eine Open-Source-Software für moderne Foren, die es Online-Communities ermöglicht, Diskussionen und Interaktionen zu führen. Sie wird häufig für die Ausrichtung von Diskussionen, Frage-und-Antwort-Foren und Support-Communities verwendet. Discourse bietet eine Fülle von Funktionen zur Verwaltung von Diskussionen, Benutzerinteraktionen und Moderation.

Ein „Data Explorer“ bezeichnet typischerweise ein Tool oder eine Funktion, mit der Benutzer Daten innerhalb eines Systems oder einer Plattform abfragen und untersuchen können. Es wird oft im Kontext von Datenbanken oder Datenanalysetools verwendet.

Angesichts der beiden Komponenten könnte „Discourse Data Explorer“ potenziell ein hypothetisches Tool oder Plugin sein, das es Benutzern ermöglicht, Daten innerhalb eines Discourse-Forums zu untersuchen und abzufragen. Dies könnte für Community-Administratoren oder Datenanalysten hilfreich sein, die Einblicke in Benutzerverhalten, Inhaltstrends oder andere Metriken im Zusammenhang mit den Diskussionen im Forum gewinnen möchten.

Es ist wichtig zu beachten, dass meine Informationen veraltet sein können und nach meinem letzten Update neue Entwicklungen stattgefunden haben könnten. Wenn „Discourse Data Explorer“ tatsächlich ein reales Produkt oder eine Funktion ist, empfehle ich, nach den neuesten Informationen zu suchen, um genaue Details zu seinen Funktionen und seiner Verwendung zu erhalten.

Der Grund für die Frage ist, dass Sie eine ausgezeichnete Idee haben und es schön war, sie geteilt zu sehen, aber in Zukunft könnten andere versuchen, eine andere Eingabeaufforderung zu stellen, und das Teilen der Eingabeaufforderung, des Abschlusses und der Details von ChatGPT ist erforderlich, wenn Hilfe benötigt wird, um Probleme zu verstehen.

Hinweis: Ich bin ein Kategorie-Moderator im OpenAI Discourse-Forum und habe daher viel Erfahrung mit denen, die Hilfe bei ChatGPT-Eingabeaufforderungen suchen. (ref)

Die Version von ChatGPT finden Sie unten rechts, dort wo eine Eingabeaufforderung eingegeben wird

Das Modell finden Sie oben auf der Seite in der Mitte

jordan-violet · 6. August 2023 um 04:48

Ich…mag diesen Bot nicht.

simon · 6. August 2023 um 06:30

Diese Idee ein wenig erweitert: Benutzern die Interaktion mit Anwendungen in natürlicher Sprache zu ermöglichen, ist im Grunde mein Traum, was KI angeht. Mit Discourse und dem Data Explorer Plugin könnte es möglich sein, Ergebnisse aus Prompts wie “Liste Benutzer auf, die Interesse an Moderation gezeigt haben” zu erhalten. Oder noch besser: “Sende eine Einladung an die Gruppe community_moderation an alle Benutzer, die Interesse an Moderation gezeigt haben.”

Zurück zu dem, was jetzt möglich ist:

Beim Testen mit ChatGPT 3.0 und 3.5 habe ich gute Ergebnisse erzielt, wenn ich es gebeten habe, eine PostgreSQL-Abfrage zurückzugeben und die Struktur der Tabellen, an denen ich interessiert bin, in die Eingabeaufforderung kopiert habe. Zum Beispiel:

Zusammenfassung

Ich: Gib eine PostgreSQL-Abfrage zurück, die alle Benutzernamen von Benutzern auflistet, die sich in der Gruppe “community_moderators” befinden, für die folgende Datenbankstruktur:

# == Schema Information
#
# Table name: groups
#
#  id                                 :integer          not null, primary key
#  name                               :string           not null

# == Schema Information
#
# Table name: group_users
#
#  id                 :integer          not null, primary key
#  group_id           :integer          not null

# == Schema Information
#
# Table name: users
#
#  id                        :integer          not null, primary key
#  username                  :string(60)       not null

ChatGPT 3.5: Sicher, hier ist eine PostgreSQL-Abfrage, die alle Benutzernamen von Benutzern auflistet, die sich in der Gruppe “community_moderators” befinden, basierend auf der angegebenen Datenbankstruktur:

SELECT u.username
FROM users u
JOIN group_users gu ON u.id = gu.user_id
JOIN groups g ON gu.group_id = g.id
WHERE g.name = 'community_moderators';

Diese Abfrage ruft die Benutzernamen aus der users-Tabelle ab, indem sie mit der group_users-Tabelle über die Benutzer-ID verknüpft wird, und dann mit der groups-Tabelle über die Gruppen-ID verknüpft wird. Sie filtert die Ergebnisse, um nur Benutzernamen für Benutzer einzuschließen, die sich in der Gruppe “community_moderators” befinden.

Ich: Hier ist die Struktur der Tabellen für Themen und Beiträge der Anwendung:

# == Schema Information
#
# Table name: topics
#
#  id                        :integer          not null, primary key
#  title                     :string           not null

# == Schema Information
#
# Table name: posts
#
#  id                      :integer          not null, primary key
#  user_id                 :integer
#  topic_id                :integer          not null
#  post_number             :integer          not null
#  raw                     :text             not null

Gib eine Abfrage zurück, die alle Themen-IDs, Beitrags-IDs und Benutzernamen für alle Beiträge auflistet, die von Mitgliedern der Gruppe “community_moderators” erstellt wurden und die einen Hinweis darauf geben, dass der Poster an der Moderation polarisierender Diskussionen interessiert ist.

ChatGPT 3.5: Um dies zu erreichen, müssten Sie die Tabellen posts, topics, users und group_users basierend auf dem bereitgestellten Schema verknüpfen. Hier ist eine PostgreSQL-Abfrage, die die angeforderten Informationen abruft:

SELECT t.id AS topic_id, p.id AS post_id, u.username
FROM posts p
JOIN topics t ON p.topic_id = t.id
JOIN users u ON p.user_id = u.id
JOIN group_users gu ON u.id = gu.user_id
JOIN groups g ON gu.group_id = g.id
WHERE g.name = 'community_moderators'
  AND (p.raw ILIKE '%moderate%' OR p.raw ILIKE '%polarizing%' OR p.raw ILIKE '%discussion%');

Diese Abfrage ruft die topic_id, post_id und username für alle Beiträge ab, die von Mitgliedern der Gruppe “community_moderators” erstellt wurden und bestimmte Schlüsselwörter enthalten, die auf ein Interesse an der Moderation polarisierender Diskussionen hinweisen. Der Operator ILIKE wird für die Groß-/Kleinschreibung unempfindliche Mustererkennung in der Spalte raw der Tabelle posts verwendet.

Bitte beachten Sie, dass diese Abfrage davon ausgeht, dass die von Ihnen angegebenen Schlüsselwörter auf die gewünschten Beiträge hinweisen. Möglicherweise müssen Sie die Schlüsselwörter basierend auf Ihren spezifischen Kriterien anpassen oder erweitern.

Ich: Schreibe eine Abfrage, die eine Zählung der Beiträge zurückgibt, die seit September 2022 in jeder wöchentlichen Periode erstellt wurden, von Mitgliedern der community_moderators-Gruppe, die ein gewisses Interesse an der Moderation polarisierender Diskussionen zeigen.

ChatGPT 3.5: Um dies zu erreichen, können Sie die folgende PostgreSQL-Abfrage verwenden, um eine Zählung der Beiträge zurückzugeben, die seit September 2022 in jeder wöchentlichen Periode erstellt wurden, von Mitgliedern der Gruppe “community_moderators”, die ein Interesse an der Moderation polarisierender Diskussionen zeigen:

SELECT
    DATE_TRUNC('week', p.created_at) AS week_start,
    COUNT(p.id) AS post_count
FROM
    posts p
JOIN
    users u ON p.user_id = u.id
JOIN
    group_users gu ON u.id = gu.user_id
JOIN
    groups g ON gu.group_id = g.id
WHERE
    g.name = 'community_moderators'
    AND (p.raw ILIKE '%moderate%'
         OR p.raw ILIKE '%polarizing%'
         OR p.raw ILIKE '%political%'
         OR p.raw ILIKE '%contentious%'
         OR p.raw ILIKE '%debate%'
         OR p.raw ILIKE '%controversial%'
         OR p.raw ILIKE '%discussion%')
    AND p.created_at >= '2022-09-01' -- Startdatum: September 2022
GROUP BY
    week_start
ORDER BY
    week_start;

Diese Abfrage berechnet die Anzahl der Beiträge, die von Mitgliedern der Gruppe “community_moderators” seit September 2022 in jeder wöchentlichen Periode mit den angegebenen Schlüsselwörtern erstellt wurden. Sie gruppiert die Ergebnisse nach Woche und ordnet sie chronologisch an. Bitte stellen Sie sicher, dass Sie die Spaltennamen und Tabellenbeziehungen entsprechend Ihrem tatsächlichen Datenbankschema anpassen.

Die Ergebnisse scheinen mir gut und repräsentieren die Arten von Abfragen, deren Erstellung mich in der Vergangenheit viel Zeit gekostet hat. Ich gehe davon aus, dass es möglich wäre, ein Modell auf der Discourse-Datenbankstruktur zu trainieren, so dass Details über die Struktur aus den Prompts weggelassen werden könnten.

Lilly · 6. August 2023 um 15:01

Oh, das ist großartig, ich hatte gemischte Ergebnisse mit den SQL-Abfragen des ChatGPT-Datenexplorers, aber auf diese Weise macht es so viel Sinn. Ich habe nicht einmal daran gedacht, die Tabellenstruktur anzugeben und nach PostgreSQL-Abfragen zu fragen. Danke für den Tipp @simon

jordan-violet · 6. August 2023 um 16:45

Gibt es irgendwo ein vollständiges Schema der Discourse-Datenbank(en)?

Lilly · 6. August 2023 um 17:12

Hallo @so-jordan-violet, ich benutze einfach das ausklappbare Tabellen-Tool (ich weiß nicht, wie es heißt! lol) auf der rechten Seite in der Abfrage-Bearbeitungsoberfläche des Daten-Explorers:

jordan-violet · 6. August 2023 um 17:33

Wenn wir ein textbasiertes Dokument erhalten könnten (insbesondere im SQL CREATE TABLE-Format), könnten wir dieses als Anweisungen bereitstellen und wahrscheinlich ziemlich zuverlässige Ergebnisse erzielen.

Falco · 6. August 2023 um 17:33

Ja, wir haben diesen Punkt seit Anfang des Jahres auf der Agenda des KI-Teams. Die Idee ist, das gesamte (oder den wichtigen Teil) des Discourse-Schemas in den Prompt aufzunehmen, damit dieser beliebige Abfragen erstellen kann.

Wir haben GitHub - discourse/data-explorer-examples: Examples for Discourse Data Explorer erstellt, um dem Modell Beispiele zu liefern, damit es besser fundiert ist.

jordan-violet · 6. August 2023 um 17:35

Ich wünschte, ich hätte mehr Zeit, die Codebasis zu durchforsten, aber haben Sie die SQL-Schemas für die Crest-Tabelle irgendwo (öffentlich) gespeichert?

Ich arbeite gerade an LLM-Projekten für mein eigenes Produkt/Unternehmen und würde gerne damit experimentieren.

Lilly · 6. August 2023 um 17:49

Oh, das ist großartig. Danke für den Link, Falco!

sam · 10. August 2023 um 05:45

Ich generiere das direkt aus dem Schema

github.com/discourse/data-explorer-examples

scripts/generate_sql.rb

main


      
          def get_schema
            schema = []
            table_name = nil
            columns = nil
          
            priority_tables = %w[posts topics notifications users user_actions]
          
            DB
              .query(<<~SQL, priority_tables)
                  select table_name, column_name from information_schema.columns
                  where table_schema = 'public'
                  order by case when table_name in (?) then 0 else 1 end asc, table_name
                SQL
              .each do |row|
                if table_name != row.table_name
                  schema << "#{table_name}(#{columns.join(",")})" if columns
                  table_name = row.table_name
                  columns = []
                end
                columns << row.column_name

This file has been truncated. show original

Etwas wie das hier sollte dir den Einstieg erleichtern:

gist.github.com

https://gist.github.com/SamSaffron/bed2d9f942c4b55d9ec24a5927867457

schema

notifications(topic_id,created_at,updated_at,post_action_id,id,data,high_priority,read,user_id,notification_type,post_number)
posts(raw_email,reply_to_user_id,created_at,percent_rank,raw,hidden_reason_id,spam_count,user_id,via_email,image_upload_id,word_count,illegal_count,like_count,hidden_at,baked_version,deleted_by_id,id,baked_at,inappropriate_count,quote_count,wiki,reads,bookmark_count,post_type,post_number,last_editor_id,version,cooked,like_score,incoming_link_count,off_topic_count,last_version_at,user_deleted,action_code,edit_reason,self_edits,notify_user_count,reply_quoted,score,topic_id,reply_to_post_number,notify_moderators_count,deleted_at,reply_count,updated_at,public_version,locked_by_id,outbound_message_id,hidden,cook_method,sort_order)
topics(deleted_by_id,views,last_post_user_id,fancy_title,highest_post_number,pinned_at,closed,last_posted_at,featured_link,percent_rank,updated_at,has_summary,featured_user2_id,score,external_id,moderator_posts_count,bannered_until,deleted_at,reply_count,featured_user1_id,featured_user3_id,user_id,visible,pinned_globally,excerpt,incoming_link_count,slug,like_count,spam_count,featured_user4_id,notify_moderators_count,bumped_at,archetype,id,created_at,title,posts_count,category_id,reviewable_score,archived,participant_count,pinned_until,image_upload_id,slow_mode_seconds,word_count,subtype,highest_staff_post_number)
user_actions(action_type,user_id,target_topic_id,acting_user_id,created_at,id,target_post_id,updated_at,target_user_id)
users(approved_at,salt,active,username_lower,seen_notification_id,staged,username,group_locked_trust_level,name,views,last_emailed_at,created_at,approved_by_id,previous_visit_at,secure_identifier,password_algorithm,title,first_seen_at,primary_group_id,last_posted_at,admin,uploaded_avatar_id,silenced_till,registration_ip_address,suspended_till,ip_address,locale,trust_level,suspended_at,flair_group_id,date_of_birth,manual_locked_trust_level,moderator,last_seen_at,last_seen_reviewable_id,flag_level,id,password_hash,updated_at,approved)
ai_api_audit_logs(raw_request_payload,created_at,response_tokens,provider_id,id,request_tokens,raw_response_payload,updated_at,user_id)
ai_topic_embeddings_1_1(created_at,strategy_version,topic_id,embeddings,model_version,updated_at,digest)
ai_topic_embeddings_2_1(digest,topic_id,created_at,updated_at,embeddings,strategy_version,model_version)
ai_topic_embeddings_3_1(updated_at,strategy_version,model_version,topic_id,embeddings,digest,created_at)
allowed_pm_users(id,allowed_pm_user_id,user_id,updated_at,created_at)

This file has been truncated. show original

Ich habe alle möglichen Ansätze erforscht, um das zum Laufen zu bringen. Ein Problem ist jedoch, dass GPT 3.5 einfach so gut steuerbar ist, dass es verwirrt wird.

Ihm ein Schema zu geben hilft sicherlich, aber ich stelle fest, dass ich bei Beispielen extrem strategisch vorgehen muss.

Allein die Erzählung einer Geschichte darüber, “wie man archivierte Themen für einen Benutzer zählt”, lenkt eine Abfrage wie “wie viele Beiträge hatte ein Benutzer” in Richtung archivierter Themen.

Ich dachte:

graph TD
A[Allgemeine hilfreiche Informationen hinzufügen] --> B[Embeddings für die Frage generieren]
B --> C[Ähnlichkeitssuche über Beispiele durchführen]
C --> D[3 Beispiele zum Prompt hinzufügen]
D --> E[Schema zum Prompt hinzufügen]
E --> F[Frage stellen]
F --> G[SQL erhalten]

Aber es stellt sich heraus, dass die Dinge schlecht werden, es sei denn, die Beispiele sind spektakulär und du nimmst keine Gegenbeispiele auf…

Ich fange an zu denken, dass das Beste, was wir im Moment haben, darin besteht, ihm einfach das Schema und eine Einleitung zu geben. Vielleicht noch einen Schritt am Ende für die Abfragevalidierung und Wiederholung hinzufügen.

jordan-violet · 10. August 2023 um 17:29

Hätten Sie ein vollständiges Schema, das Datentypen zeigt?

sam · 10. August 2023 um 21:00

Bin mir nicht sicher, ob es ins Token-Budget passt, ich werde es versuchen

simon · 10. August 2023 um 21:01

Mit ChatGPT 3.5 erhalte ich unerwartete Ergebnisse, wenn ich das vollständige Schema angebe. Zum Beispiel versucht es ständig, den Autor des Themas in der Tabelle topic_users zu finden.

Ich erhalte erfolgreiche Ergebnisse, indem ich die Informationen im Prompt auf die Tabellen und Spalten beschränke, die für das Schreiben der Abfrage erforderlich sind. Außerdem füge ich zusätzliche Informationen darüber hinzu, wie die Spalten verwendet werden. Zum Beispiel:

# Tabellename: user_actions
#
#  id              :integer          not null, primary key
#  action_type     :integer          not null (:like=>1,:was_liked=>2,:new_topic=>4,:reply=>5,:response=>6,:mention=>7,:quote=>9,:edit=>11,:new_private_message=>12,:got_private_message=>13,:solved=>15,:assigned=>16)
#  user_id         :integer          not null (der Benutzer, dem die Aktion angerechnet werden soll)
#  target_topic_id :integer
#  acting_user_id  :integer (der Benutzer, der die Aktion ausgeführt hat, z. B. kann ein Staff-Benutzer eine Aktion im Namen eines regulären Benutzers ausführen)
#  created_at      :datetime         not null

Eine andere Möglichkeit, dies mit dem Data Explorer-Plugin zum Laufen zu bringen, besteht darin, dass Benutzer ein dynamisch generiertes Formular ausfüllen, das die gesuchten Daten und die darauf anzuwendenden Bedingungen auflistet. Der Prompt könnte dann programmgesteuert von Discourse generiert und an das LLM gesendet werden, um die Abfrage zu schreiben.

Edit: @jordan-violet, dies könnte ein nützlicher Ausgangspunkt sein. Hier ist ein annotiertes Teilschema, das bei mir funktioniert. Es funktioniert gut, solange ich meine Abfragen so beschränke, dass sie mit dem bereitgestellten Schema beantwortet werden können. Ich habe dem Schema weitere Details hinzugefügt, um Aspekte zu klären, die ChatGPT scheinbar verwirren. Der offensichtliche Nachteil dieses Ansatzes ist, dass ein vollständig annotiertes Schema das Token-Limit von ChatGPT 3.5 überschreiten wird. Ich habe einige Informationen im Schema aufgenommen, die weggelassen werden könnten, um die Anzahl der verwendeten Tokens zu reduzieren.

Zusammenfassung

# == Schema Information
#
# Tabellename: application_requests
#
#  id       :integer          not null, primary key
#  date     :date             not null
#  req_type :integer          not null ("http_total"=>0,"http_2xx"=>1,"http_background"=>2,"http_3xx"=>3,"http_4xx"=>4,"http_5xx"=>5,"page_view_crawler"=>6,"page_view_logged_in"=>7,"page_view_anon"=>8,"page_view_logged_in_mobile"=>9,"page_view_anon_mobile"=>10,"api"=>11,"user_api"=>12)
#  count    :integer          default(0), not null
#
# Tabellename: users
#
#  id                        :integer          not null, primary key
#  username                  :string(60)       not null
#  created_at                :datetime         not null
#  updated_at                :datetime         not null
#  name                      :string           (der echte Name des Benutzers)
#  last_posted_at            :datetime
#  active                    :boolean          default(FALSE), not null
#  username_lower            :string(60)       not null
#  last_seen_at              :datetime
#  admin                     :boolean          default(FALSE), not null
#  trust_level               :integer          not null
#  approved                  :boolean          default(FALSE), not null
#  approved_by_id            :integer
#  approved_at               :datetime
#  previous_visit_at         :datetime
#  suspended_at              :datetime
#  suspended_till            :datetime
#  date_of_birth             :date
#  ip_address                :inet
#  moderator                 :boolean          default(FALSE)
#  title                     :string
#  locale                    :string(10)
#  primary_group_id          :integer
#  registration_ip_address   :inet
#  staged                    :boolean          default(FALSE), not null
#  first_seen_at             :datetime
#  silenced_till             :datetime
#
# Tabellename: topics
#
#  id                        :integer          not null, primary key
#  title                     :string           not null
#  last_posted_at            :datetime
#  created_at                :datetime         not null
#  updated_at                :datetime         not null
#  views                     :integer          default(0), not null
#  posts_count               :integer          default(0), not null
#  user_id                   :integer          (die ID des Benutzers, der das Thema erstellt hat)
#  last_post_user_id         :integer          not null (die ID des Benutzers, der den letzten Beitrag im Thema erstellt hat)
#  reply_count               :integer          default(0), not null
#  deleted_at                :datetime
#  highest_post_number       :integer          default(0), not null
#  like_count                :integer          default(0), not null
#  category_id               :integer
#  visible                   :boolean          default(TRUE), not null
#  moderator_posts_count     :integer          default(0), not null
#  closed                    :boolean          default(FALSE), not null
#  archived                  :boolean          default(FALSE), not null
#  bumped_at                 :datetime         not null
#  archetype                 :string           default("regular"), not null (kann auf entweder „regular“ oder „private_message“ gesetzt werden)
#  slug                      :string
#  deleted_by_id             :integer          (die ID des Benutzers, der das Thema gelöscht hat)
#  participant_count         :integer          default(1)
#  word_count                :integer
#  excerpt                   :string
#  highest_staff_post_number :integer          default(0), not null
#
# Tabellename: posts
#
#  id                      :integer          not null, primary key
#  user_id                 :integer          (die ID des Benutzers, der den Beitrag erstellt hat)
#  topic_id                :integer          not null
#  post_number             :integer          not null (gibt die Reihenfolge des Beitrags in seinem Thema an)
#  raw                     :text             not null (der Inhalt des Beitrags)
#  created_at              :datetime         not null
#  updated_at              :datetime         not null
#  reply_to_post_number    :integer          (die post_number, auf die der Beitrag antwortet)
#  reply_count             :integer          default(0), not null
#  deleted_at              :datetime
#  like_count              :integer          default(0), not null
#  bookmark_count          :integer          default(0), not null
#  reads                   :integer          default(0), not null (die Anzahl der Male, die der Beitrag gelesen wurde)
#  post_type               :integer          default(1), not null (:regular=>1, :moderator_action=>2, :small_action=>3, :whisper=>4)
#  last_editor_id          :integer          (die ID des Benutzers, der den Beitrag zuletzt bearbeitet hat)
#  hidden                  :boolean          default(FALSE), not null
#  hidden_reason_id        :integer          (:flag_threshold_reached=>1,:flag_threshold_reached_again=>2,:new_user_spam_threshold_reached=>3,:flagged_by_tl3_user=>4,:email_spam_header_found=>5,:flagged_by_tl4_user=>6,:email_authentication_result_header=>7,:imported_as_unlisted=>8)
#  edit_reason             :string
#  word_count              :integer
#  wiki                    :boolean          default(FALSE), not null
#
# Tabellename: categories
#
#  id                                        :integer          not null, primary key
#  name                                      :string(50)       not null
#  topic_id                                  :integer          (die ID des Themas, das für die Beschreibung der Kategorie verwendet wird)
#  topic_count                               :integer          default(0), not null
#  created_at                                :datetime         not null
#  updated_at                                :datetime         not null
#  user_id                                   :integer          not null (die ID des Benutzers, der das Thema erstellt hat)
#  topics_year                               :integer          default(0)
#  topics_month                              :integer          default(0)
#  topics_week                               :integer          default(0)
#  slug                                      :string           not null
#  description                               :text
#  text_color                                :string(6)        default("FFFFFF"), not null
#  read_restricted                           :boolean          default(FALSE), not null
#  auto_close_hours                          :float
#  post_count                                :integer          default(0), not null
#  latest_post_id                            :integer
#  latest_topic_id                           :integer
#  position                                  :integer
#  parent_category_id                        :integer
#  posts_year                                :integer          default(0)
#  posts_month                               :integer          default(0)
#  posts_week                                :integer          default(0)
#  topics_day                                :integer          default(0)
#  posts_day                                 :integer          default(0)
#
# Tabellename: groups
#
#  id                                 :integer          not null, primary key
#  name                               :string           not null
#  created_at                         :datetime         not null
#  automatic                          :boolean          default(FALSE), not null
#  user_count                         :integer          default(0), not null
#  title                              :string
#  bio_raw                            :text             (die Beschreibung der Gruppe)
#  allow_membership_requests          :boolean          default(FALSE), not null
#  full_name                          :string
#  visibility_level                   :integer          default(0), not null (wer die Gruppe sehen kann :public=>0, :logged_on_users=>1, :members=>2, :staff=>3, :owners=>4)
#  messageable_level                  :integer          default(0) (wer der Gruppe eine Nachricht senden kann :public=>0, :logged_on_users=>1, :members=>2, :staff=>3, :owners=>4)
#  mentionable_level                  :integer          default(0) (wer die Gruppe erwähnen kann :public=>0, :logged_on_users=>1, :members=>2, :staff=>3, :owners=>4)
#  members_visibility_level           :integer          default(0), not null (wer die Mitglieder der Gruppe sehen kann :public=>0, :logged_on_users=>1, :members=>2, :staff=>3, :owners=>4)
#
# Tabellename: group_users
#
#  id                 :integer          not null, primary key
#  group_id           :integer          not null
#  user_id            :integer          not null
#  created_at         :datetime         not null
#
# Tabellename: user_actions
#
#  id              :integer          not null, primary key
#  action_type     :integer          not null (:like=>1,:was_liked=>2,:new_topic=>4,:reply=>5,:response=>6,:mention=>7,:quote=>9,:edit=>11,:new_private_message=>12,:got_private_message=>13,:solved=>15,:assigned=>16)
#  user_id         :integer          not null (der Benutzer, dem die Aktion angerechnet werden soll)
#  target_topic_id :integer
#  target_post_id  :integer
#  target_user_id  :integer          (z. B. die ID des Benutzers, dessen Beitrag geliked wurde)
#  acting_user_id  :integer          (der Benutzer, der die Aktion ausgeführt hat, z. B. kann ein Staff-Benutzer eine Aktion im Namen eines regulären Benutzers ausführen)
#  created_at      :datetime         not null
#  updated_at      :datetime         not null
#
# Tabellename: topic_views
#
#  topic_id   :integer          not null
#  viewed_at  :date             not null
#  user_id    :integer         (wird gesetzt, wenn das Thema von einem angemeldeten Benutzer angesehen wurde)
#  ip_address :inet            (wird gesetzt, wenn das Thema von einem anonymen Benutzer angesehen wurde)
#
# Tabellename: user_visits
#
#  id         :integer          not null, primary key
#  user_id    :integer          not null
#  visited_at :date             not null
#  posts_read :integer          default(0)
#  mobile     :boolean          default(FALSE) (wird auf TRUE gesetzt, wenn der Benutzer ein mobiles Gerät verwendet hat)
#  time_read  :integer          default(0), not null (der zurückgegebene Wert ist die Anzahl der Sekunden des Besuchs)

Hier ist ein Link zu einer Chat-Sitzung, in der ich es ausprobiert habe: ChatGPT

Wenn Sie versuchen möchten, diese Liste zu erweitern, ist der einfachste Weg, das Schema von unten des Modells zu kopieren, an dem Sie interessiert sind, direkt aus dem Discourse-Code: discourse/app/models at main · discourse/discourse · GitHub.

jordan-violet · 11. August 2023 um 21:59

Es wäre großartig, genau das zu bekommen, aber eine umfassende Liste jeder Tabelle. Woher hast du das?

EDIT: Ah, ich sehe deinen Link unten, Entschuldigung. Ich werde wahrscheinlich keine Zeit haben, sie alle zusammenzufügen. Ich hatte gehofft, es gäbe ein Master-SQL-Schema irgendwo

simon · 12. August 2023 um 00:05

Das Problem ist, dass die Bereitstellung des Schemas allein nicht ausreicht, um ChatGPT Informationen zu geben. Sie müssen ihm Details zu Dingen wie Folgendem zur Verfügung stellen:

wofür die Integer-Codes von req_type in application_requests stehen
wofür die Spalte user_id in topics verwendet wird
wofür die Codes von action_type in der Tabelle user_actions stehen und was der Unterschied zwischen den Spalten user_id, target_user_id und acting_user_id dieser Tabelle ist

Mit diesen Details scheint GPT 3.5 ohne zusätzliches Training gute Arbeit zu leisten. Das Problem ist dann, dass die Bereitstellung dieser Detailtiefe über die gesamte Datenbank dazu führt, dass die Eingabeaufforderung das Token-Limit von ChatGPT (4096 Tokens, einschließlich des Eingabeaufforderungstexts und der generierten Ausgabe) überschreitet. Wenn dieser Ansatz verwendet würde, müsste es eine Möglichkeit geben, die in die Eingabeaufforderung aufgenommenen Informationen basierend auf den Informationen zu begrenzen, die der Benutzer aus der Data Explorer-Abfrage erhalten wollte.

jordan-violet · 12. August 2023 um 00:07

Das war überhaupt nicht meine Erfahrung. Ich hatte heute Abend eine ziemlich angenehme Erfahrung damit. Ich werde später einige Ergebnisse teilen.

Es gibt mir das Gefühl einer kompetenten, aber sehr einsteigerfreundlichen/juniorigen Rolle. Es kommt den Dingen nahe, ich sage ihm, was er falsch gemacht hat, und er korrigiert es. Wiederholen.

Ich genieße es wirklich, was es mir liefert, und die Zeit, die es mir heute Abend spart, basierend auf meiner Nutzung.

sam · 12. August 2023 um 00:16

GPT 3.5 erledigt 16k heute problemlos

Die Probleme treten auf, wenn die Anfragen kompliziert werden, Randfälle berücksichtigt werden und so weiter

Thema		Antworten	Aufrufe
Create a Data Explorer query using the API Integrations data-explorer , rest-api , how-to	3	162	29. März 2026
Discourse Data Explorer Plugin official , data-explorer , included-in-core	30	83876	22. Oktober 2025
Empower the SQL helper Feature data-explorer , ai , ai-bot	0	81	21. Mai 2025
Exploring your Discourse Data with Discourse MCP Announcements data-explorer , ai , sql-query	0	320	6. Februar 2026
Run Data Explorer queries with the Discourse API Integrations data-explorer , rest-api , how-to	14	13801	6. Mai 2025

Discourse AI + Data Explorer?

Verwandte Themen