Ein Topic-Auto-Tagger mit Machine Learning?

swamidass · 31. Oktober 2020 um 17:04

Ich bin Experte für maschinelles Lernen, aber nicht für Discourse. Ich nutze Discourse jedoch häufig und finde es wirklich toll.

Ein Werkzeug, das ich für sehr leistungsfähig halten würde, wäre ein Skript, das ausgeführt werden kann (in Interaktion mit der API) und folgendes ermöglicht:

Die Nutzung von Tags analysieren und Themen automatisch basierend auf Daten taggen. Beispielsweise könnte ein Algorithmus für maschinelles Lernen, wenn ein verwendeter Tag „Rezept“ ist und einige Themen mit „Rezept“ getaggt sind, zusätzliche Beiträge identifizieren, die ebenfalls mit „Rezept“ getaggt werden sollten.
Themen analysieren, um neue Tags vorzuschlagen und relevante Themen automatisch zu taggen.

Ich denke, die richtige Umsetzung davon wäre in Python und unabhängig von der eigentlichen Discourse-Implementierung. Mit einem guten Software-Design wären NLP und ML vom Code getrennt, der mit Discourse interagiert. Durch die Interaktion mit Discourse über die API könnte beliebiger ML-Code entwickelt werden, und es könnte ein Open-Source-Python-Paket entstehen, das von der ML-Community unabhängig von der Discourse-Distribution mitgestaltet wird. Eine solide Schnittstelle könnte es zudem ermöglichen, ML auch auf andere Weise für das Management von Discourse-Foren einzusetzen.

Ich bin daher daran interessiert, einen ersten Ansatz für ML/NLP zur Implementierung eines automatischen Taggers zu entwickeln und dies als Open-Source-Bibliothek verfügbar zu machen.

Gibt es Discourse-Entwickler, die mit der API vertraut sind und Interesse hätten, bei der Komponente für die Discourse-Kommunikation dieses Projekts/ dieser Bibliothek mitzuhelfen? Dies ist eine kritische Komponente des Teams, die aktuell fehlt. Wir brauchen jemanden, der das übernehmen kann, bevor wir starten können.

Gibt es weitere Wissenschaftler oder Experten, die an der Entwicklung von ML/NLP mitwirken möchten?

swamidass · 31. Oktober 2020 um 17:09

Vielleicht haben @samamorgan oder @black einige Vorschläge oder würden teilnehmen?

sam · 2. November 2020 um 04:36

Ich würde empfehlen, hier auf Webhooks zu setzen. Ihr könntet den Webhook von deiner Python-App konsumieren und mit unserer API darauf reagieren.

Ich bin gespannt, wie gut das funktioniert.

Ein weiterer interessanter Bereich wäre die Nutzung von Word2Vec oder einer ähnlichen Methode zur Umwandlung von Sätzen in Vektoren, um die thematische Ähnlichkeit in Support zu ermitteln … Viele Fragen werden auf viele verschiedene Arten gestellt, und das Zusammenführen von Informationen kann sehr nützlich sein.

swamidass · 2. November 2020 um 10:37

Im Moment denke ich, dass Neo4j die richtige Wahl sein könnte…

Ich werde mir auch Webhooks genauer ansehen…

samamorgan · 2. November 2020 um 18:09

@swamidass Klingt nach einem interessanten Projekt! Ich würde mich gerne beteiligen und helfen, falls es Open Source ist.

swamidass · 3. November 2020 um 17:08

@samamorgan, kannst du etwas Schnittstellencode erstellen, um über die API Diskurs-Informationen in Neo4j zu importieren? Es stellt sich heraus, dass dies ohne Python-Code möglich ist. Neo4j bietet eine Schnittstelle dafür. Schau dir die Beispiele für Twitter und StackExchange an:

Das ist ebenfalls relevant:

samamorgan · 3. November 2020 um 18:29

Wenn du ein Projekt im Sinn hast, starte ein Git-Repository und skizziere den Ablauf. Ich bin gerne bereit, mich einzubringen, wenn es die Zeit zulässt, falls du den Link hier hinterlegst.

swamidass · 4. November 2020 um 18:17

Danke. Hier ist das Git-Repository.

Thema		Antworten	Aufrufe
How to add machine-generated tags to a post? Feature	2	893	28. Juni 2020
Topic auto tagging Feature	26	8289	28. September 2021
Automated tagging when topic is created Support tags	1	196	5. März 2025
Feature suggestion: "add tag" popup should suggest likely tags based on topic content Feature	3	776	19. Januar 2021
Is there any artificial intelligence involved in Discourse? Support	3	1343	28. Januar 2021

Ein Topic-Auto-Tagger mit Machine Learning?

Verwandte Themen