Ein Topic-Auto-Tagger mit Machine Learning?

Ich bin Experte für maschinelles Lernen, aber nicht für Discourse. Ich nutze Discourse jedoch häufig und finde es wirklich toll.

Ein Werkzeug, das ich für sehr leistungsfähig halten würde, wäre ein Skript, das ausgeführt werden kann (in Interaktion mit der API) und folgendes ermöglicht:

  1. Die Nutzung von Tags analysieren und Themen automatisch basierend auf Daten taggen. Beispielsweise könnte ein Algorithmus für maschinelles Lernen, wenn ein verwendeter Tag „Rezept“ ist und einige Themen mit „Rezept“ getaggt sind, zusätzliche Beiträge identifizieren, die ebenfalls mit „Rezept“ getaggt werden sollten.

  2. Themen analysieren, um neue Tags vorzuschlagen und relevante Themen automatisch zu taggen.

Ich denke, die richtige Umsetzung davon wäre in Python und unabhängig von der eigentlichen Discourse-Implementierung. Mit einem guten Software-Design wären NLP und ML vom Code getrennt, der mit Discourse interagiert. Durch die Interaktion mit Discourse über die API könnte beliebiger ML-Code entwickelt werden, und es könnte ein Open-Source-Python-Paket entstehen, das von der ML-Community unabhängig von der Discourse-Distribution mitgestaltet wird. Eine solide Schnittstelle könnte es zudem ermöglichen, ML auch auf andere Weise für das Management von Discourse-Foren einzusetzen.

Ich bin daher daran interessiert, einen ersten Ansatz für ML/NLP zur Implementierung eines automatischen Taggers zu entwickeln und dies als Open-Source-Bibliothek verfügbar zu machen.

Gibt es Discourse-Entwickler, die mit der API vertraut sind und Interesse hätten, bei der Komponente für die Discourse-Kommunikation dieses Projekts/ dieser Bibliothek mitzuhelfen? Dies ist eine kritische Komponente des Teams, die aktuell fehlt. Wir brauchen jemanden, der das übernehmen kann, bevor wir starten können.

Gibt es weitere Wissenschaftler oder Experten, die an der Entwicklung von ML/NLP mitwirken möchten?

Vielleicht haben @samamorgan oder @black einige Vorschläge oder würden teilnehmen?

Ich würde empfehlen, hier auf Webhooks zu setzen. Ihr könntet den Webhook von deiner Python-App konsumieren und mit unserer API darauf reagieren.

Ich bin gespannt, wie gut das funktioniert.

Ein weiterer interessanter Bereich wäre die Nutzung von Word2Vec oder einer ähnlichen Methode zur Umwandlung von Sätzen in Vektoren, um die thematische Ähnlichkeit in Support zu ermitteln … Viele Fragen werden auf viele verschiedene Arten gestellt, und das Zusammenführen von Informationen kann sehr nützlich sein.

Im Moment denke ich, dass Neo4j die richtige Wahl sein könnte…

Ich werde mir auch Webhooks genauer ansehen…

@swamidass Klingt nach einem interessanten Projekt! Ich würde mich gerne beteiligen und helfen, falls es Open Source ist.

@samamorgan, kannst du etwas Schnittstellencode erstellen, um über die API Diskurs-Informationen in Neo4j zu importieren? Es stellt sich heraus, dass dies ohne Python-Code möglich ist. Neo4j bietet eine Schnittstelle dafür. Schau dir die Beispiele für Twitter und StackExchange an:

Das ist ebenfalls relevant:

Wenn du ein Projekt im Sinn hast, starte ein Git-Repository und skizziere den Ablauf. Ich bin gerne bereit, mich einzubringen, wenn es die Zeit zulässt, falls du den Link hier hinterlegst.

Danke. Hier ist das Git-Repository.