Un auto-taggeur de sujets avec Machine Learning ?

Je suis expert en apprentissage automatique, mais pas en Discourse. Je l’utilise beaucoup cependant, et je le trouve vraiment agréable.

Un outil qui, selon moi, serait très puissant serait un script à exécuter (en interagissant avec l’API) capable de :

  1. Analyser l’utilisation des balises et auto-étiqueter les sujets en fonction des données. Par exemple, si une balise utilisée est « recette » et que certains sujets sont étiquetés « recette », un algorithme d’apprentissage automatique pourrait identifier d’autres publications qui devraient être étiquetées « recette ».

  2. Examiner les sujets pour proposer de nouvelles balises et auto-étiqueter les sujets pertinents.

Je pense que la bonne implémentation de cela serait en Python, en dehors de l’implémentation réelle de Discourse. Avec une bonne conception logicielle, le TAL et l’IA seraient séparés du code interagissant avec Discourse. En interagissant avec Discourse via l’API, cela permettrait de développer du code d’IA arbitraire et de créer un package Python open source avec des contributions de la communauté de l’IA, essentiellement indépendamment de la distribution de Discourse. Une interface solide pourrait également permettre d’appliquer l’IA à la gestion des forums Discourse de manière plus large.

Ainsi, je suis intéressé par le développement d’une première version du TAL/IA pour implémenter un auto-étiqueteur, et rendre cela une bibliothèque open source.

Y a-t-il des développeurs de Discourse familiers avec l’API qui seraient intéressés à aider pour la composante de communication avec Discourse de ce projet/bibliothèque ? C’est une composante critique de l’équipe qui manque. Nous avons besoin de quelqu’un capable de le faire avant de pouvoir commencer.

Y a-t-il d’autres universitaires/experts qui souhaiteraient participer au développement du TAL/IA ?

5 « J'aime »

Peut-être que @samamorgan ou @black ont-ils des suggestions ou seraient-ils intéressés à participer ?

1 « J'aime »

Je recommande de vous appuyer sur les webhooks : vous les consommez depuis votre application Python et réagissez en utilisant notre API.

J’ai hâte de voir comment cela se passe.

Un autre domaine qui pourrait être intéressant est l’utilisation de word2vec ou d’une méthode de type « phrase vers vecteur » pour déterminer la similarité des sujets dans Support… Beaucoup de questions sont posées de nombreuses façons différentes ; regrouper les informations peut s’avérer très bénéfique.

4 « J'aime »

Pour le moment, je pense que Neo4j pourrait être la meilleure option…

Je vais également me pencher sur les webhooks…

@swamidass Ça a l’air d’être un projet intéressant ! Je serais ravi de m’impliquer et d’aider s’il est open source.

1 « J'aime »

@samamorgan, peux-tu créer du code d’interface pour importer (via l’API) des informations de Discourse dans Neo4j. Il s’avère que cela peut être fait sans aucun code Python. Neo4j dispose d’une interface pour cela. Consulte les exemples Twitter et StackExchange :

Ceci est également pertinent :

Si vous avez un projet en tête, lancez un dépôt Git et décrivez le processus. Je serai ravi de me joindre à vous et de contribuer selon mes disponibilités si vous partagez le lien ici.

2 « J'aime »

Merci. Voici le dépôt Git.

https://github.com/swamidass/discourse-machine-learning

1 « J'aime »