Привет,
Я новичок здесь, так что извините, если я зря тратю время.
Я согласен с @sam, что есть глубокое погружение, но с другой стороны, технологии тематического моделирования сейчас довольно зрелые, и существуют готовые инструменты, которые работают очень хорошо. В одном из моих недавних проектов были проанализированы примерно 5 миллионов названий и аннотаций патентов; анализ порядка нескольких тысяч тем на моём новом и красивом форуме сайт был бы для меня детской игрой. Более того, у моего сообщества может быть достаточно энергии, чтобы это реализовать.
От экспертов: я хотел бы получить совет, стоит ли мне думать о создании плагина или лучше работать с исходным кодом Discourse (который я скачал с GitHub)?
Нашёл это про парсинг тем форума Discourse с помощью Python, но пока не смог заставить это работать. Что-то подобное должно позволить мне выгрузить данные в офлайн, построить модель и затем использовать её для запросов.
Большинство хороших инструментов написаны на Python, к слову…