Публичный дамп данных Discourse

Учитывая появление ИИ и необходимость в больших наборах данных для локальных машин разработки, мы подготовили быстрый шаблон для получения «рабочей» копии всех публичных (доступных анонимно) данных с форума Discourse.

Актуальную документацию можно найти по адресам:

Почему это важно?

  • Вам нужна локальная база данных с БОЛЬШИМ количеством тем
  • Вы не хотите хранить НИКАКИХ персональных данных на своей системе

Это решение всё ещё находится в очень черновом виде, но оно работоспособно для первоначальных экспериментов и позволяет создать локальную среду с большим количеством пользователей.


Этот документ находится под версионным контролем — предлагайте изменения на GitHub.

21 лайк

Привет, спасибо за эту работу! Я довольно новичок в API Discourse, но хотел бы попробовать. Из файла README видно, что topic_query и post_query — это ключевые файлы в этом репозитории. Подскажите, можно ли настроить эти файлы, чтобы адаптировать их под нужный нам дамп? Например, мы хотим выгрузить только темы из определённой категории или с определёнными тегами. Спасибо.