Armazenar arquivos PDF e DOC como texto puro no banco de dados - Por onde começar?

Quero modificar minha instalação do Discourse para que ela também armazene o conteúdo de arquivos PDF e DOC como texto puro no banco de dados. Tenho um conhecimento básico da estrutura do banco de dados e de como o código do Discourse funciona. Por onde devo começar a modificar o código-fonte?

Qual problema você está tentando resolver? É difícil imaginar que o que você descreve seja uma boa solução. Aqui está por onde começar: Developing Discourse Plugins - Part 1 - Create a basic plugin