Ainda não usei o Microsoft Translate, então você está à frente nesse ponto — embora suspeite que, em teoria, os métodos seriam os mesmos.
Gosto da sua ideia de analisar as quebras de parágrafo, embora não tenha certeza de que deveria assumir que todo documento tenha terminação de linha CR/LF. O Unix usa apenas o caractere LF. O Mac usa apenas o caractere CR. O Windows usa ambos. Outros documentos podem usar um byte nulo como caractere de fim de linha.
O Unicode também traz seus próprios problemas, já que cada caractere tem dois bytes de comprimento.
Solução possível: Analise a terminação de linha na primeira ou nas duas primeiras frases, armazene-a como um valor e, em seguida, converta todas as terminações de linha para apenas “\n” antes de analisar o documento. Após concluir o processamento do documento, você pode redefinir automaticamente para a terminação de linha correta.
Um método seria varrer o texto para frente até atingir 10.000 palavras e, em seguida, varrer para trás em busca de uma quebra de parágrafo. Posicione um ponteiro de início no início do bloco atual, avance a varredura e, ao encontrar a última quebra de parágrafo antes das 10.000 palavras, posicione um ponteiro de fim. Recorte esse bloco, traduza-o, mova-o para o documento de resultado, ajuste o ponteiro de início para a posição do ponteiro de fim e continue.
==============================
De passagem, softwares de tradução podem ser terríveis, pois muitas vezes a tradução é extremamente sensível ao contexto, contém gírias ou usa jargão. Da mesma forma, termos técnicos ou palavras específicas de uma determinada profissão ou habilidade — que não deveriam ser traduzidas em muitos casos — são estragados de forma horrível. Documentos jurídicos, médicos e de engenharia/técnicos são exemplos clássicos.
Enviei um documento médico complexo (o relatório cirúrgico de uma cirurgia cerebral de alguém) por meio de dois tradutores diferentes — Google e Yandex — tentando traduzi-lo para o russo. O resultado de ambas as traduções foi mais parecido com uma lasanha ruim do que com um documento legível!