Ich habe Microsoft Translate noch nicht verwendet, also sind Sie mir da voraus – obwohl ich vermute, dass die Methoden theoretisch die gleichen wären.
Ich mag Ihre Idee, Absatzumbrüche zu parsen, aber ich bin mir nicht sicher, ob man davon ausgehen sollte, dass jedes Dokument mit CR/LF endet. 'nix verwendet nur das LF-Zeichen, Mac nur das CR-Zeichen, Windows beide. Andere Dokumente könnten ein Null-Byte als EOL-Zeichen verwenden.
Unicode bringt eigene Probleme mit sich, da jedes Zeichen zwei Byte lang ist.
Mögliche Lösung: Prüfen Sie die Zeilenenden im ersten oder zweiten Satz, speichern Sie diese als Wert und konvertieren Sie dann alle Zeilenenden vor dem Parsen des Dokuments einfach zu “\n”. Sobald das Dokument vollständig ist, können Sie automatisch wieder auf das korrekte Zeilenende zurücksetzen.
Eine Methode wäre, nach vorne zu scannen, bis man 10.000 Wörter erreicht, und dann nach hinten zu einem Absatzumbruch zu suchen. Setzen Sie einen Kopfzeiger an den Anfang des aktuellen Blocks, scannen Sie nach vorne und platzieren Sie einen Endzeiger, sobald Sie den letzten Absatzumbruch vor den 10.000 Wörtern finden. Schneiden Sie diesen Block aus, übersetzen Sie ihn, fügen Sie ihn in das Ergebnisdokument ein, verschieben Sie den Kopfzeiger an die Position des Endzeigers und fahren Sie fort.
==============================
Nebenbei bemerkt: Übersetzungssoftware kann schrecklich sein, da die Übersetzung oft stark kontextabhängig ist, Slang enthält oder Fachjargon verwendet. Ebenso werden technische Begriffe oder Wörter, die für einen bestimmten Beruf oder eine bestimmte Fähigkeit spezifisch sind – die in vielen Fällen nicht übersetzt werden sollten – furchtbar entstellt. Rechtliche, medizinische und technische/engineering-Dokumente sind klassische Beispiele.
Ich habe ein komplexes medizinisches Dokument (den Operationsbericht für eine Gehirnoperation) durch zwei verschiedene Übersetzer – Google und Yandex – geschickt, um es ins Russische zu übersetzen. Das Ergebnis beider Übersetzungen sah eher aus wie eine schlechte Lasagne als wie ein lesbares Dokument!