Große Beiträge für erfolgreiche Übersetzung aufteilen

Ich verwende das Translator-Plugin mit dem Microsoft-Dienst. Wenn der Beitrag groß genug ist, kann er nicht übersetzt werden, und es tritt folgender Fehler auf:

Dieser Beitrag ist zu lang, um vom Translator übersetzt zu werden.

Könnten Sie bitte eine Funktion für die Übersetzung pro Absatz implementieren, um dieses Problem zu umgehen?

2 „Gefällt mir“

Das ist ein normaler Teil von Google Translate, und ich glaube, das Wortlimit liegt bei etwa 500 Wörtern.

Wenn Sie regelmäßig größere Mengen erhalten, sehe ich ein paar Möglichkeiten:

  1. Den Inhalt manuell in Textblöcke mit weniger als 500 Wörtern (oder whatever dem Limit entspricht) zerlegen.
  2. Eine andere Google-API für die Dokumentenübersetzung nutzen (ich bin mir nicht sicher, aber ich glaube, es gibt eine solche; Sie müssen dort nachfragen).
  3. Eine andere Website für die Dokumentenübersetzung nutzen und hoffen, dass diese eine API bereitstellt.

Vergessen Sie nicht, uns zu berichten, was funktioniert hat.

Ich verwende die Microsoft-API, nicht Google.
Es scheint, dass Microsoft ein Limit von 10.000 Zeichen pro einzelner Anfrage hat: Service limits - Translator - Foundry Tools | Microsoft Learn

Ich vermute, der einfachste Weg wäre, den Beitrag nach Absätzen zu teilen (“\r\n\r\n” oder

), vorausgesetzt, dass ein Absatz nicht größer als 10.000 Zeichen ist.

1 „Gefällt mir“

Ich habe Microsoft Translate noch nicht verwendet, also sind Sie mir da voraus – obwohl ich vermute, dass die Methoden theoretisch die gleichen wären.

Ich mag Ihre Idee, Absatzumbrüche zu parsen, aber ich bin mir nicht sicher, ob man davon ausgehen sollte, dass jedes Dokument mit CR/LF endet. 'nix verwendet nur das LF-Zeichen, Mac nur das CR-Zeichen, Windows beide. Andere Dokumente könnten ein Null-Byte als EOL-Zeichen verwenden.

Unicode bringt eigene Probleme mit sich, da jedes Zeichen zwei Byte lang ist.

Mögliche Lösung: Prüfen Sie die Zeilenenden im ersten oder zweiten Satz, speichern Sie diese als Wert und konvertieren Sie dann alle Zeilenenden vor dem Parsen des Dokuments einfach zu “\n”. Sobald das Dokument vollständig ist, können Sie automatisch wieder auf das korrekte Zeilenende zurücksetzen.

Eine Methode wäre, nach vorne zu scannen, bis man 10.000 Wörter erreicht, und dann nach hinten zu einem Absatzumbruch zu suchen. Setzen Sie einen Kopfzeiger an den Anfang des aktuellen Blocks, scannen Sie nach vorne und platzieren Sie einen Endzeiger, sobald Sie den letzten Absatzumbruch vor den 10.000 Wörtern finden. Schneiden Sie diesen Block aus, übersetzen Sie ihn, fügen Sie ihn in das Ergebnisdokument ein, verschieben Sie den Kopfzeiger an die Position des Endzeigers und fahren Sie fort.

==============================

Nebenbei bemerkt: Übersetzungssoftware kann schrecklich sein, da die Übersetzung oft stark kontextabhängig ist, Slang enthält oder Fachjargon verwendet. Ebenso werden technische Begriffe oder Wörter, die für einen bestimmten Beruf oder eine bestimmte Fähigkeit spezifisch sind – die in vielen Fällen nicht übersetzt werden sollten – furchtbar entstellt. Rechtliche, medizinische und technische/engineering-Dokumente sind klassische Beispiele.

Ich habe ein komplexes medizinisches Dokument (den Operationsbericht für eine Gehirnoperation) durch zwei verschiedene Übersetzer – Google und Yandex – geschickt, um es ins Russische zu übersetzen. Das Ergebnis beider Übersetzungen sah eher aus wie eine schlechte Lasagne als wie ein lesbares Dokument!

@jharris1993, ich nehme an, du schlägst vor, dass ich die Funktion implementiere. Leider habe ich keine Erfahrung mit Ruby, und das würde viel länger dauern als für eine erfahrene Person.
Natürlich könnte ich es irgendwie zusammenbasteln, aber das würde nicht gemerged werden.

Auf meinem Forum ist die am häufigsten angeforderte Übersetzung von Russisch nach Englisch, und zwar von technischen Beiträgen. Microsoft macht hier einen ziemlich guten Job.

1 „Gefällt mir“

Das ist ja cool!

Um welches Forum handelt es sich denn? Falls es auch Englisch ins Russische übersetzen kann, werde ich mein nächstes langes/komplexes Dokument vielleicht durchreichen!

Die Übersetzung wird mit dem discourse-translator-Plugin durchgeführt. Ich dachte, ich hätte dieses Thema in der Kategorie ‘Plugins’ erstellt, aber es wurde nicht kategorisiert.

1 „Gefällt mir“