Linux international

Linux-Software zur Lokalisierung jenseits von Portable Objects

01.04.2005
Mit der zunehmenden Globalisierung wächst auch der Bedarf an Übersetzungssdienstleistungen und entsprechenden Anwendungen. Spielte Linux in diesem Umfeld bisher keine tragende Rolle, setzen neue Tools endlich an, diese Lücke zu schließen.

Praktisch jedes weltweit agierende Unternehmen möchte – oder muss aufgrund der Gesetzeslage – seine Dokumentation in der jeweiligen Landessprache anbieten. Bei großen Textmengen arbeiten dazu verschiedene Spezialisten meist in verteilt arbeitenden Teams zusammen, um das Endprodukt, etwa ein Software-Handbuch in 20 verschiedenen Sprachen, fertigzustellen. Hierzu gehören zum Beispiel technische Redakteure, Projektleiter, Übersetzer, Editoren und Layouter. Ihre Arbeit ergänzen manchmal noch Spezialisten für die Pflege von Übersetzungsspeichern, so genannten Translation Memories (siehe Kasten "Begriffe").

Professionelle Übersetzungen müssen durchweg konsistent erfolgen und zum Teil sehr ausführliche Kundenvorgaben berücksichtigen, auch wenn ein Projekt auf Grund seines Umfangs auf mehrere Übersetzer verteilt werden muss, um Abgabetermine einzuhalten. Damit der gesamte Produktionsprozess halbwegs reibungslos funktioniert, müssen alle an einem Übersetzungsprojekt beteiligten Mitarbeiter einheitliche Verfahren und miteinander kompatible Anwendungen einsetzen.

Die Rolle des Marktführers für Übersetzungstools, die diesen Anforderungen entsprechen, hat die Firma Trados [1] mit ihrer umfangreichen Übersetzungssoftware. Gerade für Anwender von Linux hat die Sache allerdings einen Haken: Zum einen arbeiten die Trados-Tools auf Basis von Microsoft Word/Office, zum anderen sind schon für die Einstiegsversion, die zudem nur fünf Sprachen unterstützt, etwa 800 Euro zu berappen. Insbesondere wegen der engen Verzahnung der in der Lokalisierung eingesetzten Anwendungen stellte Linux als Platform für vollberufliche Übersetzer bisher keine Alternative dar. Im Grunde hatte die Lokalisierungsbranche keine andere Wahl, als die nahezu ausschließlich für Windows verfügbaren Übersetzungsanwendungen einzusetzen.

Mit seinen Java-basierten, plattformübergreifenden Übersetzungstools XLIFF Translation Editor, TMX Editor und Dictionary Editor setzt das Unternehmen Heartsome [2] aus Singapur nun an, diese unbefriedigende Situation zu ändern. Die alle drei Programme umfassende Heartsome Translation Suite richtet sich an Übersetzungsagenturen. Sie schlägt mit rund 400 US-Dollar, zu Buche und bietet volle Datenbankunterstützung. Die in einer Personal Edition angebotenen Einzelanwendungen kosten jeweils zwischen 68 und 88 US-Dollar. Ihre Datenbankunterstützung besteht aus einer integrierten Datenbank, hinter der sich Cloudscape/Apache Derby verbirgt. Die Heartsome-Übersetzungstools sind für Linux, Mac OS X und Windows verfügbar und passen sich durch entsprechende Bindings, zum Beispiel GTK+ für die Linux-Version, optisch nahtlos in den jeweiligen Desktop ein. Laut Hersteller läuft die Linux-Version auch unter Solaris/Intel. Installationspakete für Solaris/Sparc sind auf Anfrage erhältlich. Dieser Artikel befasst sich mit einer Preview der Version 5.

Begriffe

Translation Memory: Ein Translation Memory (kurz: TM) speichert Ausgangs- und Zielsprachensegmente, die zusammen eine Übersetzungseinheit bilden, paarweise in einer Datenbank ab, um deren Wiederverwendbarkeit für zukünftige Übersetzungen zu ermöglichen.

TMX (Translation Memory eXchange) ist ein auf XML basierendes Format für Translation Memories, siehe auch [3].

XLIFF (XML Localisation Interchange File Format): XLIFF ist eine XML-Spezifikation zum verlustfreien Datenaustausch von Lokalisierungsinformationen, siehe auch [4].

Fuzzy Match: Als Fuzzy Match bezeichnet man den prozentualen Übereinstimmungsgrad zweier Übersetzungssegmente. Vergleicht man eine zu übersetzende Datei mit dem Inhalt eines TM, erhält man eine kategorisierte Analyse der Treffer. Diese hilft bei der Planung und Rechnungsstellung.

TBX (TermBase eXchange) ist ein offenes XML-Format für Terminologiedaten. Anwendungen, die dieses Format unterstützen, können Terminologiebestände untereinander austauschen und pflegen, siehe auch [6].

TMX Editor

Mit dem TMX Editor lassen sich Translation Memories im TMX-Format (siehe Kasten "Begriffe") der Level 1 und 2 erstellen und bearbeiten. Der Unterschied zwischen Level 1 und Level 2 besteht darin, dass Formatierungs-Tags nur von letzterem unterstützt werden. Das Level 2 TMX-Format ist deshalb für nicht-textbasierte Dateiformate in der Regel vorzuziehen.Die Sprachenunterstützung sämtlicher Heartsome-Tools erstreckt sich auch auf bidirektionale Sprachen wie Arabisch oder Hebräisch sowie solche mit Doppelbyte-Zeichensatz (DBCS), etwa Japanisch oder Chinesisch. Der Vorteil des TMX-Formates gegenüber proprietären Lösungen besteht darin, dass es auf einem offenen Standard basiert. So kann es praktisch jede anerkannte Lokalisierungssoftware weiterverarbeiten.

Das Programm starten Sie durch Eingabe von tmxedit. Die Einbindung eines Translation Memories im TMX-Format beginnt mit der Einrichtung einer Datenbank mittels Database | Create Database. Der Editor unterstützt die Datenbanken MySQL, DB2, Firebird, MS SQL Server 2000, Oracle 10g sowie die als Internal bezeichnete integrierte Datenbank, die ihre Daten im Unterverzeichnis database/ unterhalb des Installationspfades abspeichert.

Ist eine Datenbank auf dem System schon vorhanden, aber noch nicht eingebunden, holen Sie dies unter Database | Add Database nach. Der Import der TMX-Dateien erfolgt mit Database | Import TMX File. Im daraufhin erscheinenden Dialogfenster wählen Sie die Datenbank und die zu importierende TMX-Datei aus und bestätigen mit Import. Nach erfolgtem Import steht das Translation Modul (TM) für Übersetzungen mit dem XLIFF Translation Editor zur Verfügung.

Beim Import einer durch eine andere Anwendung erzeugten TMX-Datei kann es vorkommen, dass eine Warnmeldung bezüglich unbekannter Sprachencodes erscheint. In den meisten Fällen liegt das Problem daran, dass die Sprachcodes in der TMX-Datei in Großbuchstaben angegeben sind (zum Beispiel EN-US), im TMX Editor diese Sprache aber als en-us aufgeführt ist.

Abhilfe kann man hier auf verschiedene Weise schaffen: Eine Möglichkeit besteht darin, die in der TMX-Datei verwendeten Sprachkürzel durch vorhandene Entsprechungen zu ersetzen, indem man Translation Units | Change Language Codes aufruft. Im daraufhin erscheinenden Dialogfenster tauscht man die in der TMX-Datei benutzten Kürzel durch passende Entsprechungen aus und bestätigt die Ersetzungen durch Klicken auf Update. Eine andere Möglichkeit ist, nicht vorhandene Sprachcodes über Options | Language Codes hinzuzufügen, wobei bei der Verwendung von bidirektionalen Sprachen zu beachten ist, dass das entsprechende Auswahlfeld auf Yes gesetzt ist.

Abbildung 1: TMX Editor mit geöffnetem Translation Memory.

Als Stresstest musste der TMX-Editor ein mit TRADOS erzeugtes TM im TMX-Format mit ca. 40.000 Übersetzungseinheiten importieren. Auf einem hardwareseitig gut ausgestatteten System dauerte der Vorgang knapp drei Stunden. Zwar handelte es sich hierbei um ein über Jahre gepflegtes und komplettes TM und damit um einen einmaligen Vorgang. Dennoch stellt diese Zeitspanne für jemanden, der häufig mit großen TMX-Dateien arbeitet, ein nicht zu unterschätzendes Hindernis dar.

Eine Supportanfrage auf der Mailingliste des Herstellers wurde prompt durch einen Entwickler beantwortet. Das Problem ist Heartsome bekannt, der Hersteller arbeitet aber noch an einer Lösung. Der von Heartsome erhaltene Tipp, jedem Translation-Unit-Element (TU) (siehe Abb. 2) das Attribut tuid hinzuzufügen, reduzierte die für den Import benötigte Zeit immerhin von etwa 180 auf 80 Minuten.

Abbildung 2: Ein TU-Element einer TMX-Datei. In Abb. 3 ist das gleiche Segment während der Bearbeitung zu sehen.

Der Import von TMX-Dateien ist auch über den XLIFF Translation Editor möglich, es muss also nicht jeder Übersetzer über einen TMX Editor verfügen. Die vielfachen Bearbeitungsmöglichkeiten machen den TMX Editor in erster Linie für jene interessant, die sich häufig mit der Organisation und Bearbeitung von Translation Memories befassen.

Außer den üblichen Funktionen wie Suchen und Ersetzen, Zusammenführen und Aufteilen von Übersetzungssegmenten beherrscht der TMX Editor auch das so genannte Alignment, das Erzeugen eines TM im TMX-Format aus Dateien der Ausgangssprache und deren Übersetzungen. Diese Funktion ist zum Beispiel für Unternehmen interessant, die ihre Übersetzungen bisher ohne Translation Memories erstellten, oder wenn die zuvor erstellten Translation Memories, aus welchen Gründen auch immer, nicht mehr zur Verfügung stehen.

Die Funktion findet sich unter Tasks | Align Two Files. Ein zweispaltiges Dialogfenster fordert zur Eingabe der Informationen zu Ausgangs- und Zieldatei auf. Beide Dateien müssen im gleichen Format vorliegen. Der TMX Editor unterstützt die Formate Star-/OpenOffice, RTF, HTML, JavaScript, Text, PO (gettext-kompatible Portable Objects-Datei) und XML.

XLIFF Translation Editor

Das Herzstück der drei Übersetzungstools bildet der XLIFF Translation Editor, in welchem die eigentliche Übersetzung stattfindet. Er unterstützt die Formate Star-/OpenOffice, RTF, HTML, JavaScript, Java Properties, Text, PO, XML und – gegenwärtig mit Einschränkungen – MIF (FrameMaker). Wie der Name schon andeutet, verarbeitet der XLIFF Translation Editor Dateien, die dem XML-Standard XLIFF (siehe Kasten "Begriffe") entsprechen.

Der Editor konvertiert dazu die zur Übersetzung bestimmten Dateien zuerst in das XLIFF-Format und nach Abschluß der Übersetzung in ihr ursprüngliches Format zurück. Im Idealfall besteht das Ergebnis in einer übersetzten Datei, deren Format und Layout genau dem der Ursprungsdatei entspricht.

Abbildung 3: Das volle Programm: XLIFF Translation Editor mit darüber liegendem Kontext-Fenster.

Nach dem Programmstart durch Eingabe von xlfedit beginnt die Übersetzung mit dem Anlegen eines neues Projektes über Projects | Create New Project. In dem sich daraufhin öffnenden Dialogfenster navigiert man zum gewünschten Verzeichnis und gibt im Feld Name: den Namen der Projektdatei inklusive Dateiendung .xlp an.

Im nächsten Fenster stellen Sie die globalen Projekteinstellungen wie Dateiformat, Ausgangs- und Zielsprache sowie deren Zeichensatz und dem Speicherort von XLIFF- und übersetzten Dateien ein. Zusätzlich können Sie bereits die für die Übersetzung vorgesehenen Dateien hinzugefügen.

Leider bietet Heartsome noch keine integrierte Möglichkeit um kundenspezifische Verzeichnisstrukturen in Profilen zu erfassen. So müssen die entsprechenden Einstellungen bei jedem Projekt neu vorgenommen werden.

Sind alle Projekteinstellungen gemacht, konvertieren Sie die zum Projekt hinzugefügten Dateien über Projects | Convert project files to XLIFF format in das XLIFF-Format. Der Translation Editor legt die Dateien dann in dem zuvor angegeben Verzeichnis ab. Damit kann deren Übersetzung beginnen. Nach der (optionalen) Auswahl des gewünschten TM über Database | Select Database öffnen Sie die in das XLIFF-Format konvertierten Dateien (zu erkennen an der Endung .xlf) über File | Open File.

Das Programmfenster ist in vier gleich große Bereiche unterteilt. Der Bereich oben links enthält das zu übersetzende Textsegment der Ausgangssprache. Die jeweilige Übersetzung wird in das Feld darunter eingegeben. Der Bereich oben rechts zeigt an, ob dieses Textsegment im ausgewählten TM enthalten ist und zu welchem Prozentsatz es dem aktuell zur Übersetzung angebotenen ausgangssprachlichen Segment entspricht.

Findet der Editor eine Fuzzy-Match-Entsprechung (siehe Kasten "Begriffe"), zeigt er im Bereich unten rechts einen Übersetzungsvorschlag an . Diesen übernimmt der Übersetzer bei zureichender Übereinstimmung durch einen Klick auf Accept Translation. Der Eintrag lässt sich dann noch nachbearbeiten. [Strg]+[L] zeigt die vorangegangenen und die nachfolgenden Segmente in einem separaten Fenster an. Diese Funktion ist sehr nützlich, da sich viele Einträge nur im Kontext passend übersetzen lassen. Die wichtigen Funktionen zum Navigieren innerhalb einer Datei sind sowohl über das Menü als auch über leicht einzuprägende Shortcuts erreichbar. Zusätzlich erleichtern Schaltflächen die Navigation.

Positiv fallen die Funktionen zum Einfügen von Notizen auf. Hier können Übersetzer Kommentare eingeben, zum Beispiel, weil ihnen etwas unklar ist und sie den Grund dafür festhalten wollen, um das Problem später zu lösen. Diese Notizen können auch während des Korrekturlesens verwendet werden.

Pfiffig umgesetzt hat Heartsome auch den Umgang mit Tags, deren Ansicht sich mit [Strg]+[K] ein- und ausschalten lässt. Auch in deaktiviertem Zustand werden Formatierungsanweisungen in Kurzform und farblich abgesetzt dargestellt, zum Beispiel durch «1» oder «2». Der Übersetzer muss gar nicht wissen, was sich dahinter verbirgt, sondern fügt den erforderlichen Tag einfach mit [Strg]+[#] an der entsprechenden Stelle in seiner Übersetzung ein.

Die ebenfalls vorhandene Möglichkeit, ein so genanntes Quick TM mittels Quick TM | Select database for Quick TM als Terminologie-Nachschlagewerk einzubinden erwies sich im Test nicht als praxistauglich, da ein gesuchter Begriff mit dem Eintrag im Quick TM exakt übereinstimmen muss. Auf Anfrage teilte Heartsome mit, dass der Fehler bekannt sei und demnächst behoben werde.

Freie Alternative: OmegaT

Wer unter Linux übersetzen möchte und dabei auf den Einsatz von Translation Memories angewiesen ist, kann mit OmegaT [7] auch auf freie Software zurückgreifen. Wie die Tools von Heartsome läuft auch OmegaT unter Linux, Windows und Mac OS X.

OmegaT basiert ebenfalls auf Java, welches mindestens in Version 1.4.2 installiert sein sollte. Nach dem Start von OmegaT mit java -jar OmegaT.jar öffnen sich zwei Fenster: OmegaT und Match and Glossary Viewer. Auch OmegaT verwaltet Übersetzungen in Projekten. Sie müssen deshalb zuerst mit File | Create new project ein neues Projekt anlegen. Der Projektname dient gleichzeitig als Verzeichnisname für die Projektdateien. Nach dem Speichern des Projektnamens erscheint ein Fenster mit projektbezogenen Einstellungen. Die von OmegaT vorgeschlagene Verzeichnisstruktur sieht folgendermaßen aus:

source/ (zu übersetzende Dateien)

target/ (übersetzte Dateien)

glossary/ (Wörterbuch mit Endung .tab)

tm/ (TMX-kompatibles Translation Modul Version 1.1)

Lediglich die Einstellungen zu Source language und Target language müssen angepasst werden, etwa en-us für US-Englisch und de-de für Deutsch. Die zu übersetzenden Dateien müssen Sie anschließend von Hand in das Verzeichnis source/ und – so vorhanden – Wörterbücher nach glossary/ und TMX-kompatible TM nach tm/ kopieren. Nach dem Öffnen eines Projektes über File | Open zeigt OmegaT eine Liste der zu übersetzenden Dateien an. Das Programm unterstützt zurzeit folgende Dateiformate: OpenOffice Writer, Text, HTML und XHTML. Obwohl die eher spartanisch anmutende Benutzeroberfläche ohne Symbole und Schaltflächen gestaltet ist, erweist sich die Navigation dank einfacher Tastenkombinationen als effizient. Eingebundene TMs lassen sich nach Schlagwörtern durchsuchen, im Wörterbuch gefundene Einträge zeigt das Programm automatisch an. Nach erfolgter Übersetzung konvertieren Sie die Datei über File | Compile translation zurück in das Ausgangsformat. Die mit einem OpenOffice-Dokument durchgeführte Testübersetzung verlief problemlos.

Die stichprobenartige Übersetzung verschiedener OpenOffice-Dokumente brachte keinerlei Überraschungen zutage. Im Gegenteil: Der Editor konvertierte alle Dateien, egal ob Text, Tabellenkalkulation oder Präsentation, problemlos in ihr Ursprungsformat zurück, ohne dass sich am Layout etwas geändert hätte. Eine im OpenOffice-Format gespeicherte Tabelle mit 80 Arbeitsblättern erfordert für die Konvertierung in das XLIFF-Format mit zehn Minuten zwar reichlich Zeit, ließ sich jedoch danach sehr flüssig bearbeiten und unter Beibehaltung sämtlicher Formatierungen zurück in das OpenOffice-Format konvertieren. Trotz beworbener Excel-Unterstützung scheitern bei derart umfangreichen Dateien mitunter auch etablierte und weitaus kostenspieligere Konkurrenzprodukte.

Auch PO-Dateien funktionierten nach ihrer Konvertierung problemlos, wobei deren Kompilierung jedoch nicht durch die Heartsome-Anwendungen erfolgt. Unter Linux zumindest ist KBabel [8] da wohl die einfachere Wahl. Die Bearbeitung von MIF-Dateien ist jedoch noch nicht ausgereift: Das Programm bietet dem Übersetzer Elemente der Referenzseiten zur Übersetzung an, obwohl er diese nicht übersetzen darf. Der Übersetzer muß hier also genau wissen, welche Textsegmente während der Übersetzung auszulassen sind. Zusätzlich arbeitet Hearsome auch an der umfassenden Unterstützung für Adobe InDesign CS.

Abbildung 4: Terminologiepflege im Dicionary Editor .

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 12/2014: ANONYM & SICHER

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 4 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...
Brother Drucker MFC-7420
helmut berger, 11.11.2014 12:40, 1 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu 14.04-Nutzer...
Treiber für Drucker brother MFC-7420
helmut berger, 10.11.2014 16:05, 2 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu12.14-Nutzer u...
Can't find X includes.
Roland Welcker, 05.11.2014 14:39, 1 Antworten
Diese Meldung erhalte ich beim Versuch, kdar zu installieren. OpenSuse 12.3. Gruß an alle Linuxf...
DVDs über einen geeigneten DLNA-Server schauen
GoaSkin , 03.11.2014 17:19, 0 Antworten
Mein DVD-Player wird fast nie genutzt. Darum möchte ich ihn eigentlich gerne abbauen. Dennoch wür...