Deutsche Umlaute fehlen bei Konvertierung und Kopieren aus LAtex erzeugten PDF-Dateien

Autor

Donnerstag, 18. Februar 2010 12:06:11

Hallo LC,

ein Problem habe ich bei "copy and paste" bei PDF-Dokumenten und bin auf der Suche nach einer Lösung.

Wenn ich ein PDF aus OpenOffice heraus erzeuge, dann kann ich aus einem pdf-Viewer, xpdf und okular kopieren und in OpenOffice einfügen mit korrekten deutschen Umlauten.

Wenn ich ein PDF aus LATEX (kile) heraus erzeuge, dann werden die deutschen Umlaute auch korrekt angezeigt mit xpdf und okular. Wenn ich dann den Text kopere und in OpenOffice (kwrite etc. auch getestet), dann sind die Umlaute nur Müllzeichen.

Leider ist es immer das gleiche Müllzeichen, so dass keine externe Konvertierung mittels Skripte möglich ist. Die Anwendungen pdftotext und pdftohtml haben hier auch das Probleme. Verschiedene Optionen mit latin1, utf8 usw. haben nicht geholfen. Mit Suchmaschinen im Internet konnte ich bisher noch keine Lösung finden. Auf dem Rechner befindet sich eine aktuelle Sidux-Version (Debian basiert), vom 15. Nov 2009, letztes Update Anfang Februar durchgeführt.

Wäre schön, wenn hier Jemand eine Lösung parat hätte.

Gruß
Dieter

Dieter Drewanz

6 Antworten


Antworten
Etwas Fehl am Platz
Thorsten Donig, Donnerstag, 18. Februar 2010 18:35:55
Ein/Ausklappen

Eigentlich bist Du mit dieser Frage in einem einschlägigen LaTeX-Forum besser aufgehoben [1,2]. Denn zur Beantwortung deiner Frage ist es notwendig, den Quelltext zu kennen. Zumindest aber ist ein auf das Wesentliche reduziertes und das unerwünschte Verhalten reproduzierendes Minimalbeispiel wichtig [3]. Das hier zu posten würde aber den Rahmen sprengen. Wenn Du aber in einem entsprechenden Forum gezielte Fragen stellst und konkrete Beispiele angibst, kann dir recht schnell geholfen werden. In den genannten Foren bin ich selbst übrigens auch aktiv.

[1] LaTeX-Forum - mrunix.de ( http://www.mrunix.de/forums/forumdisplay.php?f=38 )
[2] Portal .:. goLateX .:. deutschsprachiges LaTeX Forum ( http://www.golatex.de )
[3] Hilfe für LaTeX-Einsteiger ( http://www.minimalbeispiel.de )


Bewertung: 165 Punkte bei 12 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
50:50 Chance
Dieter Drewanz, Donnerstag, 18. Februar 2010 20:24:20
Ein/Ausklappen

Hallo Thorsten,

danke für Deine Antwort. Eine Untersuchung des kryptischen Ergebnisses in pdf mit einem Text/Hex-Viewer hilft zwar nicht weiter, aber wenn das Ergebnis mit einem pdftohtml Konverter (probiert mit auch mit pdftohtml -c -enc Latin1 und UTF-8) verglichen wird, ergibt sich:

OpenOffice->pdf->html:
bis mögliche Probleme

Latex->dvi->pdf->html:
bis&nbsp;m¨</span></nobr></DIV>
<DIV style="position:absolute;top:498;left:377"><nobr><span class="ft0">ogliche&nbsp;Probleme

Somit läuft hier etwas im Detail ganz anders ab. Der Unterschied liegt also im dvi-file und dem Weg von dvi nach pdf. Somit wäre mit sed (N wird benötigt um die nächste Zeile mit einzubeziehen) auf der html-Ausgabe eine etwas arg umständliche Korrektur möglich.

Die Browser können dies leider alle nicht richtig wiedergeben, wie auch OpenOffice es auch nicht richtig einlesen kann. Zum Nachvollziehen reicht die Minimalkonfiguration (mit german/ngerman) und ein Satz mit genügend öüäß (Beim Nutzen zu vieler unterschiedlichen Foren wird es irgendwann unübersichtlich mit den Usernamen und Passwörtern).

Gruß
Dieter




Bewertung: 76 Punkte bei 12 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Minimales Beispiel
Thorsten Donig, Donnerstag, 18. Februar 2010 21:33:02
Ein/Ausklappen

Passwort-Sammlung hin oder her. Für spezifische Fragen sollte man das richtige Forum wählen. Denn ordentliche Problemlösungen sind mehr wert als ein möglichst schmales Portfolio an Passworten.

Wenn es denn mit minimalem Code nachvollziehbar ist, kannst Du gerne folgendes versuchen. Kommentare beachten! (Lässt sich hier leider schlecht formatieren.)


\documentclass[11pt,a4paper,ngerman]{article}
\usepackage[T1]{fontenc} % Cork Encoding einschalten (wichtig!)
\usepackage{selinput} % Eingabecodierung wählen ...
\SelectInputMappings{% % ... und mit diesen Glyphen festlegen
adieresis={ä},
germandbls={ß},
Euro={€}
}
\usepackage{babel} % Sprache festlegen, Option in der Dokumentklasse
%\usepackage{cmap}

\begin{document}
äöüßÄÖÜ
\end{document}


Das Beispiel verwendet aktuellste Pakete. Für nähere Informationen bitte die entsprechende Anleitung lesen [1]. Sollte es damit noch nicht funktionieren, notfalls das Paket »cmap« einbinden [2]. Alternativ geht es vielleicht auch mit einer Postscript-Schrift wie »lmodern« [3]. Für deutsche Dokumente »babel« benutzen [4].

Die Konvertierung von DVI direkt nach PDF ist selten ratsam. Lieber den Weg über PS gehen.


[1] CTAN View package information ( http://ctan.org/pkg )
[2] http://ctan.org/pkg/cmap
[3] http://ctan.org/pkg/lmodern
[4] http://ctan.org/pkg/babel


Bewertung: 138 Punkte bei 23 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
Anlage
Dieter Drewanz, Donnerstag, 18. Februar 2010 22:42:54
Ein/Ausklappen

Aus dem Freenode chatroom #latex:

\usepackage[latin1]{inputenc}
and
\usepackage[T1]{fontenc}
(letzteres habe ich ergänzt)

thanks it is working nearly. some äöü now there. but sometimes there are now "bewuÿt #etwas" inspite of "bewußt etwas" , Ober#äche statt Oberfläche.
(Soweit ein mäßger Teilerfolg, wenn aus dem pdf kopiert wird, leider)





Bewertung: 164 Punkte bei 11 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Anlage
thomas lickteig (unangemeldet), Freitag, 19. Februar 2010 11:20:24
Ein/Ausklappen

\usepackage[utf8x]{inputenc}

verwenden


Bewertung: 122 Punkte bei 7 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Re: Anlage
DieterD (unangemeldet), Freitag, 19. Februar 2010 13:53:50
Ein/Ausklappen

Leider hilft das hier auch nicht weiter. Wenn ich das eintrage, dann gibt es viele Fehlermeldungen. Mache ich die Änderungen Rückgängig geht latex texdatei.tex hartnäckig nicht mehr. Erst wenn Dateien, wie texdatei.toc gelöscht worden sind, geht es erst wieder mit latex zu übersetzen.

Latex verwendet bei der Zeichendarstellung Erweiterungen und auch Workarounds für Sonderzeichen, Liguaturen und Landeszeichensätze.
Es gbt demnach Varianten in pdf, wobei jede Umsetzung nur die eine oder andere Variante jeweil realisiert hat. Also läuft das ganze über 4 Schnittstellen der Umsetzung.

latex->dvi->pdf->klipper->openoffice

Das Probem ist eingekreist. Es betrifft nur nicht-englische Sprachen. Daher gibt es einen Blog, das pdf (z.B. mit convert) in ein Bild umzuwandeln, das mit einer ocr-Anwendung (für Schrifterkennung in einem Scan, im pdf erzeugten Bild natürlich traumhafte 100% Bildqualität vorfindet) in Text umzuwandeln.



Bewertung: 89 Punkte bei 7 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Ähnliche Artikel

  • Mit pdflatex bessere PDF-Dateien erzeugen
    Profi-Textsatz ist und bleibt eine Domäne von LaTeX. Soll das Ausgabeformat PDF sein, liefert pdflatex die besten Ergebnisse.
  • Kommandozeilenkonverter für Office-Formate
    Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.
  • Professioneller Textsatz mit LaTeX – Teil 3
    Nützliche Addons und Werkzeuge erweitern die Möglichkeiten des Textsatzsystems LaTeX weiter. Erzeugen Sie farbige Texte, Literaturverzeichnisse und optimale PDF-Dateien.
  • Es muss nicht immer PowerPoint sein
    Ansprechende Präsentationen benötigen kein StarImpress, PowerPoint & Co., denn die Slides lassen sich genauso flexibel mit freier Software erstellen. Dank des Satzsystems TeX/LaTeX und dem PDF-Ausgabeformat muss man dabei nicht auf die Effektvielfalt der Konkurrenz verzichten.
  • Einfach losTeXten
    Wenn es ums Setzen von Büchern und Dokumenten geht, gilt LaTeX als erste Wahl. Doch an den vielen Befehlen hat der Anfänger ganz schön zu knabbern. Mit praktischen Funktionen schafft der KDE-LaTeX-Editor Kile Abhilfe.

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

ICEauthority
Thomas Mann, 17.12.2014 14:49, 2 Antworten
Fehlermeldung beim Start von Linux Mint: Could not update ICEauthority file / home/user/.ICEauth...
Linux einrichten
Sigrid Bölke, 10.12.2014 10:46, 5 Antworten
Hallo, liebe Community, bin hier ganz neu,also entschuldigt,wenn ich hier falsch bin. Mein Prob...
Externe USB-Festplatte mit Ext4 formatiert, USB-Stick wird nicht mehr eingebunden
Wimpy *, 02.12.2014 16:31, 0 Antworten
Hallo, ich habe die externe USB-FP, die nur für Daten-Backup benutzt wird, mit dem YaST-Partition...
Steuern mit Linux
Siegfried Markner, 01.12.2014 11:56, 2 Antworten
Welches Linux eignet sich am besten für Steuerungen.
Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 5 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...

Jetzt auf den Mailinglisten

Re: [EasyLinux-Suse] Einstellung_SUSE_gegenüber
Achim Pabel, 18.12.2014 11:09
Hallo Frank, > Jedoch behalte ich mir vor, seine (oder ihre) Meinung zu > bewerten, meistens aber unko...
Re: [EasyLinux-Ubuntu] Suchmaschine: Was ist das denn?
Hartmut Haase, 18.12.2014 10:30
Hallo Liste, da wir anscheinend bei einem Linux-User-Browser-Contest gelandet sind, ist hier mein Beitrag:...
Re: [EasyLinux-Ubuntu] nVidia Grafikchip: 3D-Probleme?
Rainer, 18.12.2014 09:00
Hallo zusammen, Am Wed, 17 Dec 2014 22:31:10 +0100 schrieb Rainer : > > > Naja, momentan habe...
Re: [EasyLinux-Ubuntu] Suchmaschine: Was ist das denn?
Uwe Herrmuth, 18.12.2014 00:47
Hallo Rainer, Rainer schrieb am 18.12.2014 um 00:12: >> Vielleicht ist das auch das Stichwort für Dei...
Re: [EasyLinux-Ubuntu] Suchmaschine: Was ist das denn?
Rainer, 18.12.2014 00:12
Hallo Uwe, Am Wed, 17 Dec 2014 23:54:33 +0100 schrieb Uwe Herrmuth : > Hallo Rainer, > > Ra...