Deutsche Umlaute fehlen bei Konvertierung und Kopieren aus LAtex erzeugten PDF-Dateien

Dieter Drewanz - Donnerstag, 18. Februar 2010 12:06:11 - 6 Antworten

Hallo LC,

ein Problem habe ich bei "copy and paste" bei PDF-Dokumenten und bin auf der Suche nach einer Lösung.

Wenn ich ein PDF aus OpenOffice heraus erzeuge, dann kann ich aus einem pdf-Viewer, xpdf und okular kopieren und in OpenOffice einfügen mit korrekten deutschen Umlauten.

Wenn ich ein PDF aus LATEX (kile) heraus erzeuge, dann werden die deutschen Umlaute auch korrekt angezeigt mit xpdf und okular. Wenn ich dann den Text kopere und in OpenOffice (kwrite etc. auch getestet), dann sind die Umlaute nur Müllzeichen.

Leider ist es immer das gleiche Müllzeichen, so dass keine externe Konvertierung mittels Skripte möglich ist. Die Anwendungen pdftotext und pdftohtml haben hier auch das Probleme. Verschiedene Optionen mit latin1, utf8 usw. haben nicht geholfen. Mit Suchmaschinen im Internet konnte ich bisher noch keine Lösung finden. Auf dem Rechner befindet sich eine aktuelle Sidux-Version (Debian basiert), vom 15. Nov 2009, letztes Update Anfang Februar durchgeführt.

Wäre schön, wenn hier Jemand eine Lösung parat hätte.

Gruß
Dieter

Antworten
Etwas Fehl am Platz
Thorsten Donig, Donnerstag, 18. Februar 2010 18:35:55
Ein/Ausklappen

Eigentlich bist Du mit dieser Frage in einem einschlägigen LaTeX-Forum besser aufgehoben [1,2]. Denn zur Beantwortung deiner Frage ist es notwendig, den Quelltext zu kennen. Zumindest aber ist ein auf das Wesentliche reduziertes und das unerwünschte Verhalten reproduzierendes Minimalbeispiel wichtig [3]. Das hier zu posten würde aber den Rahmen sprengen. Wenn Du aber in einem entsprechenden Forum gezielte Fragen stellst und konkrete Beispiele angibst, kann dir recht schnell geholfen werden. In den genannten Foren bin ich selbst übrigens auch aktiv.

[1] LaTeX-Forum - mrunix.de ( http://www.mrunix.de/forums/forumdisplay.php?f=38 )
[2] Portal .:. goLateX .:. deutschsprachiges LaTeX Forum ( http://www.golatex.de )
[3] Hilfe für LaTeX-Einsteiger ( http://www.minimalbeispiel.de )


Bewertung: 233 Punkte bei 73 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
50:50 Chance
Dieter Drewanz, Donnerstag, 18. Februar 2010 20:24:20
Ein/Ausklappen

Hallo Thorsten,

danke für Deine Antwort. Eine Untersuchung des kryptischen Ergebnisses in pdf mit einem Text/Hex-Viewer hilft zwar nicht weiter, aber wenn das Ergebnis mit einem pdftohtml Konverter (probiert mit auch mit pdftohtml -c -enc Latin1 und UTF-8) verglichen wird, ergibt sich:

OpenOffice->pdf->html:
bis mögliche Probleme

Latex->dvi->pdf->html:
bis&nbsp;m¨</span></nobr></DIV>
<DIV style="position:absolute;top:498;left:377"><nobr><span class="ft0">ogliche&nbsp;Probleme

Somit läuft hier etwas im Detail ganz anders ab. Der Unterschied liegt also im dvi-file und dem Weg von dvi nach pdf. Somit wäre mit sed (N wird benötigt um die nächste Zeile mit einzubeziehen) auf der html-Ausgabe eine etwas arg umständliche Korrektur möglich.

Die Browser können dies leider alle nicht richtig wiedergeben, wie auch OpenOffice es auch nicht richtig einlesen kann. Zum Nachvollziehen reicht die Minimalkonfiguration (mit german/ngerman) und ein Satz mit genügend öüäß (Beim Nutzen zu vieler unterschiedlichen Foren wird es irgendwann unübersichtlich mit den Usernamen und Passwörtern).

Gruß
Dieter




Bewertung: 160 Punkte bei 100 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Minimales Beispiel
Thorsten Donig, Donnerstag, 18. Februar 2010 21:33:02
Ein/Ausklappen

Passwort-Sammlung hin oder her. Für spezifische Fragen sollte man das richtige Forum wählen. Denn ordentliche Problemlösungen sind mehr wert als ein möglichst schmales Portfolio an Passworten.

Wenn es denn mit minimalem Code nachvollziehbar ist, kannst Du gerne folgendes versuchen. Kommentare beachten! (Lässt sich hier leider schlecht formatieren.)


\documentclass[11pt,a4paper,ngerman]{article}
\usepackage[T1]{fontenc} % Cork Encoding einschalten (wichtig!)
\usepackage{selinput} % Eingabecodierung wählen ...
\SelectInputMappings{% % ... und mit diesen Glyphen festlegen
adieresis={ä},
germandbls={ß},
Euro={€}
}
\usepackage{babel} % Sprache festlegen, Option in der Dokumentklasse
%\usepackage{cmap}

\begin{document}
äöüßÄÖÜ
\end{document}


Das Beispiel verwendet aktuellste Pakete. Für nähere Informationen bitte die entsprechende Anleitung lesen [1]. Sollte es damit noch nicht funktionieren, notfalls das Paket »cmap« einbinden [2]. Alternativ geht es vielleicht auch mit einer Postscript-Schrift wie »lmodern« [3]. Für deutsche Dokumente »babel« benutzen [4].

Die Konvertierung von DVI direkt nach PDF ist selten ratsam. Lieber den Weg über PS gehen.


[1] CTAN View package information ( http://ctan.org/pkg )
[2] http://ctan.org/pkg/cmap
[3] http://ctan.org/pkg/lmodern
[4] http://ctan.org/pkg/babel


Bewertung: 152 Punkte bei 144 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
Anlage
Dieter Drewanz, Donnerstag, 18. Februar 2010 22:42:54
Ein/Ausklappen

Aus dem Freenode chatroom #latex:

\usepackage[latin1]{inputenc}
and
\usepackage[T1]{fontenc}
(letzteres habe ich ergänzt)

thanks it is working nearly. some äöü now there. but sometimes there are now "bewuÿt #etwas" inspite of "bewußt etwas" , Ober#äche statt Oberfläche.
(Soweit ein mäßger Teilerfolg, wenn aus dem pdf kopiert wird, leider)





Bewertung: 284 Punkte bei 53 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Anlage
thomas lickteig (unangemeldet), Freitag, 19. Februar 2010 11:20:24
Ein/Ausklappen

\usepackage[utf8x]{inputenc}

verwenden


Bewertung: 255 Punkte bei 52 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Re: Anlage
DieterD (unangemeldet), Freitag, 19. Februar 2010 13:53:50
Ein/Ausklappen

Leider hilft das hier auch nicht weiter. Wenn ich das eintrage, dann gibt es viele Fehlermeldungen. Mache ich die Änderungen Rückgängig geht latex texdatei.tex hartnäckig nicht mehr. Erst wenn Dateien, wie texdatei.toc gelöscht worden sind, geht es erst wieder mit latex zu übersetzen.

Latex verwendet bei der Zeichendarstellung Erweiterungen und auch Workarounds für Sonderzeichen, Liguaturen und Landeszeichensätze.
Es gbt demnach Varianten in pdf, wobei jede Umsetzung nur die eine oder andere Variante jeweil realisiert hat. Also läuft das ganze über 4 Schnittstellen der Umsetzung.

latex->dvi->pdf->klipper->openoffice

Das Probem ist eingekreist. Es betrifft nur nicht-englische Sprachen. Daher gibt es einen Blog, das pdf (z.B. mit convert) in ein Bild umzuwandeln, das mit einer ocr-Anwendung (für Schrifterkennung in einem Scan, im pdf erzeugten Bild natürlich traumhafte 100% Bildqualität vorfindet) in Text umzuwandeln.



Bewertung: 255 Punkte bei 49 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Ähnliche Artikel

  • Mit pdflatex bessere PDF-Dateien erzeugen
    Profi-Textsatz ist und bleibt eine Domäne von LaTeX. Soll das Ausgabeformat PDF sein, liefert pdflatex die besten Ergebnisse.
  • Kommandozeilenkonverter für Office-Formate
    Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.
  • LaTeX-Tipps
    Wer mit LaTeX arbeitet, lernt auch nach vielen Jahren noch Neues über das Textsatzsystem. Das liegt an der Vielfalt der Einstellmöglichkeiten, mit denen Feinarbeiten an Seiten, Absätzen oder sogar einzelnen Wörtern möglich sind. Unsere Tipps helfen u. a. bei Silbentrennung und korrekten Ligaturen.
  • Professioneller Textsatz mit LaTeX – Teil 3
    Nützliche Addons und Werkzeuge erweitern die Möglichkeiten des Textsatzsystems LaTeX weiter. Erzeugen Sie farbige Texte, Literaturverzeichnisse und optimale PDF-Dateien.
  • Einfach losTeXten
    Wenn es ums Setzen von Büchern und Dokumenten geht, gilt LaTeX als erste Wahl. Doch an den vielen Befehlen hat der Anfänger ganz schön zu knabbern. Mit praktischen Funktionen schafft der KDE-LaTeX-Editor Kile Abhilfe.

Aktuelle Fragen

Probleme mit der Maus
Thomas Roch, 21.02.2017 13:43, 1 Antworten
Nach 20 Jahren Windows habe ich mich zu Linux Ubuntu probeweise durchgerungen!!! Installation - k...
KWin stürzt ab seit Suse Leap 42.2
Wimpy *, 21.02.2017 09:47, 4 Antworten
OpenSuse 42.2 KDE 5.8.3 Framework 5.26.0 QT 5.6.1 Kernel 4.4.46-11-default 64-bit Open-GL 2....
Shell-Befehl zur Installation von Scanner-Treiber
Achim Zerrer, 15.02.2017 12:13, 10 Antworten
Hallo, ich habe Einen Brother Drucker mit Scanner. Nachdem ich mit Hilfe der Community den Druck...
kiwix öffnet ZIM Datei nicht
Adrian Meyer, 13.02.2017 18:23, 1 Antworten
Hi, ich nutze Zim Desktop für mein privates Wiki. Fürs Handy habe ich mir kiwix heruntergelade...
registration
Brain Stuff, 10.02.2017 16:39, 1 Antworten
Hallo, Das Capatcha auf der Registrierungsseite von linux-community ist derartig schlecht gema...

Jetzt auf den Mailinglisten

Re: [EasyLinux-Ubuntu] Installation von Mint 18.1 geht nicht
Rainer, 26.02.2017 18:50
Hallo Gerhard, Am Sun, 26 Feb 2017 16:51:07 +0100 schrieb "Gerhard Eilers" : > > Die D...
Re: [EasyLinux-Ubuntu] Installation von Mint 18.1 geht nicht
Gerhard Eilers, 26.02.2017 16:51
Hallo Rainer Die DVD für Linux Mint 18.1 habe ich vom linuxmint.com, dort aus dem Downloadbereich herunter...
Re: [EasyLinux-Ubuntu] Installation von Mint 18.1 geht nicht
Rainer, 26.02.2017 14:03
Hallo Gerhard, mir scheint, dass bei Dir schon im ersten Ansatz irgendetwas falsch läuft. Am Sun, 26 Feb...
Re: [EasyLinux-Ubuntu] Installation von Mint 18.1 geht nicht
Gerhard Eilers, 26.02.2017 10:51
Hallo Alfred, Mathias und alle sonst noch Installiert ist im Moment Windows 8.1 Home. Mit Laufwerk C: und Lau...
Re: [EasyLinux-Ubuntu] Claws_Mail:_Speichern_von_Anhängen
Rainer, 26.02.2017 10:44
Hallo Roman, Am Sun, 26 Feb 2017 10:09:56 +0100 schrieb Roman Brusa : > Hi, Rainer schrieb am Sun, 26...