Deutsche Umlaute fehlen bei Konvertierung und Kopieren aus LAtex erzeugten PDF-Dateien

Autor

Donnerstag, 18. Februar 2010 12:06:11

Hallo LC,

ein Problem habe ich bei "copy and paste" bei PDF-Dokumenten und bin auf der Suche nach einer Lösung.

Wenn ich ein PDF aus OpenOffice heraus erzeuge, dann kann ich aus einem pdf-Viewer, xpdf und okular kopieren und in OpenOffice einfügen mit korrekten deutschen Umlauten.

Wenn ich ein PDF aus LATEX (kile) heraus erzeuge, dann werden die deutschen Umlaute auch korrekt angezeigt mit xpdf und okular. Wenn ich dann den Text kopere und in OpenOffice (kwrite etc. auch getestet), dann sind die Umlaute nur Müllzeichen.

Leider ist es immer das gleiche Müllzeichen, so dass keine externe Konvertierung mittels Skripte möglich ist. Die Anwendungen pdftotext und pdftohtml haben hier auch das Probleme. Verschiedene Optionen mit latin1, utf8 usw. haben nicht geholfen. Mit Suchmaschinen im Internet konnte ich bisher noch keine Lösung finden. Auf dem Rechner befindet sich eine aktuelle Sidux-Version (Debian basiert), vom 15. Nov 2009, letztes Update Anfang Februar durchgeführt.

Wäre schön, wenn hier Jemand eine Lösung parat hätte.

Gruß
Dieter

Dieter Drewanz

6 Antworten


Antworten
Etwas Fehl am Platz
Thorsten Donig, Donnerstag, 18. Februar 2010 18:35:55
Ein/Ausklappen

Eigentlich bist Du mit dieser Frage in einem einschlägigen LaTeX-Forum besser aufgehoben [1,2]. Denn zur Beantwortung deiner Frage ist es notwendig, den Quelltext zu kennen. Zumindest aber ist ein auf das Wesentliche reduziertes und das unerwünschte Verhalten reproduzierendes Minimalbeispiel wichtig [3]. Das hier zu posten würde aber den Rahmen sprengen. Wenn Du aber in einem entsprechenden Forum gezielte Fragen stellst und konkrete Beispiele angibst, kann dir recht schnell geholfen werden. In den genannten Foren bin ich selbst übrigens auch aktiv.

[1] LaTeX-Forum - mrunix.de ( http://www.mrunix.de/forums/forumdisplay.php?f=38 )
[2] Portal .:. goLateX .:. deutschsprachiges LaTeX Forum ( http://www.golatex.de )
[3] Hilfe für LaTeX-Einsteiger ( http://www.minimalbeispiel.de )


Bewertung: 145 Punkte bei 25 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
50:50 Chance
Dieter Drewanz, Donnerstag, 18. Februar 2010 20:24:20
Ein/Ausklappen

Hallo Thorsten,

danke für Deine Antwort. Eine Untersuchung des kryptischen Ergebnisses in pdf mit einem Text/Hex-Viewer hilft zwar nicht weiter, aber wenn das Ergebnis mit einem pdftohtml Konverter (probiert mit auch mit pdftohtml -c -enc Latin1 und UTF-8) verglichen wird, ergibt sich:

OpenOffice->pdf->html:
bis mögliche Probleme

Latex->dvi->pdf->html:
bis&nbsp;m¨</span></nobr></DIV>
<DIV style="position:absolute;top:498;left:377"><nobr><span class="ft0">ogliche&nbsp;Probleme

Somit läuft hier etwas im Detail ganz anders ab. Der Unterschied liegt also im dvi-file und dem Weg von dvi nach pdf. Somit wäre mit sed (N wird benötigt um die nächste Zeile mit einzubeziehen) auf der html-Ausgabe eine etwas arg umständliche Korrektur möglich.

Die Browser können dies leider alle nicht richtig wiedergeben, wie auch OpenOffice es auch nicht richtig einlesen kann. Zum Nachvollziehen reicht die Minimalkonfiguration (mit german/ngerman) und ein Satz mit genügend öüäß (Beim Nutzen zu vieler unterschiedlichen Foren wird es irgendwann unübersichtlich mit den Usernamen und Passwörtern).

Gruß
Dieter




Bewertung: 51 Punkte bei 38 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Minimales Beispiel
Thorsten Donig, Donnerstag, 18. Februar 2010 21:33:02
Ein/Ausklappen

Passwort-Sammlung hin oder her. Für spezifische Fragen sollte man das richtige Forum wählen. Denn ordentliche Problemlösungen sind mehr wert als ein möglichst schmales Portfolio an Passworten.

Wenn es denn mit minimalem Code nachvollziehbar ist, kannst Du gerne folgendes versuchen. Kommentare beachten! (Lässt sich hier leider schlecht formatieren.)


\documentclass[11pt,a4paper,ngerman]{article}
\usepackage[T1]{fontenc} % Cork Encoding einschalten (wichtig!)
\usepackage{selinput} % Eingabecodierung wählen ...
\SelectInputMappings{% % ... und mit diesen Glyphen festlegen
adieresis={ä},
germandbls={ß},
Euro={€}
}
\usepackage{babel} % Sprache festlegen, Option in der Dokumentklasse
%\usepackage{cmap}

\begin{document}
äöüßÄÖÜ
\end{document}


Das Beispiel verwendet aktuellste Pakete. Für nähere Informationen bitte die entsprechende Anleitung lesen [1]. Sollte es damit noch nicht funktionieren, notfalls das Paket »cmap« einbinden [2]. Alternativ geht es vielleicht auch mit einer Postscript-Schrift wie »lmodern« [3]. Für deutsche Dokumente »babel« benutzen [4].

Die Konvertierung von DVI direkt nach PDF ist selten ratsam. Lieber den Weg über PS gehen.


[1] CTAN View package information ( http://ctan.org/pkg )
[2] http://ctan.org/pkg/cmap
[3] http://ctan.org/pkg/lmodern
[4] http://ctan.org/pkg/babel


Bewertung: 104 Punkte bei 49 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
Anlage
Dieter Drewanz, Donnerstag, 18. Februar 2010 22:42:54
Ein/Ausklappen

Aus dem Freenode chatroom #latex:

\usepackage[latin1]{inputenc}
and
\usepackage[T1]{fontenc}
(letzteres habe ich ergänzt)

thanks it is working nearly. some äöü now there. but sometimes there are now "bewuÿt #etwas" inspite of "bewußt etwas" , Ober#äche statt Oberfläche.
(Soweit ein mäßger Teilerfolg, wenn aus dem pdf kopiert wird, leider)





Bewertung: 161 Punkte bei 14 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Anlage
thomas lickteig (unangemeldet), Freitag, 19. Februar 2010 11:20:24
Ein/Ausklappen

\usepackage[utf8x]{inputenc}

verwenden


Bewertung: 158 Punkte bei 14 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Re: Anlage
DieterD (unangemeldet), Freitag, 19. Februar 2010 13:53:50
Ein/Ausklappen

Leider hilft das hier auch nicht weiter. Wenn ich das eintrage, dann gibt es viele Fehlermeldungen. Mache ich die Änderungen Rückgängig geht latex texdatei.tex hartnäckig nicht mehr. Erst wenn Dateien, wie texdatei.toc gelöscht worden sind, geht es erst wieder mit latex zu übersetzen.

Latex verwendet bei der Zeichendarstellung Erweiterungen und auch Workarounds für Sonderzeichen, Liguaturen und Landeszeichensätze.
Es gbt demnach Varianten in pdf, wobei jede Umsetzung nur die eine oder andere Variante jeweil realisiert hat. Also läuft das ganze über 4 Schnittstellen der Umsetzung.

latex->dvi->pdf->klipper->openoffice

Das Probem ist eingekreist. Es betrifft nur nicht-englische Sprachen. Daher gibt es einen Blog, das pdf (z.B. mit convert) in ein Bild umzuwandeln, das mit einer ocr-Anwendung (für Schrifterkennung in einem Scan, im pdf erzeugten Bild natürlich traumhafte 100% Bildqualität vorfindet) in Text umzuwandeln.



Bewertung: 135 Punkte bei 14 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Ähnliche Artikel

  • Mit pdflatex bessere PDF-Dateien erzeugen
    Profi-Textsatz ist und bleibt eine Domäne von LaTeX. Soll das Ausgabeformat PDF sein, liefert pdflatex die besten Ergebnisse.
  • Kommandozeilenkonverter für Office-Formate
    Der Allgegenwart der verbreiteten Office-Formate kann sich niemand entziehen. Konvertierungsprogramme für die Kommandozeile sorgen dafür, dass der Inhalt entsprechender Dokumente auch ohne die Ursprungsanwendungen einsehbar bleibt.
  • Professioneller Textsatz mit LaTeX – Teil 3
    Nützliche Addons und Werkzeuge erweitern die Möglichkeiten des Textsatzsystems LaTeX weiter. Erzeugen Sie farbige Texte, Literaturverzeichnisse und optimale PDF-Dateien.
  • Es muss nicht immer PowerPoint sein
    Ansprechende Präsentationen benötigen kein StarImpress, PowerPoint & Co., denn die Slides lassen sich genauso flexibel mit freier Software erstellen. Dank des Satzsystems TeX/LaTeX und dem PDF-Ausgabeformat muss man dabei nicht auf die Effektvielfalt der Konkurrenz verzichten.
  • Einfach losTeXten
    Wenn es ums Setzen von Büchern und Dokumenten geht, gilt LaTeX als erste Wahl. Doch an den vielen Befehlen hat der Anfänger ganz schön zu knabbern. Mit praktischen Funktionen schafft der KDE-LaTeX-Editor Kile Abhilfe.

Stellenanzeigen

System–Administrator (m/w)
IT-Systemadministrator

Mehr erfahren...
(Vollständige Anzeige auf Linux-Magazin Online)


Senior-System–Administrator (m/w)
IT-Systemadministrator

Mehr erfahren...
(Vollständige Anzeige auf Linux-Magazin Online)

Tipp der Woche

Grammatikprüfung in LibreOffice nachrüsten
Grammatikprüfung in LibreOffice nachrüsten
Tim Schürmann, 24.04.2015 19:36, 0 Kommentare

LibreOffice kommt zwar mit einer deutschen Rechtschreibprüfung und einem guten Thesaurus, eine Grammatikprüfung fehlt jedoch. In ältere 32-Bit-Versionen ...

Aktuelle Fragen

Fernwartung oder wartung im haus
heide marie voigt, 29.06.2015 10:37, 2 Antworten
gerne hätte ich jemanden in Bremen nord, der mir weiter hilft - angebote bitte mit preis HMVoigt
Druckeranschluss DCP-195C
heide marie voigt, 29.06.2015 10:35, 1 Antworten
installiert ist linux ubuntu 15.04 offenbar auch der treiber für den Drucker DCP-195C. Die Konta...
keine arbeitsleiste beim einloggen
heide marie voigt, 27.06.2015 13:31, 0 Antworten
seit der neu-installierung von linux ubuntu 15.04 erscheint die arbeitsleiste rechts oben erst na...
raid platte an linux mint 17.1
andreas schug, 23.06.2015 19:44, 1 Antworten
folgende thematik NAS Iomega Storage Center wird auf einmal nicht mehr im netzwerk erkannt .....
SUSE 13.2 - Probleme mit kmail
kris kelvin, 03.06.2015 13:26, 2 Antworten
Hallo, nach dem Umstieg auf 13.1 hatte ich das Problem, daß kmail extrem langsam reagierte. Nun...

Jetzt auf den Mailinglisten

Re: [EasyLinux-Suse] Umstellung auf 64bit
Norbert Carle, 06.07.2015 22:42
Hallo Horst, ich hatte ganz übersehen, dass du auch von 32bit auf 64bit umsteigen möchtest. Entschuldige b...
Re: [EasyLinux-Suse] Umstellung_auf_64bit
Horst Schwarz, 06.07.2015 18:18
Hallo Norbert, ich danke dem Himmel, dass ich die Anfrage gestellt habe. Die Hinweise geben wichtige Hinwei...
Re: [EasyLinux-Suse] Umstellung_auf_64bit
Horst Schwarz, 06.07.2015 18:12
Hallo Heiko, vielen Dank für die umfangreichen Informationen. Ein großer Teil ist für mich sehr hilfreich u...
Re: [EasyLinux-Suse] Umstellung auf 64bit
Heiko, 06.07.2015 18:09
Am Montag, 6. Juli 2015, 17:52:31 schrieb Horst Schwarz: > Hallo Norbert, > > > Es gibt aber...
Re: [EasyLinux-Suse] Umstellung auf 64bit
Heiko, 06.07.2015 17:58
Am Montag, 6. Juli 2015, 17:22:15 schrieb Norbert Carle: Hallo Horst,hallo Norbert, > > ich hoffe,...