Home / Community / Fragen / Deutsche Umlaute fehlen bei Konvertierung und Kopieren aus LAtex erzeugten PDF-Dateien

Newsletter abonnieren

Lies uns auf...

Folge LinuxCommunity auf Twitter

Top-Beiträge

Eingedost
(161 Punkte bei 4 Stimmen)
Aufteiler
(161 Punkte bei 4 Stimmen)

Heftarchiv

LinuxUser Heftarchiv

EasyLinux Heftarchiv

Ubuntu User Heftarchiv

Ubuntu User Heftarchiv

Partner-Links:

Das B2B Portal www.Linx.de informiert über Produkte und Dienstleistungen.

Deutsche Umlaute fehlen bei Konvertierung und Kopieren aus LAtex erzeugten PDF-Dateien

6 Antworten

Nachricht Autor

Donnerstag, 18. Februar 2010 12:06:11

Hallo LC,

ein Problem habe ich bei "copy and paste" bei PDF-Dokumenten und bin auf der Suche nach einer Lösung.

Wenn ich ein PDF aus OpenOffice heraus erzeuge, dann kann ich aus einem pdf-Viewer, xpdf und okular kopieren und in OpenOffice einfügen mit korrekten deutschen Umlauten.

Wenn ich ein PDF aus LATEX (kile) heraus erzeuge, dann werden die deutschen Umlaute auch korrekt angezeigt mit xpdf und okular. Wenn ich dann den Text kopere und in OpenOffice (kwrite etc. auch getestet), dann sind die Umlaute nur Müllzeichen.

Leider ist es immer das gleiche Müllzeichen, so dass keine externe Konvertierung mittels Skripte möglich ist. Die Anwendungen pdftotext und pdftohtml haben hier auch das Probleme. Verschiedene Optionen mit latin1, utf8 usw. haben nicht geholfen. Mit Suchmaschinen im Internet konnte ich bisher noch keine Lösung finden. Auf dem Rechner befindet sich eine aktuelle Sidux-Version (Debian basiert), vom 15. Nov 2009, letztes Update Anfang Februar durchgeführt.

Wäre schön, wenn hier Jemand eine Lösung parat hätte.

Gruß
Dieter

Dieter Drewanz


Antworten
Etwas Fehl am Platz
Thorsten Donig, Donnerstag, 18. Februar 2010 18:35:55
Ein/Ausklappen

Eigentlich bist Du mit dieser Frage in einem einschlägigen LaTeX-Forum besser aufgehoben [1,2]. Denn zur Beantwortung deiner Frage ist es notwendig, den Quelltext zu kennen. Zumindest aber ist ein auf das Wesentliche reduziertes und das unerwünschte Verhalten reproduzierendes Minimalbeispiel wichtig [3]. Das hier zu posten würde aber den Rahmen sprengen. Wenn Du aber in einem entsprechenden Forum gezielte Fragen stellst und konkrete Beispiele angibst, kann dir recht schnell geholfen werden. In den genannten Foren bin ich selbst übrigens auch aktiv.

[1] LaTeX-Forum - mrunix.de ( http://www.mrunix.de/forums/forumdisplay.php?f=38 )
[2] Portal .:. goLateX .:. deutschsprachiges LaTeX Forum ( http://www.golatex.de )
[3] Hilfe für LaTeX-Einsteiger ( http://www.minimalbeispiel.de )


Bewertung: 152 Punkte bei 8 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
50:50 Chance
Dieter Drewanz, Donnerstag, 18. Februar 2010 20:24:20
Ein/Ausklappen

Hallo Thorsten,

danke für Deine Antwort. Eine Untersuchung des kryptischen Ergebnisses in pdf mit einem Text/Hex-Viewer hilft zwar nicht weiter, aber wenn das Ergebnis mit einem pdftohtml Konverter (probiert mit auch mit pdftohtml -c -enc Latin1 und UTF-8) verglichen wird, ergibt sich:

OpenOffice->pdf->html:
bis mögliche Probleme

Latex->dvi->pdf->html:
bis&nbsp;m¨</span></nobr></DIV>
<DIV style="position:absolute;top:498;left:377"><nobr><span class="ft0">ogliche&nbsp;Probleme

Somit läuft hier etwas im Detail ganz anders ab. Der Unterschied liegt also im dvi-file und dem Weg von dvi nach pdf. Somit wäre mit sed (N wird benötigt um die nächste Zeile mit einzubeziehen) auf der html-Ausgabe eine etwas arg umständliche Korrektur möglich.

Die Browser können dies leider alle nicht richtig wiedergeben, wie auch OpenOffice es auch nicht richtig einlesen kann. Zum Nachvollziehen reicht die Minimalkonfiguration (mit german/ngerman) und ein Satz mit genügend öüäß (Beim Nutzen zu vieler unterschiedlichen Foren wird es irgendwann unübersichtlich mit den Usernamen und Passwörtern).

Gruß
Dieter




Bewertung: 67 Punkte bei 2 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Minimales Beispiel
Thorsten Donig, Donnerstag, 18. Februar 2010 21:33:02
Ein/Ausklappen

Passwort-Sammlung hin oder her. Für spezifische Fragen sollte man das richtige Forum wählen. Denn ordentliche Problemlösungen sind mehr wert als ein möglichst schmales Portfolio an Passworten.

Wenn es denn mit minimalem Code nachvollziehbar ist, kannst Du gerne folgendes versuchen. Kommentare beachten! (Lässt sich hier leider schlecht formatieren.)


\documentclass[11pt,a4paper,ngerman]{article}
\usepackage[T1]{fontenc} % Cork Encoding einschalten (wichtig!)
\usepackage{selinput} % Eingabecodierung wählen ...
\SelectInputMappings{% % ... und mit diesen Glyphen festlegen
adieresis={ä},
germandbls={ß},
Euro={€}
}
\usepackage{babel} % Sprache festlegen, Option in der Dokumentklasse
%\usepackage{cmap}

\begin{document}
äöüßÄÖÜ
\end{document}


Das Beispiel verwendet aktuellste Pakete. Für nähere Informationen bitte die entsprechende Anleitung lesen [1]. Sollte es damit noch nicht funktionieren, notfalls das Paket »cmap« einbinden [2]. Alternativ geht es vielleicht auch mit einer Postscript-Schrift wie »lmodern« [3]. Für deutsche Dokumente »babel« benutzen [4].

Die Konvertierung von DVI direkt nach PDF ist selten ratsam. Lieber den Weg über PS gehen.


[1] CTAN View package information ( http://ctan.org/pkg )
[2] http://ctan.org/pkg/cmap
[3] http://ctan.org/pkg/lmodern
[4] http://ctan.org/pkg/babel


Bewertung: 143 Punkte bei 5 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
Anlage
Dieter Drewanz, Donnerstag, 18. Februar 2010 22:42:54
Ein/Ausklappen

Aus dem Freenode chatroom #latex:

\usepackage[latin1]{inputenc}
and
\usepackage[T1]{fontenc}
(letzteres habe ich ergänzt)

thanks it is working nearly. some äöü now there. but sometimes there are now "bewuÿt #etwas" inspite of "bewußt etwas" , Ober#äche statt Oberfläche.
(Soweit ein mäßger Teilerfolg, wenn aus dem pdf kopiert wird, leider)





Bewertung: 155 Punkte bei 7 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Anlage
thomas lickteig (unangemeldet), Freitag, 19. Februar 2010 11:20:24
Ein/Ausklappen

\usepackage[utf8x]{inputenc}

verwenden


Bewertung: 124 Punkte bei 4 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Re: Anlage
DieterD (unangemeldet), Freitag, 19. Februar 2010 13:53:50
Ein/Ausklappen

Leider hilft das hier auch nicht weiter. Wenn ich das eintrage, dann gibt es viele Fehlermeldungen. Mache ich die Änderungen Rückgängig geht latex texdatei.tex hartnäckig nicht mehr. Erst wenn Dateien, wie texdatei.toc gelöscht worden sind, geht es erst wieder mit latex zu übersetzen.

Latex verwendet bei der Zeichendarstellung Erweiterungen und auch Workarounds für Sonderzeichen, Liguaturen und Landeszeichensätze.
Es gbt demnach Varianten in pdf, wobei jede Umsetzung nur die eine oder andere Variante jeweil realisiert hat. Also läuft das ganze über 4 Schnittstellen der Umsetzung.

latex->dvi->pdf->klipper->openoffice

Das Probem ist eingekreist. Es betrifft nur nicht-englische Sprachen. Daher gibt es einen Blog, das pdf (z.B. mit convert) in ein Bild umzuwandeln, das mit einer ocr-Anwendung (für Schrifterkennung in einem Scan, im pdf erzeugten Bild natürlich traumhafte 100% Bildqualität vorfindet) in Text umzuwandeln.



Bewertung: 80 Punkte bei 4 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Tipp der Woche

Bilder vergleichen mit diffimg
Bilder vergleichen mit diffimg
Tim Schürmann, 01.04.2014 12:40, 1 Kommentare

Das kleine Werkzeug diffimg kann zwei (scheinbar) identische Bilder miteinander vergleichen und die Unterschiede optisch hervorheben. Damit lassen sich nicht nur Rätsel a la „Orignial und Fäls...

4330 Hits
Wertung: 83 Punkte (6 Stimmen)

Aktuelle Fragen

programm suche
Hans-Joachim Köpke, 13.04.2014 10:43, 8 Antworten
suche noch programme die zu windows gibt, die auch unter linux laufen bzw sich ähneln sozusagen a...
Funknetz (Web-Stick)
Hans-Joachim Köpke, 04.04.2014 07:31, 2 Antworten
Bei Windows7 brauche ich den Stick nur ins USB-Fach schieben dann erkennt Windows7 Automatisch, a...
Ubuntu 13.10 überschreibt immer Windows 8 Bootmanager
Thomas Weiss, 15.03.2014 19:20, 8 Antworten
Hallo Leute, ich hoffe das ich richtig bin. Ich habe einen Dell Insipron 660 Ich möchte gerne Ub...
USB-PTP-Class Kamera wird nicht erkannt (Windows-only)
Wimpy *, 14.03.2014 13:04, 15 Antworten
ich habe meiner Frau eine Digitalkamera, AGFA Optima 103, gekauft und wir sind sehr zufrieden dam...
Treiber
Michael Kristahn, 12.03.2014 08:28, 5 Antworten
Habe mir ein Scanner gebraucht gekauft von Canon CanoScan LiDE 70 kein Treiber wie bekomme ich de...

Jetzt auf den Mailinglisten

Re: [EasyLinux-Suse] updates will NOT be installed
Willi Zelinka, 20.04.2014 11:25
Hallo Hartmuth, Am Samstag, 19. April 2014, 18:51:09 schrieb Hartmuth Mehdorn: > Ärgerlich ist dagegen,...
Re: [EasyLinux-Ubuntu] [OT] Thunderbird: Filter
flecralf, 20.04.2014 10:56
On 12.04.2014 18:09, Hartmut Haase wrote: > Hallo Johanna, >> Weswegen die Methode des Editierens...
Re: [EasyLinux-Ubuntu] OT: Probleme beim Mailempfang wg. neuer Zertifikate (1&1)
Rainer, 20.04.2014 10:03
Hallo Karl-Heinz und Uwe, Am Sat, 19 Apr 2014 14:50:13 +0200 schrieb Karl-Heinz : > > Ich hab jeden...
Re: [EasyLinux-Suse] updates will NOT be installed
Hartmuth Mehdorn, 19.04.2014 18:51
Am Samstag, 19. April 2014, 18:21:31 schrieb Willi Zelinka: Hallo Willi > nach meinen Informationen soll...
Re: [EasyLinux-Suse] updates will NOT be installed
Willi Zelinka, 19.04.2014 18:21
Hallo Hartmuth, Am Samstag, 19. April 2014, 16:02:07 schrieb Hartmuth Mehdorn: > Es werden ausser den au...