Deutsche Umlaute fehlen bei Konvertierung und Kopieren aus LAtex erzeugten PDF-Dateien

Dieter Drewanz - Donnerstag, 18. Februar 2010 12:06:11 - 6 Antworten

Hallo LC,

ein Problem habe ich bei "copy and paste" bei PDF-Dokumenten und bin auf der Suche nach einer Lösung.

Wenn ich ein PDF aus OpenOffice heraus erzeuge, dann kann ich aus einem pdf-Viewer, xpdf und okular kopieren und in OpenOffice einfügen mit korrekten deutschen Umlauten.

Wenn ich ein PDF aus LATEX (kile) heraus erzeuge, dann werden die deutschen Umlaute auch korrekt angezeigt mit xpdf und okular. Wenn ich dann den Text kopere und in OpenOffice (kwrite etc. auch getestet), dann sind die Umlaute nur Müllzeichen.

Leider ist es immer das gleiche Müllzeichen, so dass keine externe Konvertierung mittels Skripte möglich ist. Die Anwendungen pdftotext und pdftohtml haben hier auch das Probleme. Verschiedene Optionen mit latin1, utf8 usw. haben nicht geholfen. Mit Suchmaschinen im Internet konnte ich bisher noch keine Lösung finden. Auf dem Rechner befindet sich eine aktuelle Sidux-Version (Debian basiert), vom 15. Nov 2009, letztes Update Anfang Februar durchgeführt.

Wäre schön, wenn hier Jemand eine Lösung parat hätte.

Gruß
Dieter

Antworten
Etwas Fehl am Platz
Thorsten Donig, Donnerstag, 18. Februar 2010 18:35:55
Ein/Ausklappen

Eigentlich bist Du mit dieser Frage in einem einschlägigen LaTeX-Forum besser aufgehoben [1,2]. Denn zur Beantwortung deiner Frage ist es notwendig, den Quelltext zu kennen. Zumindest aber ist ein auf das Wesentliche reduziertes und das unerwünschte Verhalten reproduzierendes Minimalbeispiel wichtig [3]. Das hier zu posten würde aber den Rahmen sprengen. Wenn Du aber in einem entsprechenden Forum gezielte Fragen stellst und konkrete Beispiele angibst, kann dir recht schnell geholfen werden. In den genannten Foren bin ich selbst übrigens auch aktiv.

[1] LaTeX-Forum - mrunix.de ( http://www.mrunix.de/forums/forumdisplay.php?f=38 )
[2] Portal .:. goLateX .:. deutschsprachiges LaTeX Forum ( http://www.golatex.de )
[3] Hilfe für LaTeX-Einsteiger ( http://www.minimalbeispiel.de )


Bewertung: 232 Punkte bei 61 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
50:50 Chance
Dieter Drewanz, Donnerstag, 18. Februar 2010 20:24:20
Ein/Ausklappen

Hallo Thorsten,

danke für Deine Antwort. Eine Untersuchung des kryptischen Ergebnisses in pdf mit einem Text/Hex-Viewer hilft zwar nicht weiter, aber wenn das Ergebnis mit einem pdftohtml Konverter (probiert mit auch mit pdftohtml -c -enc Latin1 und UTF-8) verglichen wird, ergibt sich:

OpenOffice->pdf->html:
bis mögliche Probleme

Latex->dvi->pdf->html:
bis&nbsp;m¨</span></nobr></DIV>
<DIV style="position:absolute;top:498;left:377"><nobr><span class="ft0">ogliche&nbsp;Probleme

Somit läuft hier etwas im Detail ganz anders ab. Der Unterschied liegt also im dvi-file und dem Weg von dvi nach pdf. Somit wäre mit sed (N wird benötigt um die nächste Zeile mit einzubeziehen) auf der html-Ausgabe eine etwas arg umständliche Korrektur möglich.

Die Browser können dies leider alle nicht richtig wiedergeben, wie auch OpenOffice es auch nicht richtig einlesen kann. Zum Nachvollziehen reicht die Minimalkonfiguration (mit german/ngerman) und ein Satz mit genügend öüäß (Beim Nutzen zu vieler unterschiedlichen Foren wird es irgendwann unübersichtlich mit den Usernamen und Passwörtern).

Gruß
Dieter




Bewertung: 152 Punkte bei 86 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Minimales Beispiel
Thorsten Donig, Donnerstag, 18. Februar 2010 21:33:02
Ein/Ausklappen

Passwort-Sammlung hin oder her. Für spezifische Fragen sollte man das richtige Forum wählen. Denn ordentliche Problemlösungen sind mehr wert als ein möglichst schmales Portfolio an Passworten.

Wenn es denn mit minimalem Code nachvollziehbar ist, kannst Du gerne folgendes versuchen. Kommentare beachten! (Lässt sich hier leider schlecht formatieren.)


\documentclass[11pt,a4paper,ngerman]{article}
\usepackage[T1]{fontenc} % Cork Encoding einschalten (wichtig!)
\usepackage{selinput} % Eingabecodierung wählen ...
\SelectInputMappings{% % ... und mit diesen Glyphen festlegen
adieresis={ä},
germandbls={ß},
Euro={€}
}
\usepackage{babel} % Sprache festlegen, Option in der Dokumentklasse
%\usepackage{cmap}

\begin{document}
äöüßÄÖÜ
\end{document}


Das Beispiel verwendet aktuellste Pakete. Für nähere Informationen bitte die entsprechende Anleitung lesen [1]. Sollte es damit noch nicht funktionieren, notfalls das Paket »cmap« einbinden [2]. Alternativ geht es vielleicht auch mit einer Postscript-Schrift wie »lmodern« [3]. Für deutsche Dokumente »babel« benutzen [4].

Die Konvertierung von DVI direkt nach PDF ist selten ratsam. Lieber den Weg über PS gehen.


[1] CTAN View package information ( http://ctan.org/pkg )
[2] http://ctan.org/pkg/cmap
[3] http://ctan.org/pkg/lmodern
[4] http://ctan.org/pkg/babel


Bewertung: 140 Punkte bei 128 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
Anlage
Dieter Drewanz, Donnerstag, 18. Februar 2010 22:42:54
Ein/Ausklappen

Aus dem Freenode chatroom #latex:

\usepackage[latin1]{inputenc}
and
\usepackage[T1]{fontenc}
(letzteres habe ich ergänzt)

thanks it is working nearly. some äöü now there. but sometimes there are now "bewuÿt #etwas" inspite of "bewußt etwas" , Ober#äche statt Oberfläche.
(Soweit ein mäßger Teilerfolg, wenn aus dem pdf kopiert wird, leider)





Bewertung: 293 Punkte bei 42 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Anlage
thomas lickteig (unangemeldet), Freitag, 19. Februar 2010 11:20:24
Ein/Ausklappen

\usepackage[utf8x]{inputenc}

verwenden


Bewertung: 277 Punkte bei 39 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: Re: Anlage
DieterD (unangemeldet), Freitag, 19. Februar 2010 13:53:50
Ein/Ausklappen

Leider hilft das hier auch nicht weiter. Wenn ich das eintrage, dann gibt es viele Fehlermeldungen. Mache ich die Änderungen Rückgängig geht latex texdatei.tex hartnäckig nicht mehr. Erst wenn Dateien, wie texdatei.toc gelöscht worden sind, geht es erst wieder mit latex zu übersetzen.

Latex verwendet bei der Zeichendarstellung Erweiterungen und auch Workarounds für Sonderzeichen, Liguaturen und Landeszeichensätze.
Es gbt demnach Varianten in pdf, wobei jede Umsetzung nur die eine oder andere Variante jeweil realisiert hat. Also läuft das ganze über 4 Schnittstellen der Umsetzung.

latex->dvi->pdf->klipper->openoffice

Das Probem ist eingekreist. Es betrifft nur nicht-englische Sprachen. Daher gibt es einen Blog, das pdf (z.B. mit convert) in ein Bild umzuwandeln, das mit einer ocr-Anwendung (für Schrifterkennung in einem Scan, im pdf erzeugten Bild natürlich traumhafte 100% Bildqualität vorfindet) in Text umzuwandeln.



Bewertung: 265 Punkte bei 39 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Ähnliche Artikel

Aktuelle Fragen

zweites Bildschirm auf gleichem PC einrichten
H A, 30.09.2016 19:16, 0 Antworten
Hallo, ich habe Probleme mein zweites Bildschirm einzurichten.(Auf Debian Jessie mit Gnome) Ich...
Probleme mit MPC/MPD
Matthias Göhlen, 27.09.2016 13:39, 2 Antworten
Habe gerade mein erstes Raspi Projekt angefangen, typisches Einsteigerding: Vom Raspi 3B zum Radi...
Soundkarte wird erkannt, aber kein Ton
H A, 25.09.2016 01:37, 6 Antworten
Hallo, Ich weiß, dass es zu diesem Thema sehr oft Fragen gestellt wurden. Aber da ich ein Linu...
Scannen nur schwarz-weiß möglich
Werner Hahn, 20.09.2016 13:21, 2 Antworten
Canon Pixma MG5450S, Dell Latitude E6510, Betriebssyteme Ubuntu 16.04 und Windows 7. Der Canon-D...
Meteorit NB-7 startet nicht
Thomas Helbig, 13.09.2016 02:03, 4 Antworten
Verehrte Community Ich habe vor Kurzem einen Netbook-Oldie geschenkt bekommen. Beim Start ersch...

Jetzt auf den Mailinglisten

Re: [EasyLinux-Ubuntu] Bildbetrachtungsprogramm (KDE) mir Druckfunktion
alfred, 30.09.2016 22:00
Am 29.09.2016 um 09:08 schrieb Joachim Puttkammer: Hallo Zusammen, Viewnior 1.6 ist ein sehr einfacher Bild...
Re: [EasyLinux-Ubuntu] DVD abspielen
Frank von Thun, 30.09.2016 18:51
Am 30.09.2016 um 18:48 schrieb Frank: > > Hallo Liste, > kann ich mit Ubuntu eine DVD abspielen,...
[EasyLinux-Ubuntu] DVD abspielen
Frank, 30.09.2016 18:48
Hallo Liste, kann ich mit Ubuntu eine DVD abspielen, wenn ja bitte mit welchen PGM -- Schöne Grüße Cool...
Re: [EasyLinux-Suse] DVB-T_USB_Stick_für__openSUSE_LEAP_42.1
Jan-Uwe, 30.09.2016 16:41
On Wed, 28 Sep 2016 21:37:08 +0200 wmey wrote: > ° www.digittrade.de/shop/shop_content.php/coID/9 >...
Re: [EasyLinux-Suse] DVB-T_USB_Stick_für__openSUSE_LEAP_42.1
Jan-Uwe, 30.09.2016 10:31
On Wed, 28 Sep 2016 21:37:08 +0200 wmey wrote: > Ich suche bitte(!) für > open SUSE LEAP 42.1 >...