E-Mails

Grep eignet sich zwar gut zum zeilenweisen Durchforsten von Dateien, aber bei im gängigen Mbox-Format vorliegenden E-Mail-Ordnern versagt es kläglich: Es findet zwar Treffer, gibt aber nicht aus, in welcher E-Mail, sondern höchstens in welchen Ordnern.

Dieses Problem lösen sowohl das in C geschriebene Mboxgrep [16] wie das in Perl geschriebene Grepmail [17]. Beide suchen in einem E-Mail-Ordner nach Nachrichten, die das Suchmuster enthalten, und geben dann die gesamte E-Mail, in der das Suchmuster vorkommt, zurück. Das hat den Vorteil, dass sich die Ausgabe der beiden Programme wieder als Eingabe für eine weitere Instanz eignet.

Das Beispiel in Listing 3 sucht zunächst alle E-Mails heraus, in denen die Zeichenkette tmpreaper vorkommt, und filtert im zweiten Schritt diejenigen heraus, die zusätzlich die Zeichenkette localhost enthalten.

Listing 3

# mboxgrep tmpreaper /var/mail/root | mboxgrep localhost

Das Programm verfügt über die von Grep her vertrauten Optionen -i für eine Suche unabhängig von Groß- und Kleinschreibung sowie -v für die inverse Suche, also die Suche nach allen E-Mails, die das Muster nicht enthalten.

Da Grepmail in Perl geschrieben ist, nutzt es dessen reguläre Ausdrücke zur Suche – und nur diese. Mboxgrep dagegen bietet fast alle Suchmuster-Formate an, die Sie von Grep her kennen: Einfache reguläre Ausdrücke (Option -G), reguläre Ausdrücke nach Posix (Option -E, Vorgabe) und Perl-kompatible reguläre Ausdrücke (PCRE, Option -P). Nur die Suche nach der exakt angegebenen Zeichenkette fehlt.

Beide Programme unterstützen das Mbox-Format – sowohl als unkomprimierte Textdateien als auch in mit Gzip und Bzip2 komprimierter Form. Bei diesem Format liegen alle E-Mails in einer Datei. Mboxgrep unterstützt zusätzlich die verzeichnisbasierten Mail-Ordner-Formate MH, NNMH, NNML und Maildir. Im Notfall ließe sich darin allerdings auch etwas mit dem normalen Grep erreichen.

Beide Tools zählen auf Wunsch die Anzahl der E-Mails, allerdings mit unterschiedlichen Optionen und leicht unterschiedlichen Ausgaben. Auch in diesem Fall arbeitet Mboxgrep näher am originalen Grep: Dessen Option -c (wie bei Grep als Langoption --count) gibt den Ordnernamen nur dann mit aus, wenn Sie mehr als einen E-Mail-Ordner auf der Kommandozeile zum Durchsuchen angegeben haben. Die Option -r ("report") von Grepmail gibt stets den Ordnernamen mit aus.

Möchten Sie entweder nur in den Kopfzeilen oder nur im Inhalt der E-Mail suchen, unterscheiden sich die beiden Tools leicht: Während sich bei Mboxgrep die beiden Optionen -H und -B auf Kopfzeilen ("header") und Inhalt ("body") beziehen, sind es bei Grepmail die Optionen -h und -b.

Im Gegensatz dazu veranlassen die Optionen -H und -B Grepmail dazu, nur Kopfzeilen oder nur den Inhalt (plus eine minimale Anzahl an Kopfzeilen) auszugeben. Mehrfach vorkommende, identische E-Mails unterdrücken Sie bei Grepmail mit der Option -u ("unique"), bei Mboxgrep durch die Option -nd bzw. --no-duplicates (Langform).

Grepmail verfügt zusätzlich über die Möglichkeit, die Namen des E-Mail-Ordners, in dem es die Nachricht gefunden hat, als Kopfzeile X-Mailfolder in die ausgegebenen E-Mails einzubauen, Zeilennummern anzugeben, nur Nachrichten bestimmter Größe herauszusuchen, Signaturen bei der Suche zu ignorieren oder nur in bestimmten Kopfzeilen zu suchen. Dafür glänzt Mboxgrep mit der (nicht ganz ungefährlichen) Möglichkeit, alle E-Mails, die das Suchmuster enthalten, direkt aus dem angegebenen E-Mail-Ordner zu löschen.

Mit Gtkgrepmail existiert ein grafisches Frontend für Grepmail [18]. Es basiert jedoch immer noch auf den Bibliotheken von Gnome 1.x, die in nahezu keiner Linux-Distribution mehr bereit stehen. Vermutlich deshalb gibt es auch in kaum einer Distribution ein passendes Paket. Die Debian-Entwickler entfernten Gtkgrepmail bereits 2008 aus dem genannten Grund [19].

Kurz gesagt: Mboxgrep und Grepmail schenken sich nicht viel. Mboxgrep gleicht vom Bedienkonzept stärker dem originalen Grep, versteht sich auf verzeichnisbasierte Ordnerformate und arbeitet aufgrund der Implementation in C schneller. Dafür dürfen Sie bei Grepmail genauer spezifizieren, wonach sie suchen und welche Bestandteile der E-Mails auf der Ausgabe erscheinen sollen. Die nachfolgenden Beispiele demonstrieren die Mächtigkeit der beiden Werkzeuge.

Listing 4 zeigt einen Aufruf von Grepmail, mit dem Sie alle Nachrichten finden, in denen die Zeichenkette HTML vorkommt. Die Option -m ergänzt die Kopfzeile der gefundenen E-Mail um den Namen des Ordners. Dabei durchsucht das Programm alle E-Mail-Ordner, auf die das Muster mbox* passt.

Listing 4

$ grepmail -m HTML mbox*
From abe@deuxchevaux.org Wed Mar 14 00:23:42 2012
From: Axel Beckert <abe@deuxchevaux.org>
To: Frank Hofmann <frank.hofmann@efho.de>
Subject: Beispielmail 1
MIME-Version: 1.0
Content-Type: text/plain; charset=us-ascii
Content-Disposition: inline
Date: Wed, 14 Mar 2012 00:23:42 +0100
Status: RO
X-Mailfolder: mbox1
Hallo Frank,
diese Mail ist nicht in HTML geschrieben.
              Gruss, Axel
--
/~\  Plain Text Ribbon Campaign
\ /  Say No to HTML in E-Mail and News
 X   See http://www.asciiribbon.org/
/ \  I love long mails: http://email.is-not-s.ms/
From abe@deuxchevaux.org Wed Mar 14 00:42:23 2012
From: Axel Beckert <abe@deuxchevaux.org>
To: Frank Hofmann <frank.hofmann@efho.de>
Subject: Beispielmail 2
MIME-Version: 1.0
Content-Type: text/plain; charset=us-ascii
Content-Disposition: inline
Date: Wed, 14 Mar 2012 00:42:23 +0100
Status: RO
X-Mailfolder: mbox2
Hallo Frank,
meine Homepage findest Du unter http://noone.org/abe/
              Gruss, Axel
--
/~\  Plain Text Ribbon Campaign
\ /  Say No to HTML in E-Mail and News
 X   See http://www.asciiribbon.org/
/ \  I love long mails: http://email.is-not-s.ms/

Listing 5 zeigt eine Variante: Wieder gibt das Programm alle E-Mails aus, in denen die Zeichenkette HTML vorkommt – diesmal spart es aber die aus, die den String nur in der Signatur tragen (Option -S). Im Vergleich zu Listing 4 fehlt hier also die zweite E-Mail. Die Ausgabe enthält nur minimal notwendige Kopfzeilen (Option -B) und Zeilennummern (Option -n).

Listing 5

$ grepmail -n -S -B HTML mbox*
mbox1:1:From abe@deuxchevaux.org Wed Mar 14 00:23:42 2012
mbox1:2:From: Axel Beckert <abe@deuxchevaux.org>
mbox1:4:Subject: Beispielmail 1
mbox1:8:Date: Wed, 14 Mar 2012 00:23:43 +0100
mbox1:12:
mbox1:13:Hallo Frank,
mbox1:14:
mbox1:15:diese Mail ist nicht in HTML geschrieben.
mbox1:16:
mbox1:17:               Gruss, Axel
mbox1:18:--
mbox1:19:/~\  Plain Text Ribbon Campaign                   | Axel Beckert
mbox1:20:\ /  Say No to HTML in E-Mail and News            | abe@deuxchevaux.org  (Mail)
mbox1:21: X   See http://www.asciiribbon.org/              | abe@noone.org (Mail+Jabber)
mbox1:22:/ \  I love long mails: http://email.is-not-s.ms/ | http://noone.org/abe/ (Web)
mbox1:23:

Um die E-Mails zu zählen, in denen die Zeichenkette Gruss vorkommt (Option -c bei Mboxgrep, Option -r bei Grepmail), verwenden Sie einen Aufruf wie in Listing 6. Die Suche findet über alle Dateien statt, auf die das Muster mbox* passt.

Listing 6

$ mboxgrep -c Gruss mbox*
mbox1:1
mbox2:1
$ grepmail -r Gruss mbox*
mbox1: 1
mbox2: 1

Versionskontrolle

Noch etwas komplizierter als in einer Mailbox gestaltet sich die Suche im Quellcode-Baum eines Versionskontrollsystems (VCS). Suchen Sie mit Grep einfach im Dateisystem, erhalten Sie möglicherweise nicht alle Treffer, weil Sie einige Dateien gerade nicht ausgebucht haben. Zusätzliche Einträge aus Steuerdateien erschweren das Lesen des Ergebnisses ebenfalls.

Das mächtiges, verteiltes Versionskontrollsystem Git verfügt über ein Unterkommando, das ebenfalls grep heißt. Es ermöglicht, in Daten zu suchen, ohne diese aus dem VCS auszuchecken oder Treffer in den Metadaten zu landen. Der Entwickler Julius Plenz schreibt dazu in seinem Blog, dass git grep außerdem deutlich schneller arbeitet als das reguläre Grep [21]. Die Tabelle "Beispiele zu git Grep" zeigt einige kommentierte Aufrufe. Weitere ausführlichere Beispiele und Kommentare zu git grep finden Sie in dem von Scott Chacon betreuten Git-Community-Buch [22].

Beispiele zu <C>git grep<C>

Kommando Kommentar
git grep Muster Standardaufruf
git grep -n Muster Zeilennummer ausgeben
git grep --name-only Muster nur Dateiname ausgeben
git grep -e '#define' --and -e SORT_DIRENT Suchmuster kombinieren

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 08/2015: Cloud-Speicher

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Grammatikprüfung in LibreOffice nachrüsten
Grammatikprüfung in LibreOffice nachrüsten
Tim Schürmann, 24.04.2015 19:36, 0 Kommentare

LibreOffice kommt zwar mit einer deutschen Rechtschreibprüfung und einem guten Thesaurus, eine Grammatikprüfung fehlt jedoch. In ältere 32-Bit-Versionen ...

Aktuelle Fragen

Empfehlung gesucht Welche Dist als Wirt für VM ?
Roland Fischer, 31.07.2015 20:53, 0 Antworten
Wer kann mir Empfehlungen geben welche Distribution gut geeignet ist als Wirt für eine VM für Win...
Plugins bei OPERA - Linux Mint 17.1
Christoph-J. Walter, 23.07.2015 08:32, 2 Antworten
Beim Versuch Video-Sequenzen an zu schauen kommt die Meldung -Plug-ins und Shockwave abgestürzt-....
Wird Windows 10 update/upgrade mein Grub zerstören ?
daniel s, 22.07.2015 08:31, 5 Antworten
oder rührt Windows den Bootloader nicht an? das ist auch alles was Google mir nicht beantw...
Z FUER Y UND ANDERE EINGABEFEHLER AUF DER TASTATUR
heide marie voigt, 10.07.2015 13:53, 2 Antworten
BISHER konnte ich fehlerfrei schreiben ... nun ist einiges drucheinander geraten ... ich war bei...
PCLinuxOS lässt sich nicht installieren
Arth Lübkemann, 09.07.2015 18:53, 6 Antworten
Hallo Leute, ich versuche seit geraumer Zeit das aktuelle PCLinuxOS KDE per USB Stick zu insta...