E-Mails

Grep eignet sich zwar gut zum zeilenweisen Durchforsten von Dateien, aber bei im gängigen Mbox-Format vorliegenden E-Mail-Ordnern versagt es kläglich: Es findet zwar Treffer, gibt aber nicht aus, in welcher E-Mail, sondern höchstens in welchen Ordnern.

Dieses Problem lösen sowohl das in C geschriebene Mboxgrep [16] wie das in Perl geschriebene Grepmail [17]. Beide suchen in einem E-Mail-Ordner nach Nachrichten, die das Suchmuster enthalten, und geben dann die gesamte E-Mail, in der das Suchmuster vorkommt, zurück. Das hat den Vorteil, dass sich die Ausgabe der beiden Programme wieder als Eingabe für eine weitere Instanz eignet.

Das Beispiel in Listing 3 sucht zunächst alle E-Mails heraus, in denen die Zeichenkette tmpreaper vorkommt, und filtert im zweiten Schritt diejenigen heraus, die zusätzlich die Zeichenkette localhost enthalten.

Listing 3

# mboxgrep tmpreaper /var/mail/root | mboxgrep localhost

Das Programm verfügt über die von Grep her vertrauten Optionen -i für eine Suche unabhängig von Groß- und Kleinschreibung sowie -v für die inverse Suche, also die Suche nach allen E-Mails, die das Muster nicht enthalten.

Da Grepmail in Perl geschrieben ist, nutzt es dessen reguläre Ausdrücke zur Suche – und nur diese. Mboxgrep dagegen bietet fast alle Suchmuster-Formate an, die Sie von Grep her kennen: Einfache reguläre Ausdrücke (Option -G), reguläre Ausdrücke nach Posix (Option -E, Vorgabe) und Perl-kompatible reguläre Ausdrücke (PCRE, Option -P). Nur die Suche nach der exakt angegebenen Zeichenkette fehlt.

Beide Programme unterstützen das Mbox-Format – sowohl als unkomprimierte Textdateien als auch in mit Gzip und Bzip2 komprimierter Form. Bei diesem Format liegen alle E-Mails in einer Datei. Mboxgrep unterstützt zusätzlich die verzeichnisbasierten Mail-Ordner-Formate MH, NNMH, NNML und Maildir. Im Notfall ließe sich darin allerdings auch etwas mit dem normalen Grep erreichen.

Beide Tools zählen auf Wunsch die Anzahl der E-Mails, allerdings mit unterschiedlichen Optionen und leicht unterschiedlichen Ausgaben. Auch in diesem Fall arbeitet Mboxgrep näher am originalen Grep: Dessen Option -c (wie bei Grep als Langoption --count) gibt den Ordnernamen nur dann mit aus, wenn Sie mehr als einen E-Mail-Ordner auf der Kommandozeile zum Durchsuchen angegeben haben. Die Option -r ("report") von Grepmail gibt stets den Ordnernamen mit aus.

Möchten Sie entweder nur in den Kopfzeilen oder nur im Inhalt der E-Mail suchen, unterscheiden sich die beiden Tools leicht: Während sich bei Mboxgrep die beiden Optionen -H und -B auf Kopfzeilen ("header") und Inhalt ("body") beziehen, sind es bei Grepmail die Optionen -h und -b.

Im Gegensatz dazu veranlassen die Optionen -H und -B Grepmail dazu, nur Kopfzeilen oder nur den Inhalt (plus eine minimale Anzahl an Kopfzeilen) auszugeben. Mehrfach vorkommende, identische E-Mails unterdrücken Sie bei Grepmail mit der Option -u ("unique"), bei Mboxgrep durch die Option -nd bzw. --no-duplicates (Langform).

Grepmail verfügt zusätzlich über die Möglichkeit, die Namen des E-Mail-Ordners, in dem es die Nachricht gefunden hat, als Kopfzeile X-Mailfolder in die ausgegebenen E-Mails einzubauen, Zeilennummern anzugeben, nur Nachrichten bestimmter Größe herauszusuchen, Signaturen bei der Suche zu ignorieren oder nur in bestimmten Kopfzeilen zu suchen. Dafür glänzt Mboxgrep mit der (nicht ganz ungefährlichen) Möglichkeit, alle E-Mails, die das Suchmuster enthalten, direkt aus dem angegebenen E-Mail-Ordner zu löschen.

Mit Gtkgrepmail existiert ein grafisches Frontend für Grepmail [18]. Es basiert jedoch immer noch auf den Bibliotheken von Gnome 1.x, die in nahezu keiner Linux-Distribution mehr bereit stehen. Vermutlich deshalb gibt es auch in kaum einer Distribution ein passendes Paket. Die Debian-Entwickler entfernten Gtkgrepmail bereits 2008 aus dem genannten Grund [19].

Kurz gesagt: Mboxgrep und Grepmail schenken sich nicht viel. Mboxgrep gleicht vom Bedienkonzept stärker dem originalen Grep, versteht sich auf verzeichnisbasierte Ordnerformate und arbeitet aufgrund der Implementation in C schneller. Dafür dürfen Sie bei Grepmail genauer spezifizieren, wonach sie suchen und welche Bestandteile der E-Mails auf der Ausgabe erscheinen sollen. Die nachfolgenden Beispiele demonstrieren die Mächtigkeit der beiden Werkzeuge.

Listing 4 zeigt einen Aufruf von Grepmail, mit dem Sie alle Nachrichten finden, in denen die Zeichenkette HTML vorkommt. Die Option -m ergänzt die Kopfzeile der gefundenen E-Mail um den Namen des Ordners. Dabei durchsucht das Programm alle E-Mail-Ordner, auf die das Muster mbox* passt.

Listing 4

$ grepmail -m HTML mbox*
From abe@deuxchevaux.org Wed Mar 14 00:23:42 2012
From: Axel Beckert <abe@deuxchevaux.org>
To: Frank Hofmann <frank.hofmann@efho.de>
Subject: Beispielmail 1
MIME-Version: 1.0
Content-Type: text/plain; charset=us-ascii
Content-Disposition: inline
Date: Wed, 14 Mar 2012 00:23:42 +0100
Status: RO
X-Mailfolder: mbox1
Hallo Frank,
diese Mail ist nicht in HTML geschrieben.
              Gruss, Axel
--
/~\  Plain Text Ribbon Campaign
\ /  Say No to HTML in E-Mail and News
 X   See http://www.asciiribbon.org/
/ \  I love long mails: http://email.is-not-s.ms/
From abe@deuxchevaux.org Wed Mar 14 00:42:23 2012
From: Axel Beckert <abe@deuxchevaux.org>
To: Frank Hofmann <frank.hofmann@efho.de>
Subject: Beispielmail 2
MIME-Version: 1.0
Content-Type: text/plain; charset=us-ascii
Content-Disposition: inline
Date: Wed, 14 Mar 2012 00:42:23 +0100
Status: RO
X-Mailfolder: mbox2
Hallo Frank,
meine Homepage findest Du unter http://noone.org/abe/
              Gruss, Axel
--
/~\  Plain Text Ribbon Campaign
\ /  Say No to HTML in E-Mail and News
 X   See http://www.asciiribbon.org/
/ \  I love long mails: http://email.is-not-s.ms/

Listing 5 zeigt eine Variante: Wieder gibt das Programm alle E-Mails aus, in denen die Zeichenkette HTML vorkommt – diesmal spart es aber die aus, die den String nur in der Signatur tragen (Option -S). Im Vergleich zu Listing 4 fehlt hier also die zweite E-Mail. Die Ausgabe enthält nur minimal notwendige Kopfzeilen (Option -B) und Zeilennummern (Option -n).

Listing 5

$ grepmail -n -S -B HTML mbox*
mbox1:1:From abe@deuxchevaux.org Wed Mar 14 00:23:42 2012
mbox1:2:From: Axel Beckert <abe@deuxchevaux.org>
mbox1:4:Subject: Beispielmail 1
mbox1:8:Date: Wed, 14 Mar 2012 00:23:43 +0100
mbox1:12:
mbox1:13:Hallo Frank,
mbox1:14:
mbox1:15:diese Mail ist nicht in HTML geschrieben.
mbox1:16:
mbox1:17:               Gruss, Axel
mbox1:18:--
mbox1:19:/~\  Plain Text Ribbon Campaign                   | Axel Beckert
mbox1:20:\ /  Say No to HTML in E-Mail and News            | abe@deuxchevaux.org  (Mail)
mbox1:21: X   See http://www.asciiribbon.org/              | abe@noone.org (Mail+Jabber)
mbox1:22:/ \  I love long mails: http://email.is-not-s.ms/ | http://noone.org/abe/ (Web)
mbox1:23:

Um die E-Mails zu zählen, in denen die Zeichenkette Gruss vorkommt (Option -c bei Mboxgrep, Option -r bei Grepmail), verwenden Sie einen Aufruf wie in Listing 6. Die Suche findet über alle Dateien statt, auf die das Muster mbox* passt.

Listing 6

$ mboxgrep -c Gruss mbox*
mbox1:1
mbox2:1
$ grepmail -r Gruss mbox*
mbox1: 1
mbox2: 1

Versionskontrolle

Noch etwas komplizierter als in einer Mailbox gestaltet sich die Suche im Quellcode-Baum eines Versionskontrollsystems (VCS). Suchen Sie mit Grep einfach im Dateisystem, erhalten Sie möglicherweise nicht alle Treffer, weil Sie einige Dateien gerade nicht ausgebucht haben. Zusätzliche Einträge aus Steuerdateien erschweren das Lesen des Ergebnisses ebenfalls.

Das mächtiges, verteiltes Versionskontrollsystem Git verfügt über ein Unterkommando, das ebenfalls grep heißt. Es ermöglicht, in Daten zu suchen, ohne diese aus dem VCS auszuchecken oder Treffer in den Metadaten zu landen. Der Entwickler Julius Plenz schreibt dazu in seinem Blog, dass git grep außerdem deutlich schneller arbeitet als das reguläre Grep [21]. Die Tabelle "Beispiele zu git Grep" zeigt einige kommentierte Aufrufe. Weitere ausführlichere Beispiele und Kommentare zu git grep finden Sie in dem von Scott Chacon betreuten Git-Community-Buch [22].

Beispiele zu <C>git grep<C>

Kommando Kommentar
git grep Muster Standardaufruf
git grep -n Muster Zeilennummer ausgeben
git grep --name-only Muster nur Dateiname ausgeben
git grep -e '#define' --and -e SORT_DIRENT Suchmuster kombinieren

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

LinuxCommunity kaufen

Einzelne Ausgabe
 
Abonnements
 

Ähnliche Artikel

Kommentare

Infos zur Publikation

LU 12/2014: ANONYM & SICHER

Digitale Ausgabe: Preis € 4,95
(inkl. 19% MwSt.)

Mit der Zeitschrift LinuxUser sind Sie als Power-User, Shell-Guru oder Administrator im kleinen Unternehmen monatlich auf dem aktuelle Stand in Sachen Linux und Open Source.

Sie sind sich nicht sicher, ob die Themen Ihnen liegen? Im Probeabo erhalten Sie drei Ausgaben zum reduzierten Preis. Einzelhefte, Abonnements sowie digitale Ausgaben erwerben Sie ganz einfach in unserem Online-Shop.

NEU: DIGITALE AUSGABEN FÜR TABLET & SMARTPHONE

HINWEIS ZU PAYPAL: Die Zahlung ist auch ohne eigenes Paypal-Konto ganz einfach per Kreditkarte oder Lastschrift möglich!       

Tipp der Woche

Ubuntu 14.10 und VirtualBox
Ubuntu 14.10 und VirtualBox
Tim Schürmann, 08.11.2014 18:45, 0 Kommentare

Wer Ubuntu 14.10 in einer virtuellen Maschine unter VirtualBox startet, der landet unter Umständen in einem Fenster mit Grafikmüll. Zu einem korrekt ...

Aktuelle Fragen

Nach Ubdates alles weg ...
Maria Hänel, 15.11.2014 17:23, 4 Antworten
Ich brauche dringen eure Hilfe . Ich habe am wochenende ein paar Ubdates durch mein Notebook von...
Brother Drucker MFC-7420
helmut berger, 11.11.2014 12:40, 1 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu 14.04-Nutzer...
Treiber für Drucker brother MFC-7420
helmut berger, 10.11.2014 16:05, 2 Antworten
Hallo, ich habe einen Drucker, brother MFC-7420. Bin erst seit einigen Tagen ubuntu12.14-Nutzer u...
Can't find X includes.
Roland Welcker, 05.11.2014 14:39, 1 Antworten
Diese Meldung erhalte ich beim Versuch, kdar zu installieren. OpenSuse 12.3. Gruß an alle Linuxf...
DVDs über einen geeigneten DLNA-Server schauen
GoaSkin , 03.11.2014 17:19, 0 Antworten
Mein DVD-Player wird fast nie genutzt. Darum möchte ich ihn eigentlich gerne abbauen. Dennoch wür...