Mit Bordmitteln riesige Textdatei durchsuchen

Suche mit less
Suche mit less
22.01.2013 11:01

Wer eine bestimmte Stelle in einer mehrere Gigabyte großen Textdatei auffinden möchte, kommt mit den herkömmlichen Texteditoren nicht besonders weit: Entweder laden diese eine solch große Datei gar nicht erst ein oder aber sie stürzen beim Ladevorgang ab. Die ganze Textflut mit dem Kommandozeilenprogramm more zu durchblättern, dürfte wohl nur etwas für Masochisten sein.

Der Autor selbst musste vor Kurzem ein im Laufe der Jahre gewachsenes E-Mail-Archiv durchsuchen. Gefragt war lediglich das Datum einer ganz bestimmten E-Mail. Um dieses aufzuspüren, kam zunächst grep in den Sinn:

grep "Biene Mayer" inbox

Das spuckt allerdings nur die Zeile mit dem Namen des Absenders aus.

Griffig

Um auch an die Betreff-Zeile und das Datum der entsprechenden E-Mail zu gelangen, mussten auch die Zeilen um die Fundstelle herum ausgegeben werden. Genau dafür kennt grep den Parameter -C:

grep -C 2 "Biene Mayer" inbox

Dieser Befehl liefert auch die zwei Zeilen vor, sowie die zwei Zeilen nach dem Absender – mit anderen Worten also auch die vier Zeilen um die Fundstelle herum.

Bei vielen großen Textdateien dürfte man damit schon ans Ziel gelangen. Hier gab es jedoch im E-Mail-Archiv gleich mehrere E-Mails von Biene Mayer. grep spuckt somit alle Fundstellen aus. Diese sind zwar jeweils durch mehrere Bindestriche getrennt ----, bei der entstehenden Textflut war das aber nicht besonders hilfreich. Nur die erste Fundstelle liefert grep, wenn man noch den Parameter -m 1 anhängt:

grep -m 1 -C 2 "Biene Mayer" inbox

Dummerweise war das jedoch nicht die gesuchte E-Mail. Man könnte jetzt viel Hirnschmalz in das Suchmuster stecken oder zu speziellen grep-Alternativen greifen (beim Durchsuchen von großen E-Mail-Archiven hilft beispielsweise das darauf spezialisierte grepmail [1]).

less durchsucht auch große Dateien.

Weniger ist mehr

Das alles ist jedoch gar nicht nötig, denn auf der Festplatte schlummert bei den meisten Distributionen less. Dieser more-Ersatz durchsucht auch beliebig große Textdateien. Dazu setzt man less schlicht auf die Textdatei an:

less inbox

tippt einen Schrägstrich / (via [Umschalt+7]), gibt an der erscheinenden Kommandozeile das gesuchte Wort ein (im Beispiel Biene Mayer) und drückt die Eingabetaste. Damit landet man automatisch beim ersten Treffer. [N] springt jetzt zum nächsten Treffer, [Umschalt+N] zum vorherigen zurück. Wie gewohnt kann man mit den Pfeiltasten nach oben und unten oder seitenweise mit [Bild auf] und [Bild ab] blättern.

Es gibt natürlich noch weitere Möglichkeiten, eine riesige Textdatei nach einem Begriff zu durchpflügen, grep und less dürften für die meisten schnellen Suchen allerdings schon ausreichen.

Infos

[1] Axel Beckert, Frank Hofmann, „Durchkämmt“ – Suche in Datenformaten (Teil 2), LinuxUser, Ausgabe 7/2012:
http://www.linux-community.de/Internal/Artikel/Print-Artikel/LinuxUser/2012/07/Suche-in-Datenformaten-Teil-2/


Kommentare
useless use of cat
Chris (unangemeldet), Dienstag, 22. Januar 2013 13:43:25
Ein/Ausklappen

cat inbox |

Ist völlig unnötig.
grep "Biene Mayer" inbox



Bewertung: 170 Punkte bei 307 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: useless use of cat
Tim Schürmann, Mittwoch, 23. Januar 2013 00:01:24
Ein/Ausklappen

Stimmt, Danke für den Hinweis. Ich lasse es im Text aber jetzt erstmal so stehen.

(Ich habe in der letzten Zeit eindeutig zu viel mit der Pipe arbeiten müssen... :))


Bewertung: 338 Punkte bei 219 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: useless use of cat
Jörg Meier (unangemeldet), Donnerstag, 24. Januar 2013 06:08:50
Ein/Ausklappen

> Ich lasse es im Text aber jetzt erstmal so stehen.

Warum? Weil es so schön diletantisch aussieht?



Bewertung: 359 Punkte bei 229 Stimmen.
Den Beitrag bewerten: Gut / Schlecht
-
Re: useless use of cat
Tim Schürmann, Donnerstag, 24. Januar 2013 10:35:01
Ein/Ausklappen

> Warum?

Weil es den Kommentar erklärt. Ich werde es dann aber jetzt ändern.

> Weil es so schön diletantisch aussieht?

Warum diletantisch? Es ist eine weitere (erlaubte) Möglichkeit, "grep" die zu untersuchenden Informationen zuzuführen. Die Textdatei muss "grep" sowieso einmal komplett durchgehen. Von der Geschwindigkeit dürfte das zudem auf modernen Rechnern keinen großen Unterschied machen.


Bewertung: 267 Punkte bei 343 Stimmen.
Den Beitrag bewerten: Gut / Schlecht

Aktuelle Fragen

Brother Drucker DCP-J4120
Achim Zerrer, 09.12.2016 18:08, 0 Antworten
Hallo, ich wollte unter Leap 42.1 den Brother Drucker installieren und dazu das PPD- Datei vom do...
Drucker Epson XP-332 unter ubuntu 14.04 einrichten
Andrea Wagenblast, 30.11.2016 22:07, 2 Antworten
Hallo, habe vergeblich versucht mein Multifunktionsgerät Epson XP-332 als neuen Drucker unter...
Apricity Gnome unter Win 10 via VirtualBox
André Driesel, 30.11.2016 06:28, 2 Antworten
Halo Leute, ich versuche hier schon seit mehreren Tagen Apricity OS Gnome via VirtualBox zum l...
EYE of Gnome
FRank Schubert, 15.11.2016 20:06, 2 Antworten
Hallo, EOG öffnet Fotos nur in der Größenordnung 4000 × 3000 Pixel. Größere Fotos werden nic...
Kamera mit Notebook koppeln
Karl Spiegel, 12.11.2016 15:02, 2 Antworten
Hi, Fotografen ich werde eine SONY alpha 77ii bekommen, und möchte die LifeView-Möglichkeit nu...

Jetzt auf den Mailinglisten

Re: [EasyLinux-Ubuntu] Ubuntu Nachrichtensammlung, Band 129, Eintrag 4
Hans, 08.12.2016 13:30
Hallo Scharam, einmal Tante Guurgel und da habe ich Pooka Email Client gefunden. Gruß Jörg Am 8. Dezem...
[EasyLinux-Ubuntu] Ein Mailprogramm in Java
Schahram Sanawi Garrousi, 07.12.2016 23:02
Hallo Liste Gibt es ein Mailprogramm in Java? Gruß Schahram -- 4.4.0-53-generic x86_64 * Kubuntu 16.04...
Re: [EasyLinux-Ubuntu] WLAN Adressenbereich
"Michael R. Moschner", 02.12.2016 17:54
Am Samstag, 26. November 2016, 00:54:07 schrieb Richard Kraut: Hallo Richard und alle anderen Danke für die...
Re: [EasyLinux-Ubuntu] [erledigt?] xubuntu 16.04: unvollständige_Aktualisierung
Hartmut Haase, 30.11.2016 18:16
Hallo Liste, > 0% [Verbindung mit security.ubuntu.com (2001:67c:1560:8001::11)] wenn man das Ganze lang...
Re: [EasyLinux-Ubuntu] xubuntu_16.04:_unvollständige_Aktualisierung
Hartmut Haase, 30.11.2016 16:28
Hallo Frank, > Habe ich auch gerade? > Root hat noch 3GB frei. ich habe noch knapp 10GB frei. Dara...