HTML 5 mit Jsoup

HTML 5 mit Jsoup

Web-Küche

Jsoup, eine freie Java-Bibliothek zum Verarbeiten von HTML, ist in Version 1.2.3 mit erweiterter HTML-5-Unterstützung erhältlich.

Während der Parser schon länger implizit HTML-5-Tags beherrscht,kennt er nun explizit die Elementdefinitionen des neuen Standards. So kann das Tool auch aus einer ungültigem HTML-5-Seite einen standardkonformen Parse-Tree zur weiteren Verarbeitung generieren.

Als zweite bedeutende Neuerung erkennt Jsoup automatisch den Zeichensatz eines eingelesenen Dokuments und dekodiert die Eingabe entsprechend vor dem Parsen. Das kommt der Auswertung internationaler Webseiten zugute. Daneben gibt es neue Selektoren sowie kleine Verbesserungen und Bugfixes, die der Entwickler Jonathan Hedley in seiner Meldung zur neuen Version auflistet.

Jsoup läuft unter Java ab Version 1.5 und steht unter MIT/X-Lizenz. Auf der Jsoup-Homepage gibt es Jar-Archive zum Download sowie eine Anleitung im Cookbook-Stil und die API-Referenz.

E-Mail Benachrichtigung
Benachrichtige mich zu:
1 Kommentar
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Peter
15 Jahre her

Nach oben