Das World Wide Web Consortium (W3C) verfügt über eine Reihe kostenloser Tools, die bei der korrekten Erstellung und Verarbeitung von HTML- und XML-Dateien helfen. Das HTML-XML-Paket besteht aus einer Reihe einfacher Dienstprogramme zum Bearbeiten von HTML- und XML-Dateien über die Befehlszeile. Es ist für viele der verschiedenen Linux-Distributionen verfügbar und kann für diejenigen nützlich sein, die HTML- oder XML-Dateien regelmäßig verarbeiten müssen.

Um das Paket unter Ubuntu zu installieren, verwenden Sie:

 sudo apt-get installiert html-xml-utils 

Es gibt 31 Tools in diesem Paket, hier ist eine Zusammenfassung dessen, was sie tun können:

  • cexport - Erstelle Headerdatei von exportierten Deklarationen aus einer C-Datei
  • hxaddid - Fügt ausgewählten Elementen IDs hinzu
  • hxcite - ersetzen Sie bibliographische Referenzen durch Hyperlinks
  • hxcite-mkbib - Erweitern Sie Referenzen und erstellen Sie eine Bibliografie
  • hxcopy - Kopiere eine HTML-Datei unter Beibehaltung der relativen Links
  • hxcount - zählt Elemente und Attribute in HTML- oder XML-Dateien
  • hxextract - extrahiert ausgewählte Elemente
  • hxclean - Wenden Sie Heuristiken an, um eine HTML-Datei zu korrigieren
  • hxprune - entfernt markierte Elemente aus einer HTML-Datei
  • hxincl- expandiert inklusive HTML- oder XML-Dateien
  • hxindex - Erstelle einen alphabetisch sortierten Index
  • hxmkbib - Bibliographie aus einer Vorlage erstellen
  • hxmultitoc - Erzeugt ein Inhaltsverzeichnis für eine Reihe von HTML-Dateien
  • hxname2id- verschiebe einige ID = oder NAME = von A-Elementen zu ihren Eltern
  • hxnormalize - pretty-print eine HTML-Datei
  • hxnum - Nummernüberschriften in einer HTML-Datei
  • hxpipe - XML ​​in ein Format konvertieren, das leichter mit Perl oder AWK zu analysieren ist
  • hxprintlinks-Nummer Links & Tabelle der URLs am Ende einer HTML-Datei hinzufügen
  • hxremove - entfernt ausgewählte Elemente aus einer XML-Datei
  • hxtabletrans- transponiert eine HTML- oder XHTML-Tabelle
  • hxtoc - fügt eine Inhaltsverzeichnis in eine HTML-Datei ein
  • hxuncdata - ersetzt CDATA-Abschnitte durch Zeichenentitäten
  • hxunent - ersetzt HTML vordefinierte Zeichenentitäten in UTF-8
  • hxunpipe - konvertiert die Ausgabe der Pipe zurück in das XML-Format
  • hxunxmlns - Ersetze "globale Namen" durch XML-Namespacepräfixe
  • hxwls - listet Links in einer HTML-Datei auf
  • hxxmlns - XML-Namespace-Präfixe durch "globale Namen" ersetzen
  • asc2xml, xml2asc - Konvertiere zwischen UTF8 und Entitäten
  • hxref - erzeugt Querverweise
  • hxselect - extrahiert Elemente, die mit einem (CSS) Selektor übereinstimmen

Um Ihnen die Leistungsfähigkeit dieses Werkzeugsatzes näher zu bringen, hier einige Beispiele, wie Sie einige der Befehle verwenden könnten.

Der " hxnormalize " -Befehl wird eine HTML-Datei neu formatieren, so dass sie leicht zu lesen und schön formatiert ist. Um diesen Befehl zu testen, erstellen wir einen hässlichen HTML-Code. Markieren und kopieren Sie die folgenden Zeilen und fügen Sie sie direkt in ein Terminalfenster ein.

 Katze> test.html << __EOF__ 

Hallo __EOF__

Dies erstellt eine Datei namens test.html. Der HTML-Code enthält einige der schließenden Tags und ist in einer Zeile geschrieben. Der Befehl hxnormalize formatiert die Datei neu und schreibt die hübsche Version in die Standardausgabe (stdout). So führen Sie den Befehl aus:

 hxnormalize -e test.html 

Das Flag "-e" weist hxnormalize an, fehlende abschließende Tags einzufügen.

Sie können den Befehl auch für eine Webseite ausführen, indem Sie "test.html" durch eine URL ersetzen, zum Beispiel:

 hxnormalize http://www.example.com 

Der Befehl hxwls analysiert eine lokale HTML-Datei oder eine Website und listet die Links im HTML- hxwls . Beispielsweise:

 hxwls http://www.beispiel.com 

Hier sind die ersten Zeilen für die Website Make Tech Easier:

Der Befehl hxtabletrans ändert eine Tabelle so, dass Zeilen zu Spalten und Spalten zu Zeilen werden.

Lassen Sie uns eine HTML-Datei mit einer einfachen Tabelle erstellen. Markieren und kopieren Sie die folgenden Zeilen und fügen Sie sie anschließend direkt in ein Terminalfenster ein.

 Katze> Tisch.html << __EOF__ 
JillSchmied50
VorabendJackson94
__EOF__

Das Ergebnis ist eine Datei namens table.html. In einem Webbrowser würde die Tabelle in etwa so aussehen:

JillSchmied50
VorabendJackson94

Wenn Sie den Befehl hxtabletrans, wird die transponierte Tabelle in die Standardausgabe geschrieben. Die Ergebnisse können in eine andere Datei wie diese umgeleitet werden:

 hxtabletrans tabelle.html> tabelle2.html 

Die neue Datei, table2.html, zeigt Jill Smith und Eve Jackson in Spalten anstatt in Reihen wie im Original. Die resultierende Tabelle wird in etwa so aussehen:

JillVorabend
SchmiedJackson
5094

Die meisten Befehle werden in ähnlicher Weise wie in den obigen Beispielen verwendet, dh Sie müssen eine Datei oder URL angeben, die verarbeitet werden soll, und die Ausgabe wird in die Standardausgabe geschrieben. Versuchen Sie, mit den verschiedenen Befehlen zu experimentieren, da Sie sie möglicherweise nützlich finden.

Wenn Sie Fragen zu den HTML-XML-Hilfsprogrammen haben, wenden Sie sich bitte an die unten stehenden Kommentare und wir werden sehen, ob wir Ihnen helfen können.