Resümee#
Key points des Kapitels
Formate zur Speicherung von Texten
Es gibt unterschiedliche Dateiformate, in denen Text gespeichert sein kann. Während Bilddigitalisate z.B. in Form von PDFs die visuelle Authentizität bewahren, bieten Plain Text und CSV einfache Möglichkeiten zur maschinellen Verarbeitung. HTML hingegen ermöglicht eine detaillierte und semantisch reiche Darstellung von Texten.
HTML-Dokumente
Die Grundlage von Websites sind HTML-Dokumente, die die Website-Inhalte (Text, Bilder, Links etc.) strukturieren und speichern. HTML besteht aus sogenannten Tags und deren Inhalt. Die Tags geben Metainformationen dazu, um welche Form von Inhalt es sich handelt, z.B. <h1>
für Titel, <ol>
, <ul>
und <li>
für Listen oder <table>
für Tabellen.
Zusätzliche Informationen können in sogenannten Attributes der HTML-Tags gespeichert werden. Das Design von Websites wird über CSS festgelegt.
Parsen von HTML-Dokumenten
Websites sind hierarchisch gegliedert. Um den zu analysierenden Text und etwaige Metadaten zu extrahieren, muss die visuelle Gliederung in der Gliederung der HTML-Tags nachvollzogen werden, sodass die Tags, die den Text speichern gesammelt und abgefragt werden können.