Texte als digitale Objekte. Einführung in HTML

4. Texte als digitale Objekte. Einführung in HTML#

Groblernziel dieses Kapitels

Abgrenzung von unterschiedlichen Formate zur Textspeicherung und Benennen der Vor- und Nachteile. Struktur von HTML erklären und die Funktion von ausgewählte HTML-Tags benennen. HTML-Tags zur Extraktion von Plain Text aus HTML aufzählen.

In den vorherigen Kapitel wurde zum einen die Operationalisierung der Fragestellung erläutert und zum anderen in das Korpuskonzept eingeführt. Da der Senat die Pressemitteilungen in Form von Websites veröffentlicht, diese aber meist noch weitere Informationen enthalten, geht es in diesem Kapitel darum, wie der Text einer Website strukturiert extrahiert werden kann.

../_images/flow-chart_html.png — Fig. 4.1 Flussdiagramm der Fallstudie. Wir befinden uns nun im dritten Arbeitspaket.#

Wir geben zunächst einen kurzen Überblick über unterschiedliche Textformate (Bild, Plain Text, HTML, CSV) und erklären die jeweiligen Anwendungsfälle.

Wir setzen dann den Fokus auf HTML-Dokumente und führen in die Struktur sowie in die grundlegen HTML-Tags ein.

Darauf aufbauend zeigen wir, wie wir den HTML-Code einer Website analysieren können, um den Analysetext zu extrahieren. Die Extraktion führen wir automatisch mit Hilfe eines Python-Programms durch.