Einführung

Einführung#

Groblernziel dieses Kapitels

Abgrenzung von unterschiedlichen Formate zur Textspeicherung und benennen der Vor- und Nachteile. Struktur von HTML erklären und die Funktion von ausgewählte HTML-Tags benennen. HTML-Tags zur Extraktion von Plain Text aus HTML aufzählen.

Zu diesem Kapitel#

In den vorherigen Kapitel wurde zum einen die Operationalisierung der Fragestellung erläutert wurde und zum anderen in das Korpuskonzept eingeführt. Da der Senat die Pressemitteilungen in Form von Websites veröffentlicht, diese aber meist noch weitere Informationen enthalten, geht es in diesem Kapitel, wie der Text einer Website strukturiert extrahiert werden kann.

../_images/flow-chart_html.png

Fig. 5 Flussdiagramm der Fallstudie. Wir befinden uns nun im dritten Arbeitspaket.#

Wir geben zunächst einen kurzen Überblick über unterschiedliche Textformate (Bild, Plain Text, HTML, CSV) und erklären die jeweiligen Anwendungsfälle.

Wir setzen dann den Fokus auf HTML-Dokumente und führen in die Struktur sowie in die grundlegen HTML-Tags ein.

Darauf aufbauend zeigen wir, wie wir den HTML-Code einer Website analysieren können, um den Analysetext zu extrahieren. Die Extraktion führen wir automatisch mit Hilfe eines Python-Programms durch.