Einführung#
Groblernziel dieses Kapitels
Die Lernenden können den Quellcode einer Website untersuchen, geeignete HTML-Tags zur Textextraktion ermitteln und entscheiden, welche Scraping-Methode für die Extraktion verwendet werden muss.
Zu diesem Kapitel#
Nachdem wir uns mit HTTP-Anfragen, Web-Scraping und HTML beschäftigt haben, kombinieren wir in diesem Kapitel dieses Wissen, um den Korpus von mehr als 50.000 Pressemitteilungen von berlin.de zusammenzustellen.

Fig. 9 Flussdiagramm der Fallstudie, das aktuelle Arbeitspaket ist hevorgehoben.#
Im Kapitel ‘Aufbau des Forschungskorpus’ haben wir die Auswahl- und Filterprozesse für unser Korpus von Pressemitteilungen beschrieben. Nun geht es darum, das Korpus mithilfe von Scraping-Tools und HTML-Kenntnissen zu extrahieren.