Korpusaufbau

6. Korpusaufbau#

Groblernziel dieses Kapitels

Die Lernenden können den Quellcode einer Website untersuchen, geeignete HTML-Tags zur Textextraktion ermitteln und entscheiden, welche Scraping-Methode für die Extraktion verwendet werden muss.

Nachdem wir uns mit HTTP-Anfragen, Web-Scraping und HTML beschäftigt haben, kombinieren wir in diesem Kapitel dieses Wissen, um den Korpus von mehr als 50.000 Pressemitteilungen von berlin.de zusammenzustellen.

../_images/flow-chart_corpus-building.png — Fig. 6.1 Flussdiagramm der Fallstudie, das aktuelle Arbeitspaket ist hevorgehoben.#

Im Kapitel ‘Aufbau des Forschungskorpus’ haben wir die Auswahl- und Filterprozesse für unser Korpus von Pressemitteilungen beschrieben. Nun geht es darum, das Korpus mithilfe von Scraping-Tools und HTML-Kenntnissen zu extrahieren.