Korpusanalyse. Von Häufigkeiten zu Diagrammen

7. Korpusanalyse. Von Häufigkeiten zu Diagrammen#

Das Konzept des semantischen Feldes kann erklärt, der Unterschied zwischen absoluten und relativen Häufigkeiten beschrieben und die Darstellungsmethoden des Liniendiagramms und der Key Word in Context (KWIC)-Anzeige interpretiert werden.
Die notwendigen Schritte zur Frequenzanalyse eines semantischen Felds können aufgezählt, Unterschiede in der Berechnung der Häufigkeiten benannt und die Ergebnisse reflektiert werden.
Die Darstellungsmethode Keywords in Context kann beschrieben, Wörter zur Anzeige ausgewählt und diese angezeigt werden.

Für die Ausführung einer digitalen Analyse, in diesem Fall der Analyse der Spanischen Grippe in einem Berliner Zeitungskorpus (1918-20) durch Worthäufigkeiten über Zeit, wird ein Korpus benötigt, das in Wörter (Token) aufgeteilt und mit Lemmata angereichert ist. Wir haben gezeigt, wie mittels OCR ein aus PDF-Dateien bestehendes Zeitungskorpus in ein Textkorpus konvertiert werden kann (siehe die Kapitel „Korpusaufbau“ und „OCR — Vom Bild zum Text“). Das Textkorpus wurde dann mit der Python-Bibliothek spaCy unter Anwendung von NLP-Methoden (Tokenisierung und Lemmatisierung) angereichert (siehe Kapitel „Korpusverarbeitung – Von Strings zu Token“). Das angereicherte Korpus liegt im Tabellenformat (CSV) vor. In jeder Zeile steht ein Wort und die Grundform des Wortes.

../_images/flow-chart_corpus-analysis.jpeg — Fig. 7.1 Flussdiagramm der Fallstudie, das aktuelle Arbeitspaket ist hervorgehoben.#

Nachdem die Korpuserstellung und -anreicherung abgeschlossen ist, wird in diesem Kapitel zur Forschungsfrage zurückgekehrt. Es soll die öffentliche Aufmerksamkeit für die Spanische Grippe im Zeitraum von 1918-1920 anhand von Worthäufigkeiten derjenigen Wörter gemessen werden, die direkt oder indirekt auf die Spanische Grippe verweisen. Es wird zuerst konzeptionell in die Frequenzanalyse eingeführt, dann wird die Analyse mit folgenden Schritten durchgeführt:

Erstellung eines Wortfelds, in dem grippenbezogene Wörter gesammelt werden
Berechnung der Häufigkeiten dieses Wortfelds
Visuelle Darstellung der Häufigkeiten über Zeit durch ein Liniendiagramm. Das Diagramm hat verschiedene Stellschrauben:

Anzeige von absoluten oder relativen Häufigkeiten
Einstellung des zu betrachtenden Zeitraums
Filtern nach Zeitung

Extraktion der Kontexte der grippenbezogenen Wörter (KWIC) für weiterführende manuelle Analysen

Zum Abschluss wird ein Fazit gezogen.