Korpusanalyse. Semantische Felder und syntaktische N-Gramme

5. Korpusanalyse. Semantische Felder und syntaktische N-Gramme#

Dieses Kapitel verfolgt die folgenden Lernziele:

Frequenzanalysen semantischer Felder

Das Konzept des semantischen Feldes sowie die Berechnung von Häufigkeiten des semantischen Felds auf einem Korpus kann erklärt werden.
Der Unterschied zwischen absoluten und relativen Häufigkeiten kann beschrieben und die Darstellungsmethoden des Streudiagramms sowie des Liniendiagramms interpretiert werden.
Das Konzept von syntaktischen n-Grams in Bezug auf Adjektiv-Nomen-Paare kann beschrieben und die notwendigen Schritte zur automatischen Extraktion der syntaktischen n-Grams können aufgezählt werden.
Das Konzept einer Trend-Linie kann beschrieben und die aus einem Streudiagramm erzeugte Trend-Linie interpretiert werden.

Nachdem wir im vorherigen Kapitel das Vorgehen der automatischen linguistischen Annotation vorgestellt und unsere beiden Korpora literarischer Texte damit annotiert haben (siehe Kapitel Korpusverarbeitung – Von Strings zu Token), sind alle Vorverarbeitungsschritte durchgeführt und wir wenden uns in diesem Kapitel der Korpusanalyse zu.

Bei diesen beiden Korpora handelt es sich um die zwei Zufallsstichproben, die wir im Abschnitt Sampling und Filterung des Korpus gezogen und dort als Korpus I (Random State 42) und Korpus II (Random State 31415) benannt haben. Beide Korpora sind also zwei unabhängig gezogene Stichproben aus demselben Quellkorpus – dem auf das 19. Jahrhundert eingegrenzten Corpus of German-Language Fiction. Annotiert und analysiert haben wir demnach nicht das vollständige Ausgangskorpus, sondern diese beiden Stichproben (zusammen 724 verschiedene Texte). Sämtliche folgenden Analysen führen wir auf beiden Korpora parallel durch und vergleichen die Ergebnisse miteinander – so lässt sich einschätzen, welche Muster robust sind und welche stärker von der konkreten Zufallsauswahl abhängen.

../_images/flow-chart_corpus-analysis.png — Fig. 5.1 Flussdiagramm der Fallstudie, das aktuelle Arbeitspaket ist hevorgehoben.#

Wir kehren zur Forschungsfrage zurück und besprechen zuerst konzeptionelle Grundlagen zur Erstellung eines semantischen Felds, zur Extraktion von Häufigkeiten sowie zur Visualisierung der Häufigkeiten in Form eines Streudiagramms und die Errechnung und Darstellung einer Trend-Linie.

Anschließend wird die Analyse des semantischen Felds auf den Korpora ausgeführt und die Ergebnisse werden anhand der Visualisierungen interpretiert.

Im nächsten Schritt werden n-Gramme im Generellen und dann syntaktische n-Gramme eingeführt. Daraufhin wird die Korpusanalyse ausgeführt und die Ergebnisse werden wieder anhand von Visualisierungen interpretiert.