Korpusverarbeitung. Von Strings zu Token

4. Korpusverarbeitung. Von Strings zu Token#

Korpusverarbeitung mit Natural Language Processing

  1. Die Grundkonzepte des Natural Language Processing können erklärt und die Funktionen von Tokenisierung, Lemmatisierung, POS-Tagging und Dependency Parsing für die Textanalyse beschrieben werden.

  2. Die notwendigen Schritte zur automatischen Annotation eines Texts können aufgezählt und Vorteile der Tokenisierung gegenüber einfacheren Methoden der Worttrennung genannt werden.

Für die Ausführung einer digitalen Analyse, in diesem Fall die Analyse von Worthäufigkeiten und Kollokationen über Zeit, wird ein über die Zeit gestreutes Korpus benötigt, das im txt-Format (oder einem anderen, computerlesbaren Format) vorliegt. Bevor die Analyse auf dem Korpus ausgeführt werden kann, muss das Korpus mit linguistischen Informationen angereichert werden, etwa um Wörter einer bestimmten Wortart, in diesem Fall Adjektiv-Nomen-Paare, zu identifizieren.

../_images/flow-chart_corpus-processing.png

Fig. 4.1 Flussdiagramm der Fallstudie, das aktuelle Arbeitspaket ist hevorgehoben.#

In diesem Kapitel wird konzeptionell in die Methoden der Anreicherung eingeführt (Tokenisierung, Lemmatisierung und POS-Tagging), dann wird kurz darauf eingegangen, welche Möglichkeiten es in Python für die Anreicherung gibt. Im nächsten Schritt wird gezeigt, wie das Korpus mit Hilfe von spaCy annotiert werden kann. Zum Schluss wird ein Resümee gezogen.