Korpusverarbeitung. Von Strings zu Token

4. Korpusverarbeitung. Von Strings zu Token#

Dieses Kapitel verfolgt die folgenden Lernziele:

Korpusverarbeitung mit Natural Language Processing

Die Grundkonzepte des Natural Language Processing können erklärt und die Funktionen von Tokenisierung, Lemmatisierung, POS-Tagging und Dependency Parsing für die Textanalyse beschrieben werden.
Die notwendigen Schritte zur automatischen Annotation eines Texts können aufgezählt und Vorteile der Tokenisierung gegenüber einfacheren Methoden der Worttrennung genannt werden.

Um eine digitale Analyse auszuführen, in diesem Fall die Analyse von Worthäufigkeiten und Kollokationen über Zeit, wird ein über die Zeit gestreutes Korpus benötigt, das im txt-Format (oder einem anderen, computerlesbaren Format) vorliegt. Bevor die Analyse auf dem Korpus ausgeführt werden kann, muss das Korpus mit linguistischen Informationen angereichert werden, etwa um Wörter einer bestimmten Wortart, in diesem Fall Adjektiv-Nomen-Paare, zu identifizieren.

../_images/flow-chart_corpus-processing.png — Fig. 4.1 Flussdiagramm der Fallstudie, das aktuelle Arbeitspaket ist hevorgehoben.#

In diesem Kapitel wird konzeptionell in die Methoden der Anreicherung eingeführt (Tokenisierung, Lemmatisierung und POS-Tagging). Dann wird kurz darauf eingegangen, welche Möglichkeiten die Programmiersprache Python für die Anreicherung bietet. Im nächsten Schritt wird gezeigt, wie das Korpus mit Hilfe der Python-Bibliothek spaCy annotiert werden kann. Zum Schluss wird ein Resümee gezogen.