3. Korpusaufbau. Auswählen, sammeln, dokumentieren#
Ansätze des Korpusaufbaus und Erstellung basaler Metadaten
Korpora können als geisteswissenschaftliche Forschungsobjekte definiert und deren wesentliche Merkmale beschrieben werden.
Die vier Hauptformate digitaler Texte (Bilddigitalisate, Plain Text, XML/TEI, CSV) können anhand ihrer charakteristischen Eigenschaften unterschieden und deren Vor- und Nachteile für spezifische Anwendungsfälle analysiert werden.
Die grundlegenden Metadatenschemata (Dublin Core, TEI, MODS, METS) und deren charakteristische Elemente für Korpora und Einzeldokumente können beschrieben werden.
Der schrittweise Prozess des praktischen Korpusaufbaus (Konzeptentwicklung, Metadatenerstellung und Datensammlung) kann am Beispiel eines Zeitungskorpus beschrieben werde
Nachdem im vorherigen Kapitel die Fragestellung dieser Fallstudie und deren Operationalisierung erläutert wurde, muss nun der Forschungsgegenstand im Sinne der Operationalisierung vorbereitet werden. In unserem Fall bedeutet dies, dass wir ein Korpus zusammenstellen müssen, anhand dessen sich (wie es in unserer Operationalisierung heißt) “die Texte in Berliner Tageszeitungen” untersuchen lassen.
Fig. 3.1 Flussdiagramm der Fallstudie. Wir befinden uns nun im zweiten Arbeitspaket.#
In diesem Kapitel nehmen wir zunächst eine Sicherung des Begriffsverständnisses vor und klären entsprechend, was wir mit dem Begriff “Korpus” meinen und welche unterschiedlichen Typen des Korpusaufbaus es gibt.
In einem anschließenden Schritt betrachten wir unterschiedliche Erscheinungsformen von “Text” im digitalen Raum. Dabei lernen wir unterschiedliche Formate wie pdf, txt, xml oder csv und deren Vor- und Nachteile kennen.
Um ein Korpus und seine Elememte zu beschreiben, bedarf es Metadaten. Wir werden uns entsprechend in einem folgenden Schritt rudimentär mit dem Konzept von Metadaten befassen und ein basales Metadaten-Schema für unser Korpus und für die Elemete in unserem Korpus entwickeln.
In einem abschließenden Schritt geht es dann um den Aufbau des Forschungskorpus für die folgenden Untersuchungen: Wir definieren zunächst, welche Objekte ins Korpus aufgenommen werden sollen, erarbeiten dann die Metadaten für die Korpusobjekte und laden schließlich die Dateien für das Korpus herunter.