3.4. đ Auswahl des Forschungskorpus#
Diese Fallstudie untersucht, wie deutschsprachige literarische Texte des 19. Jahrhunderts die abnehmende LuftqualitÀt reflektieren und diskursivieren.
Ein zentraler Schritt besteht darin, ein geeignetes Forschungskorpus auszuwÀhlen, das den historischen Zeitraum und die thematische Breite unserer Forschungsfrage abdeckt.
3.4.1. Vom Aufbau zur Auswahl#
Da bereits digitale Korpora deutschsprachiger Prosa vorliegen, stehen wir nicht vor der Aufgabe, Texte selbst zu digitalisieren, sondern mĂŒssen reflektiert entscheiden, welches existierende Korpus fĂŒr unsere Forschungsfrage geeignet ist. Die im Kapitel Korpora als Forschungsobjekte beschriebenen Strategien â VollstĂ€ndigkeit, ReprĂ€sentativitĂ€t, Balance und Opportunismus â bilden dabei unseren Bewertungsrahmen (Schöch, 2017).
Was wenn noch kein geeignetes Korpus digital vorliegt?
Wenn Ihre Forschungsobjekte noch nicht als Text sondern als Bilddigitalisate, muss der Text z.B. mittels Optical Character Recognition (OCR) extrahiert werden. Wie das geht zeigen wir an Hand von Zeitungsdigitalisaten in der Quadriga-Fallstudie âQuantitative Analyse der Medienwellen der Spanischen Grippe (1918/19)â
3.4.2. Vorhandene Korpora deutschsprachiger Prosa#
Wir stellen drei frei verfĂŒgbare Korpora vor, die sich fĂŒr literaturwissenschaftliche Analysen deutscher Prosa eignen. Konkret werden das d-Prose-Korpus, das Corpus of German-Language Fiction sowie das German ELTeC-Korpus herangezogen.
Korpus |
Beschreibung |
Zeitraum |
Format |
Auswahlstrategie |
StÀrken |
SchwÀchen |
|---|---|---|---|---|---|---|
d-Prose 1870â1920 (Zenodo) |
ca. 150 Werke, TEI/XML, kuratiert |
1870â1920 |
TEI/XML |
reprÀsentativ |
gute Metadaten, literaturwissenschaftlich gepflegt |
begrenzter Zeitraum |
Corpus of German-Language Fiction (Figshare) |
ca. 2 700 Werke in Plain Text mit Metadaten |
1510â1950 |
TXT |
opportunistisch |
groĂer Umfang, gute zeitliche Abdeckung |
uneinheitliche Metadaten, OCR-Fehler |
ELTeC-German (Zenodo) |
ca. 100 Werke, nach ELTeC-Samplingprotokoll |
1840â1920 |
TEI/XML |
balanciert |
methodisch solide, Gender-Balance |
relativ klein, LĂŒcken vor 1840 |
Hinweis
Bereits die Ăbersicht zeigt, dass kein Korpus âperfektâ ist. Die Entscheidung fĂŒr ein Korpus hĂ€ngt immer vom Zusammenspiel zwischen Forschungsfrage, zeitlicher Abdeckung, DatenqualitĂ€t und praktischer ZugĂ€nglichkeit ab.
3.4.3. Explorative Analyse der Metadaten#
Um die Eignung der Korpora genauer zu prĂŒfen, untersuchen wir zunĂ€chst ihre Metadaten. Ziel ist es, ein erstes GefĂŒhl fĂŒr die zeitliche Verteilung, VollstĂ€ndigkeit und Struktur der Daten zu gewinnen. Um das zu erreichen, mĂŒssen wir mithilfe von Code einige Metadaten von Korpora analysieren. Dieser Code wird unten als ausfĂŒhrbares Notebook prĂ€sentiert.
Hinweise zur AusfĂŒhrung des Notebooks#
Dieses Notebook kann auf unterschiedlichen Levels erarbeitet werden (siehe Abschnitt Technische Voraussetzungen):
Book-Only Mode
Cloud Mode: DafĂŒr auf đ klicken und z.B. in Colab ausfĂŒhren.
Local Mode: DafĂŒr auf Herunterladen â klicken und â.ipynbâ wĂ€hlen.
Ăbersicht#
Im Folgenden wird die Auswahl eines geeigneten Forschungskorpus auf Basis von Metadaten vorgenommen. Ziel dieses Schrittes ist es, vor der eigentlichen Textanalyse zu prĂŒfen, welche Korpora fĂŒr die vorliegende Forschungsfrage geeignet sind und welche EinschrĂ€nkungen sie mit sich bringen.
Im Fokus stehen dabei zeitliche Abdeckung, Verteilung der Texte und strukturelle Eigenschaften verschiedener Korpora deutschsprachiger Prosa. Die Analyse dient nicht der inhaltlichen Interpretation einzelner Texte, sondern der methodisch reflektierten Korpusentscheidung als Grundlage fĂŒr die spĂ€teren Analyseschritte.
Dazu werden die folgenden Schritte durchgefĂŒhrt:
Vorstellung und Einordnung mehrerer verfĂŒgbarer Korpora
Einlesen und Aufbereitung der zugehörigen Metadaten
Explorative Analyse der zeitlichen Verteilung der Texte
Vergleich der Korpora hinsichtlich Abdeckung und Balance
BegrĂŒndete Auswahl eines Korpus fĂŒr die weitere Analyse
3.4.4. Option 1. ELTeC-DEU corpus#
Einlesen der Korpusmetadaten in Python#
| Loading ITables v2.6.1 from the internet... (need help?) |
Analyse der zeitlichen Verteilung des Korpus#
Pro Jahr
Pro Jahrzehnt
3.4.5. Option 2. d-Prose corpus#
Einlesen der Korpusmetadaten in Python#
| Loading ITables v2.6.1 from the internet... (need help?) |
Analyse der zeitlichen Verteilung des Korpus#
Pro Jahr (d-Prose)
Man sieht, dass d-Prose ein wesentlich âdichteresâ Korpus ist âŠ
Man sieht jedoch auch, dass dieses Korpus sehr klein ist und den fĂŒr uns relevanten Zeitraum nicht abdeckt.
3.4.6. Option 3. Corpus of German-Language Fiction#
FĂŒr das ââCorpus of German-Language Fictionââ liegt keine fertige Metadatentabelle vor. SĂ€mtliche Metadaten sind hier in den Dateinamen in relativ standardisierter Form kodiert:
Author_name_-_Text_title_(year).txt
e.g.
Abraham_Manuel_FroÌhlich_-_Die_VerschuÌttung_im_Hauenstein_(1858).txt
Daher werden die Korpusdateien in einem separaten Notebook per RegEx in Metadaten ĂŒberfĂŒhrt. An dieser Stelle arbeiten wir mit den Metadaten, die aus diesem Parsing hervorgehen.
# đ Create metadata directory path
metadata_dir = Path("../metadata")
metadata_dir.mkdir(parents=True, exist_ok=True)
# Download metadata file from GitHub
metadata_file_path = metadata_dir / "metadata_corpus-german_language_fiction.csv"
if not metadata_file_path.exists():
! wget https://raw.githubusercontent.com/quadriga-dk/Text-Fallstudie-3/refs/heads/main/metadata/metadata_corpus-german_language_fiction.csv -P ../metadata
| Loading ITables v2.6.1 from the internet... (need help?) |
Analyse der zeitlichen Verteilung des Korpus#
Textanzahl der Texte im âCorpus of German Fictionâ pro Jahr:
Visualisierung der Verteilung pro Jahr
Anzahl der Texte pro Jahrzehnt
Visualisierung der Dekadenverteilung (Textanzahl pro Dekade)
3.4.7. Bewertung und Entscheidung#
Die explorative Analyse erlaubt nun eine systematische Bewertung entlang der Kriterien von (Schöch, 2017).
Kriterium |
ELTeC-German |
d-Prose 1870â1920 |
Corpus of German Fiction |
|---|---|---|---|
Zeitliche Abdeckung |
mittel |
gering |
hoch |
DatenqualitÀt |
hoch |
hoch |
mittel |
ReprÀsentativitÀt |
hoch |
mittel |
mittel |
Umfang |
klein |
mittel |
groĂ |
VerfĂŒgbarkeit |
sehr gut |
gut |
gut |
Zwischenfazit
Das Corpus of German-Language Fiction bietet die gröĂte zeitliche Breite und damit die besten Voraussetzungen, um VerĂ€nderungen im sprachlichen Diskurs ĂŒber LuftqualitĂ€t im 19. Jahrhundert zu untersuchen.
Man erkennt, dass das Corpus of German-Language Fiction einerseits das einzige Korpus ist, das den fĂŒr unsere Forschung notwendigen Zeitraum abdeckt. Andererseits ist es â wie die Verteilung zeigt â eindeutig nicht balanciert. In den Metadaten oder in der Korpusbeschreibung gibt es zudem keinerlei Hinweise darauf, dass dieses Korpus als reprĂ€sentativ angelegt wurde.
FĂŒr die weiteren Analysen mĂŒssen wir das Korpus daher filtern. Dies erfolgt im nĂ€chsten Abschnitt.