3.4. đ Auswahl des Forschungskorpus#
Diese Fallstudie untersucht, wie deutschsprachige literarische Texte des 19. Jahrhunderts die abnehmende LuftqualitÀt reflektieren und diskursivieren.
Ein zentraler Schritt besteht darin, ein geeignetes Forschungskorpus auszuwÀhlen, das den historischen Zeitraum und die thematische Breite unserer Forschungsfrage abdeckt.
Im Unterschied zur vorherigen Fallstudie, in der das Korpus selbst aufgebaut wurde, liegt der Fokus hier auf der reflektierten Auswahl eines bestehenden Korpus.
Lernziel
Nach diesem Abschnitt können Sie die Kriterien fĂŒr die Auswahl eines geeigneten Forschungskorpus benennen, bestehende Korpora vergleichen und den Auswahlprozess datenbasiert begrĂŒnden.
3.4.1. Vom Aufbau zur Auswahl#
WĂ€hrend in der Fallstudie 1 ein eigenes Zeitungskorpus zur Spanischen Grippe 1918/19 aufgebaut wurde, greifen wir in dieser Fallstudie auf bereits existierende digitale Korpora deutschsprachiger Prosa zurĂŒck. Wir stehen also nicht vor der Aufgabe, Texte selbst zu digitalisieren, sondern mĂŒssen reflektiert entscheiden, welches existierende Korpus fĂŒr unsere Forschungsfrage geeignet ist.
Die im Kapitel âKorpora als Forschungsobjekteâ beschriebenen Strategien â VollstĂ€ndigkeit, ReprĂ€sentativitĂ€t, Balance und Opportunismus â bilden dabei unseren Bewertungsrahmen (Schöch, 2017).
3.4.2. Vorhandene Korpora deutschsprachiger Prosa#
Im Folgenden werden drei frei verfĂŒgbare Korpora vorgestellt, die sich fĂŒr literaturwissenschaftliche Analysen deutscher Prosa eignen. Konkret wurden fĂŒr diese Fallstudie das d-Prose-Korpus, das Corpus of German-Language Fiction sowie das German ELTeC-Korpus herangezogen.
Korpus |
Beschreibung |
Zeitraum |
Format |
Auswahlstrategie |
StÀrken |
SchwÀchen |
|---|---|---|---|---|---|---|
d-Prose 1870â1920 (Zenodo) |
ca. 150 Werke, TEI/XML, kuratiert |
1870â1920 |
TEI/XML |
balanciert |
gute Metadaten, literaturwissenschaftlich gepflegt |
begrenzter Zeitraum |
Corpus of German-Language Fiction (Figshare) |
ca. 1 200 Romane in Plain Text mit Metadaten |
1750â1950 |
TXT |
opportunistisch / balanciert |
groĂer Umfang, gute zeitliche Abdeckung |
uneinheitliche Metadaten, OCR-Fehler |
ELTeC-German (Zenodo) |
ca. 100 Werke, nach ELTeC-Samplingprotokoll |
1840â1920 |
TEI/XML |
reprÀsentativ |
methodisch solide, Gender-Balance |
relativ klein, LĂŒcken vor 1840 |
Hinweis
Bereits in dieser Ăbersicht zeigt sich, dass kein Korpus âperfektâ ist. Die Entscheidung fĂŒr ein Korpus hĂ€ngt immer vom Zusammenspiel zwischen Forschungsfrage, zeitlicher Abdeckung, DatenqualitĂ€t und praktischer ZugĂ€nglichkeit ab.
3.4.3. Explorative Analyse der Metadaten#
Um die Eignung der Korpora genauer zu prĂŒfen, untersuchen wir zunĂ€chst ihre Metadaten. Ziel ist es, ein erstes GefĂŒhl fĂŒr die zeitliche Verteilung, VollstĂ€ndigkeit und Struktur der Daten zu gewinnen. Um dies zu erreichen, mĂŒssen wir mithilfe von Code einige Metadaten von Korpora analysieren. Dieser Code wird unten als ausfĂŒhrbares Notebook prĂ€sentiert.
Hinweise zur AusfĂŒhrung des Notebooks#
Dieses Notebook kann auf unterschiedlichen Levels erarbeitet werden (siehe Abschnitt âTechnische Voraussetzungenâ):
Book-Only Mode
Cloud Mode: DafĂŒr auf đ klicken und z.B. in Colab ausfĂŒhren.
Local Mode: DafĂŒr auf Herunterladen â klicken und â.ipynbâ wĂ€hlen.
Ăbersicht#
Im Folgenden wird die Auswahl eines geeigneten Forschungskorpus auf Basis von Metadaten vorgenommen. Ziel dieses Schrittes ist es, vor der eigentlichen Textanalyse zu prĂŒfen, welche Korpora fĂŒr die vorliegende Forschungsfrage geeignet sind und welche EinschrĂ€nkungen sie mit sich bringen.
Im Fokus stehen dabei zeitliche Abdeckung, Verteilung der Texte und strukturelle Eigenschaften verschiedener Korpora deutschsprachiger Prosa. Die Analyse dient nicht der inhaltlichen Interpretation einzelner Texte, sondern der methodisch reflektierten Korpusentscheidung als Grundlage fĂŒr die nachfolgenden Analyseschritte.
Dazu werden die folgenden Schritte durchgefĂŒhrt:
Vorstellung und Einordnung mehrerer verfĂŒgbarer Korpora
Einlesen und Aufbereitung der zugehörigen Metadaten
Explorative Analyse der zeitlichen Verteilung der Texte
Vergleich der Korpora hinsichtlich Abdeckung und Balance
BegrĂŒndete Auswahl eines Korpus fĂŒr die weitere Analyse
3.4.4. Option 1. ELTeC-DEU corpus#
Einlesen der Korpusmetadaten in Python#
meta = pd.read_csv("https://zenodo.org/records/4662482/files/metadata.csv")
show(meta)
| Loading ITables v2.6.1 from the internet... (need help?) |
Analyse der zeitlichen Verteilung des Korpus#
Pro Jahr
fig_year.show()
Pro Jahrzehnt
fig_decade.show()
3.4.5. Option 2. d-Prose corpus#
Einlesen der Korpusmetadaten in Python#
## code to analyse the metadata of the d-Prose corpus
meta_d_prose = pd.read_csv("https://zenodo.org/records/5015008/files/d-prose_V2_norm_year.csv",
sep=';')
show(meta_d_prose)
| Loading ITables v2.6.1 from the internet... (need help?) |
Analyse der zeitlichen Verteilung des Korpus#
Pro Jahr (d-Prose)
Man sieht, dass d-Prose ein wesentlich âdichteresâ Korpus ist âŠ
fig_year.show()
fig_decade.show()
Man sieht jedoch auch, dass dieses Korpus sehr klein ist und den fĂŒr uns relevanten Zeitraum nicht abdeckt.
3.4.6. Option 3. Corpus of German-Language Fiction#
FĂŒr das ââCorpus of German-Language Fictionââ liegt keine fertige Metadatentabelle vor. SĂ€mtliche Metadaten sind hier in den Dateinamen in relativ standardisierter Form kodiert:
Author_name_-_Text_title_(year).txt
e.g.
Abraham_Manuel_FroÌhlich_-_Die_VerschuÌttung_im_Hauenstein_(1858).txt
Daher werden die Korpusdateien in einem separaten Notebook per RegEx in Metadaten ĂŒberfĂŒhrt. An dieser Stelle arbeiten wir mit den Metadaten, die aus diesem Parsing hervorgehen.
meta_gfc = pd.read_csv('../metadata/metadata_corpus-german_language_fiction.csv')
meta_gfc = meta_gfc[meta_gfc['DC.date'] > 1500] # removing super-old outliers
show(meta_gfc)
| Loading ITables v2.6.1 from the internet... (need help?) |
Analyse der zeitlichen Verteilung des Korpus#
Textanzahl der Texte im âCorpus of German Fictionâ pro Jahr:
Visualisierung der Verteilung pro Jahr
fig_year.show()
Anzahl der Texte pro Jahrzehnt
Visualisierung der Dekadenverteilung (Textanzahl pro Dekade)
fig_decade.show()
3.4.7. Bewertung und Entscheidung#
Die explorative Analyse erlaubt nun eine systematische Bewertung entlang der Kriterien von (Schöch, 2017).
Kriterium |
ELTeC-German |
d-Prose 1870â1920 |
Corpus of German Fiction |
|---|---|---|---|
Zeitliche Abdeckung |
mittel |
gering |
hoch |
DatenqualitÀt |
hoch |
hoch |
mittel |
ReprÀsentativitÀt |
hoch |
mittel |
mittel |
Umfang |
klein |
mittel |
groĂ |
VerfĂŒgbarkeit |
sehr gut |
gut |
gut |
Zwischenfazit
Das Corpus of German-Language Fiction bietet die gröĂte zeitliche Breite und damit die besten Voraussetzungen, um VerĂ€nderungen im sprachlichen Diskurs ĂŒber LuftqualitĂ€t im 19. Jahrhundert zu untersuchen.
Man erkennt, dass das Corpus of German-Language Fiction einerseits das einzige Korpus ist, das den fĂŒr unsere Forschung notwendigen Zeitraum abdeckt. Andererseits ist es â wie die Verteilung zeigt â eindeutig nicht balanciert. In den Metadaten oder in der Korpusbeschreibung gibt es zudem keinerlei Hinweise darauf, dass dieses Korpus als reprĂ€sentativ angelegt wurde.
FĂŒr die weiteren Analysen mĂŒssen wir das Korpus daher filtern. Dies erfolgt im nĂ€chsten Abschnitt.