# üöÄ Korpusanalyse ‚Äì Textkomplexit√§t berechnen

## Hinweise zur Ausf√ºhrung des Notebooks
Dieses Notebook kann auf unterschiedlichen Levels erarbeitet werden (siehe Abschnitt ["Technische Voraussetzungen"](../introduction/introduction_requirements)): 
1. Book-Only Mode
2. Cloud Mode: Daf√ºr auf üöÄ klicken und z.B. in Colab ausf√ºhren.
3. Local Mode: Daf√ºr auf Herunterladen ‚Üì klicken und ".ipynb" w√§hlen.
   
## √úbersicht
Im Folgenden wird die Textkomplexit√§t der einzelnen Pressemitteilungen mit der Python-Bibliothek [readability](https://pypi.org/project/readability/) errechnet, f√ºr unterschiedliche Zeitabschnitte (Monate, Jahre) zusammengefasst und visualisiert. 
1. Einlesen des Korpus und der Metadaten
2. Errechnen der Komplexit√§tsma√üe

In [None]:
# import libraries for table processing and for compuation of readability metrics
from pathlib import Path
from multiprocessing import Pool, cpu_count
from functools import partial
import requests

import pandas as pd
import textstat
textstat.set_lang("de")

## 1. Einlesen der Daten und Metadaten
Exemplarisch lesen wir einen Text ein und extrahieren die Metadaten des Texts aus der Metadaten-Tabelle, um in einem sp√§teren Schritt das Datum der Ver√∂ffentlichung extrahieren zu k√∂nnen, um die Textkomplexit√§t diachron zu analysieren.

### Text einlesen

In [None]:
# üöÄ Create data directory path
corpus_path = Path(r"../data/txt")
if not corpus_path.exists():
    corpus_path.mkdir()

In [None]:
# üöÄ Load the text file from GitHub 
! wget https://raw.githubusercontent.com/quadriga-dk/Text-Fallstudie-2/refs/heads/main/data/txt/2011-01-04_id8787.txt -P ../data/txt

In [None]:
# set path to text
text_path = Path(r"../data/txt/1000035.txt")

# read text
text = text_path.read_text()
print(text)

In [None]:
# üöÄ Load the metadata file from GitHub 
! wget https://raw.githubusercontent.com/quadriga-dk/Text-Fallstudie-2/refs/heads/main/data/metadata.csv -P ../data

### Metadaten einlesen

In [None]:
# set path to metadata
metadata_path = "../data/metadata.csv"

# read metadata
metadata_df = pd.read_csv(metadata_path, sep=",")

Ersten f√ºnf Zeilen anzeigen lassen:

In [None]:
metadata_df.head()

Metadatum anhand von Dateinamen extrahieren:

In [None]:
current_meta_data = metadata_df[metadata_df.filename == text_path.name]
current_meta_data

## 2. Textkomplexit√§t berechnen 
Im folgenden berechnen wir mittels vier unterschiedlicher Metriken die Textkomplexit√§t. Alle Metriken verwenden f√ºr die Berechnung des Komplexit√§tsscores die durchschnittliche Satzl√§nge und nehmen unterschiedliche Worteingenschaften dazu. 
Zuerst verschaffen wir uns einen √úberblick √ºber die Texteigenschaften, um die Ergebnisse der Metriken besser bewerten zu k√∂nnen. 

In [None]:
print(f"Anzahl an Buchstaben: {textstat.letter_count(text)}")
print(f"Anzahl an S√§tzen: {textstat.sentence_count(text)}")
print(f"Anzahl an W√∂rtern: {textstat.lexicon_count(text)}")
print(f"Durchschnittliche Anzahl an Buchstaben pro Wort: {textstat.avg_character_per_word(text)}")
print(f"Durchschnittliche Anzahl an Silben pro Wort: {textstat.avg_syllables_per_word(text)}")
print(f"Durchschnittliche Satzl√§nge: {textstat.avg_sentence_length(text)}")
print(f"Anzahl an W√∂rtern mit drei oder mehr Silben: {textstat.polysyllabcount(text)}")
print(f"Anzahl an langen W√∂rtern: {textstat.long_word_count(text)}")

### 2.1 Flesch 
Berechnung:
`180 - SL - (58,5 √ó ASW)` \
SL = Durchschnittliche Satzl√§nge (Anzahl der W√∂rter geteilt durch Anzahl der S√§tze) \
ASW = Durchschnittliche Silbenzahl pro Wort (Anzahl der Silben geteilt durch Anzahl der W√∂rter) \

Interpretation: 0 (sehr schwierig) bis 100 (sehr leicht)




In [None]:
textstat.flesch_reading_ease(text)

Ein Score zwischen 30 und 50 gibt eine hohe Schwierigkeit an, ungef√§hrt √§quivalent zum Niveau von Bachelorstudierenden.

### 2.2 Wiener Sachtextformel
Berechnung: `(0,2007 √ó MS) + (0,1682 √ó ASL) + (0,1373 √ó IW) - 2,779`

MS = Prozentsatz der W√∂rter mit drei oder mehr Silben \
SL = Durchschnittliche Satzl√§nge (Anzahl der W√∂rter geteilt durch Anzahl der S√§tze) \
IW = Anzahl an langen W√∂rtern (l√§nger als sechs Buchstaben) \

4 (leicht) bis 15 (schwierig), orientiert an Schulklassen


In [None]:
textstat.wiener_sachtextformel(text, variant=2)

Die aufs Deutsche ausgelegte Wiener Sachtextformel stuft den Text auch als schwierig ein, etwa auf das Niveau der zw√∂lften Klasse. 

### 2.3 Automated Readability Index (ARI)
Berechnung: 4,71 √ó WL + 0,5 √ó SL - 21,43

WL: Durchschnittliche Wortl√§nge in Buchstaben (Anzahl der Zeichen geteilt durch Anzahl der W√∂rter) \
SL: Durchschnittliche Satzl√§nge (Anzahl der W√∂rter geteilt durch Anzahl der S√§tze) \

1 (sehr leicht) bis 14 (schwierig), orientiert an Schulklassen

In [None]:
textstat.automated_readability_index(text)

Laut dem ARI wird der Text als √§u√üerst schwieriger eingestuft und ist mit einem Score √ºber 14 au√üerhalb der festgelegten Skala.

### 2.4 Coleman-Liau Index
Berechnung: `0,0588 √ó L - 0,296 √ó S - 15,8`



L = Durchschnittliche Anzahl von Buchstaben pro 100 W√∂rter \
S = Durchschnittliche Anzahl von S√§tzen pro 100 W√∂rter \

Interpretation: 1 (sehr leicht) bis 14 (schwierig), orientiert an Schulklassen


In [None]:
textstat.coleman_liau_index(text)

Wie bei ARI liegt auch beim Coleman-Liau Index der Index au√üerhalb der angedachten Skala und ist somit als sehr schwierig zu beurteilen.

## 3. Berechnung auf dem gesamten Korpus 

In [None]:
# üöÄ Create download list 
github_api_txt_dir_path = "https://github.com/quadriga-dk/Text-Fallstudie-2/tree/main/data/txt"
txt_dir_info = requests.get(github_api_txt_dir_path).json()
url_list = [entry["download_url"] for entry in txt_dir_info]

# üöÄ Write download list as txt file
url_list_path = Path("github_txt_file_urls.txt")
with url_list_path.open('w') as output_txt:
    output_txt.write("\n".join(url_list))

In [None]:
# ‚ö†Ô∏è Only execute, if you haven't downloaded the files yet!
# üöÄ Download all txt files ‚Äì this step will take a while
! wget -i github_txt_file_urls.txt -P ../data/txt

Setzen des Pfads zum Korpus-Ordner:

In [None]:
corpus_path = Path(r"../data/txt/")

Korpus einlesen:

In [None]:
# Create dictionary to save the filenames and the text
corpus = {"filename":[], "text":[]}

# Iterate corpus directory, read text, save filename and text to corpus dict
for fp in corpus_path.iterdir():
    if fp.is_file():
        corpus["filename"].append(fp.name)
        corpus["text"].append(fp.read_text())

Scores pro Text berechnen:

In [None]:
readability_scores = {}

# for speed, we use multiprocessing for computing the scores 
with Pool(cpu_count()) as p:
    readability_scores["Flesch"] = p.map(textstat.flesch_reading_ease, corpus["text"])
    readability_scores["Wiener_Sachtextformel"] = p.map(partial(textstat.wiener_sachtextformel, variant=1), corpus["text"])
    readability_scores["ARI"] = p.map(textstat.automated_readability_index, corpus["text"])
    readability_scores["Coleman_Liau"] = p.map(textstat.coleman_liau_index, corpus["text"])

# add scores to corpus dictionary
for measure, score in readability_scores.items():
    corpus[measure] = score

# transform to DataFrame
corpus_df = pd.DataFrame(corpus)
# delete text column
corpus_df = corpus_df.drop(["text"], axis=1)
corpus_df.head()

## 4. Zusammenf√ºgen der Scores mit den Metadaten 
Korpusdaten mit dem Metadaten zusammenf√ºgen. Die Eintr√§ge werden √ºber den Dateinamen einander zugeordnet.

In [None]:
metadata_df = metadata_df.merge(corpus_df)
metadata_df.head()

## 5. Ergebnis speichern  

In [None]:
# üöÄ Create result directory path
result_path = Path(r"../results")
if not result_path.exists():
    result_path.mkdir()

In [None]:
result_path = Path(r"../results")
metadata_df.to_csv(result_path / "metadata_with_readability_scores.csv", index=False)