🏆Selbsttest: Wissen und Praxis

6.5. 🏆Selbsttest: Wissen und Praxis#

Hinweis

Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.

Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.

So funktioniert es:

Wählen Sie bei jeder Frage die Antwort(en), die Sie für richtig halten
Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfältig durch
Die Erklärungen helfen Ihnen, Ihr Verständnis zu vertiefen – auch bei korrekten Antworten

Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um Wissenslücken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.

Geschätzte Zeit: 15-30 Minuten

Viel Erfolg!

6.5.1. Frage 1#

6.5.2. Frage 2#

6.5.3. Frage 3#

6.5.4. Aufgabe 1: Ursachen und Konsequenzen von Datenqualitätsproblemen#

Ausgangssituation: Basierend auf dem Destatis-Beispiel aus dem Kapitel analysieren Sie die Ursachen von Datenqualitätsproblemen und deren Auswirkungen auf die Datenanalyse.

Teil A: Ursachenanalyse von Datenqualitätsproblemen#

Erklären Sie für jedes im Kapitel identifizierte Problem die zugrundeliegende Ursache:

Problem: Umlaute werden als “\xe4”, “\xf6” angezeigt. Ursache:

Problem: Metadaten und Tabellendaten sind vermischt. Ursache:

Problem: Spalten haben generische Namen (V1, V2, V3). Ursache:

Problem: Numerische Spalte wird als Text interpretiert. Ursache:

Problem: Hierarchische Kategorien sind unübersichtlich vermischt. Ursache:

Teil B: Konsequenzen für die Datenanalyse#

1. Konsequenz von falschen Datentypen:

Das Kapitel zeigt ein konkretes Beispiel mit der max()-Funktion. Beschreiben Sie:

Was geschah, als max() auf die character-Variable angewendet wurde?

Welches falsche Ergebnis wurde ausgegeben?

Was war das korrekte Ergebnis nach der Datentyp-Korrektur?

2. Konsequenz von schlechter Maschinenlesbarkeit:

Das Kapitel erwähnt Faktoren, die die CSV-Datei “schlechter maschinenlesbar” machen. Nennen Sie drei dieser Faktoren und erklären Sie kurz, warum sie problematisch sind:

3. Konsequenz von Zeichenkodierungsproblemen:

Wie beeinträchtigen unleserliche Zeichen die Datenaufbereitung?

Warum empfiehlt das Kapitel UTF-8 als Standard-Zeichenkodierung?

Musterlösung

Teil A: Ursachenanalyse

Umlaute-Problem:
- Ursache: Die Datei war in ISO 8859-1 (“Latin-1”) kodiert, wurde aber als UTF-8 interpretiert.
Metadaten-Vermischung:
- Ursache: Die Metadaten wurden direkt in die CSV-Datei eingefügt statt in einem separaten Metadatenbereich gespeichert.
Generische Spaltennamen:
- Ursache: Die CSV-Datei hatte keine Header-Zeile (header = FALSE), daher wurden automatisch generische Namen (V1, V2, V3) vergeben.
Falsche Datentypen:
- Ursache: Beim Einlesen werden alle Daten standardmäßig als character (Text) interpretiert, ohne automatische Erkennung numerischer Werte.
Hierarchie-Problem:
- Ursache: Verschiedene Hierarchieebenen wurden nicht in separate Variablen strukturiert, sondern unübersichtlich in einer einzigen Spalte vermischt.

Teil B: Konsequenzen für die Datenanalyse

Konsequenz von falschen Datentypen:
- max() gab “99730” zurück statt des tatsächlichen Maximums
- Dies war das falsche Ergebnis, weil bei character-Daten alphabetisch sortiert wird, nicht numerisch
- Das korrekte Ergebnis war 759065 nach der Konvertierung zu integer
Konsequenz von schlechter Maschinenlesbarkeit:
- Fehlende Spaltenüberschriften: Programme können nicht automatisch erkennen, was die Daten bedeuten
- Metadaten in der Tabelle: Stört die einheitliche Datenstruktur und erschwert automatische Verarbeitung
- Umlaute/Sonderzeichen: Führen zu Anzeigeproblemen und Kompatibilitätsproblemen mit anderen Programmen
Konsequenz von Zeichenkodierungsproblemen:
- Unleserliche Zeichen machen Daten unverständlich und Filter-/Suchfunktionen funktionieren nicht korrekt
- UTF-8 gewährleistet laut Kapitel “größtmögliche Kompatibilität zu anderen Programmen” und vermeidet Probleme bei der maschinellen Verarbeitung

6.5.5. Aufgabe 2: Tidy-Data-Prinzipien anwenden#

Szenario: Sie erhalten zwei Versionen einer Tabelle mit Studierendenzahlen. Bewerten Sie diese anhand der Tidy-Data-Prinzipien und schlagen Sie Verbesserungen vor.

Tabelle A (Problematisch):

Studiengang	2020_m/w	2021_m/w	Bemerkungen
Informatik	500/200	520/210	Trend steigend
Mathematik	300/400	290/420
Physik	250/150	260/160	Neue Professur 2021
SUMME	1050/750	1070/790	Gesamtzahl

Tabelle B (Verbessert):

Jahr	Studiengang	Geschlecht	Anzahl_Studierende
2020	Informatik	maennlich	500
2020	Informatik	weiblich	200
2020	Mathematik	maennlich	300
2020	Mathematik	weiblich	400
2021	Informatik	maennlich	520
2021	Informatik	weiblich	210

Tidy-Data-Bewertung

Bewerten Sie beide Tabellen anhand der drei Tidy-Data-Prinzipien:

Jede Variable ist eine Spalte
Jede Beobachtung ist eine Zeile
Jeder Wert wird einer Variable und einer Beobachtung zugeordnet

Problemidentifikation#

Identifizieren Sie mindestens 4 spezifische Probleme in Tabelle A, die gegen Tidy-Data-Prinzipien verstoßen:

Auswirkungen#

Erklären Sie, warum diese Strukturprobleme die Datenaufbereitung und -analyse erschweren würden:

Verbesserungsvorschlag#

Schlagen Sie vor, wie Tabelle A vollständig in eine Tidy-Data-Struktur überführt werden könnte:

Musterlösung

1. Tidy-Data-Bewertung:

Tabelle A:

X Prinzip 1 (Jede Variable ist eine Spalte): Verletzt - Jahr und Geschlecht sind in den Spaltenüberschriften kombiniert
X Prinzip 2 (Jede Beobachtung ist eine Zeile): Verletzt - Männliche und weibliche Studierende sind in derselben Zelle kombiniert
X Prinzip 3 (Ein Wert pro Zelle): Verletzt - Zellen enthalten mehrere Werte (z.B. “500/200”)

Tabelle B:

✓ Prinzip 1: Erfüllt - Jahr, Studiengang, Geschlecht und Anzahl sind separate Spalten
✓ Prinzip 2: Erfüllt - Jede Zeile repräsentiert eine einzigartige Beobachtung
✓ Prinzip 3: Erfüllt - Jede Zelle enthält genau einen Wert

2. Problemidentifikation in Tabelle A:

Mehrere Werte pro Zelle: “500/200” kombiniert männliche und weibliche Zahlen
Variablen in Spaltenüberschriften: Jahr (2020, 2021) ist in den Spaltenköpfen, nicht als eigene Variable
Berechnungen in den Daten: SUMME-Zeile enthält berechnete Werte, nicht Rohdaten
Nicht-datenbezogene Informationen: Bemerkungen-Spalte enthält narrative Informationen, die nicht zur eigentlichen Datenanalyse gehören
Inkonsistente Datentypen: Mischung aus numerischen Daten und Text in derselben Struktur

3. Auswirkungen auf Datenaufbereitung:

Erschwerte Filterung: Man kann nicht einfach nach Geschlecht oder Jahr filtern
Komplizierte Berechnungen: Mathematische Operationen erfordern erst das Aufteilen der kombinierten Werte
Problematische Sortierung: Sortierung nach numerischen Werten ist nicht direkt möglich
Visualisierungsprobleme: Die meisten Plotting-Funktionen erwarten separate Variablen für verschiedene Dimensionen
Fehlende Konsistenz: Unterschiedliche Informationstypen in einer Tabelle erschweren einheitliche Verarbeitung

4. Vollständiger Verbesserungsvorschlag:

Jahr	Studiengang	Geschlecht	Anzahl_Studierende	Bemerkung
2020	Informatik	maennlich	500	NA
2020	Informatik	weiblich	200	NA
2020	Mathematik	maennlich	300	NA
2020	Mathematik	weiblich	400	NA
2020	Physik	maennlich	250	NA
2020	Physik	weiblich	150	NA
2021	Informatik	maennlich	520	Trend_steigend
2021	Informatik	weiblich	210	Trend_steigend
2021	Mathematik	maennlich	290	NA
2021	Mathematik	weiblich	420	NA
2021	Physik	maennlich	260	Neue_Professur_2021
2021	Physik	weiblich	160	Neue_Professur_2021

Zusätzliche Empfehlungen:

SUMME-Zeilen entfernen (können bei Bedarf durch Berechnungen erstellt werden)
Bemerkungen in separate Metadaten-Tabelle auslagern oder standardisierte Codes verwenden
Konsistente Bezeichnungen ohne Umlaute für bessere Maschinenlesbarkeit

6.5.6. Reflexionsfrage#

Warum ist eine klare Datenstruktur besonders wichtig, wenn mehrere Personen an einem Datenprojekt arbeiten?

Musterantwort

Eine klare Datenstruktur ist bei Teamarbeit essentiell, weil sie Konsistenz und Verständlichkeit gewährleistet. Wie im Kapitel am Beispiel der Namensgebung (Dr. Max Tom Mustermann) gezeigt, können inkonsistente Strukturen die Verknüpfung und Analyse von Daten erheblich erschweren. Tidy-Data-Prinzipien schaffen einen gemeinsamen Standard, der es allen Teammitgliedern ermöglicht, die Daten zu verstehen und effektiv damit zu arbeiten, ohne aufwendige Rücksprachen oder Interpretationen. Dies reduziert Fehlerquellen und beschleunigt den gesamten Analyseprozess.