6.5. đSelbsttest: Wissen und Praxis#
Hinweis
Diese Ăbungsaufgaben dienen Ihrer SelbsteinschĂ€tzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.
Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.
So funktioniert es:
WĂ€hlen Sie bei jeder Frage die Antwort(en), die Sie fĂŒr richtig halten
Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfÀltig durch
Die ErklĂ€rungen helfen Ihnen, Ihr VerstĂ€ndnis zu vertiefen â auch bei korrekten Antworten
Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um WissenslĂŒcken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.
GeschÀtzte Zeit: XXX
Viel Erfolg!
6.5.1. Frage 1#
6.5.2. Frage 2#
6.5.3. Frage 3#
6.5.4. Aufgabe 1: Ursachen und Konsequenzen von DatenqualitÀtsproblemen#
Ausgangssituation: Basierend auf dem Destatis-Beispiel aus dem Kapitel analysieren Sie die Ursachen von DatenqualitÀtsproblemen und deren Auswirkungen auf die Datenanalyse.
Teil A: Ursachenanalyse von DatenqualitÀtsproblemen#
ErklĂ€ren Sie fĂŒr jedes im Kapitel identifizierte Problem die zugrundeliegende Ursache:
Problem: Umlaute werden als â\xe4â, â\xf6â angezeigt. Ursache:
Problem: Metadaten und Tabellendaten sind vermischt. Ursache:
Problem: Spalten haben generische Namen (V1, V2, V3). Ursache:
Problem: Numerische Spalte wird als Text interpretiert. Ursache:
Problem: Hierarchische Kategorien sind unĂŒbersichtlich vermischt. Ursache:
Teil B: Konsequenzen fĂŒr die Datenanalyse#
1. Konsequenz von falschen Datentypen:
Das Kapitel zeigt ein konkretes Beispiel mit der max()-Funktion. Beschreiben Sie:
Was geschah, als max() auf die character-Variable angewendet wurde?
Welches falsche Ergebnis wurde ausgegeben?
Was war das korrekte Ergebnis nach der Datentyp-Korrektur?
2. Konsequenz von schlechter Maschinenlesbarkeit:
Das Kapitel erwĂ€hnt Faktoren, die die CSV-Datei âschlechter maschinenlesbarâ machen. Nennen Sie drei dieser Faktoren und erklĂ€ren Sie kurz, warum sie problematisch sind:
3. Konsequenz von Zeichenkodierungsproblemen:
Wie beeintrÀchtigen unleserliche Zeichen die Datenaufbereitung?
Warum empfiehlt das Kapitel UTF-8 als Standard-Zeichenkodierung?
Musterlösung
Teil A: Ursachenanalyse
Umlaute-Problem:
Ursache: Die Datei war in ISO 8859-1 (âLatin-1â) kodiert, wurde aber als UTF-8 interpretiert.
Metadaten-Vermischung:
Ursache: Die Metadaten wurden direkt in die CSV-Datei eingefĂŒgt statt in einem separaten Metadatenbereich gespeichert.
Generische Spaltennamen:
Ursache: Die CSV-Datei hatte keine Header-Zeile (header = FALSE), daher wurden automatisch generische Namen (V1, V2, V3) vergeben.
Falsche Datentypen:
Ursache: Beim Einlesen werden alle Daten standardmĂ€Ăig als character (Text) interpretiert, ohne automatische Erkennung numerischer Werte.
Hierarchie-Problem:
Ursache: Verschiedene Hierarchieebenen wurden nicht in separate Variablen strukturiert, sondern unĂŒbersichtlich in einer einzigen Spalte vermischt.
Teil B: Konsequenzen fĂŒr die Datenanalyse
Konsequenz von falschen Datentypen:
max() gab â99730â zurĂŒck statt des tatsĂ€chlichen Maximums
Dies war das falsche Ergebnis, weil bei character-Daten alphabetisch sortiert wird, nicht numerisch
Das korrekte Ergebnis war 759065 nach der Konvertierung zu integer
Konsequenz von schlechter Maschinenlesbarkeit:
Fehlende SpaltenĂŒberschriften: Programme können nicht automatisch erkennen, was die Daten bedeuten
Metadaten in der Tabelle: Stört die einheitliche Datenstruktur und erschwert automatische Verarbeitung
Umlaute/Sonderzeichen: FĂŒhren zu Anzeigeproblemen und KompatibilitĂ€tsproblemen mit anderen Programmen
Konsequenz von Zeichenkodierungsproblemen:
Unleserliche Zeichen machen Daten unverstÀndlich und Filter-/Suchfunktionen funktionieren nicht korrekt
UTF-8 gewĂ€hrleistet laut Kapitel âgröĂtmögliche KompatibilitĂ€t zu anderen Programmenâ und vermeidet Probleme bei der maschinellen Verarbeitung
6.5.5. Aufgabe 2: Tidy-Data-Prinzipien anwenden#
Szenario: Sie erhalten zwei Versionen einer Tabelle mit Studierendenzahlen. Bewerten Sie diese anhand der Tidy-Data-Prinzipien und schlagen Sie Verbesserungen vor.
Tabelle A (Problematisch):
Studiengang |
2020_m/w |
2021_m/w |
Bemerkungen |
---|---|---|---|
Informatik |
500/200 |
520/210 |
Trend steigend |
Mathematik |
300/400 |
290/420 |
|
Physik |
250/150 |
260/160 |
Neue Professur 2021 |
SUMME |
1050/750 |
1070/790 |
Gesamtzahl |
Tabelle B (Verbessert):
Jahr |
Studiengang |
Geschlecht |
Anzahl_Studierende |
---|---|---|---|
2020 |
Informatik |
maennlich |
500 |
2020 |
Informatik |
weiblich |
200 |
2020 |
Mathematik |
maennlich |
300 |
2020 |
Mathematik |
weiblich |
400 |
2021 |
Informatik |
maennlich |
520 |
2021 |
Informatik |
weiblich |
210 |
Tidy-Data-Bewertung
Bewerten Sie beide Tabellen anhand der drei Tidy-Data-Prinzipien:
Jede Variable ist eine Spalte
Jede Beobachtung ist eine Zeile
Jeder Wert wird einer Variable und einer Beobachtung zugeordnet
Problemidentifikation#
Identifizieren Sie mindestens 4 spezifische Probleme in Tabelle A, die gegen Tidy-Data-Prinzipien verstoĂen:
Auswirkungen#
ErklĂ€ren Sie, warum diese Strukturprobleme die Datenaufbereitung und -analyse erschweren wĂŒrden:
Verbesserungsvorschlag#
Schlagen Sie vor, wie Tabelle A vollstĂ€ndig in eine Tidy-Data-Struktur ĂŒberfĂŒhrt werden könnte:
Musterlösung
1. Tidy-Data-Bewertung:
Tabelle A:
X Prinzip 1 (Jede Variable ist eine Spalte): Verletzt - Jahr und Geschlecht sind in den SpaltenĂŒberschriften kombiniert
X Prinzip 2 (Jede Beobachtung ist eine Zeile): Verletzt - MĂ€nnliche und weibliche Studierende sind in derselben Zelle kombiniert
X Prinzip 3 (Ein Wert pro Zelle): Verletzt - Zellen enthalten mehrere Werte (z.B. â500/200â)
Tabelle B:
â Prinzip 1: ErfĂŒllt - Jahr, Studiengang, Geschlecht und Anzahl sind separate Spalten
â Prinzip 2: ErfĂŒllt - Jede Zeile reprĂ€sentiert eine einzigartige Beobachtung
â Prinzip 3: ErfĂŒllt - Jede Zelle enthĂ€lt genau einen Wert
2. Problemidentifikation in Tabelle A:
Mehrere Werte pro Zelle: â500/200â kombiniert mĂ€nnliche und weibliche Zahlen
Variablen in SpaltenĂŒberschriften: Jahr (2020, 2021) ist in den Spaltenköpfen, nicht als eigene Variable
Berechnungen in den Daten: SUMME-Zeile enthÀlt berechnete Werte, nicht Rohdaten
Nicht-datenbezogene Informationen: Bemerkungen-Spalte enthÀlt narrative Informationen, die nicht zur eigentlichen Datenanalyse gehören
Inkonsistente Datentypen: Mischung aus numerischen Daten und Text in derselben Struktur
3. Auswirkungen auf Datenaufbereitung:
Erschwerte Filterung: Man kann nicht einfach nach Geschlecht oder Jahr filtern
Komplizierte Berechnungen: Mathematische Operationen erfordern erst das Aufteilen der kombinierten Werte
Problematische Sortierung: Sortierung nach numerischen Werten ist nicht direkt möglich
Visualisierungsprobleme: Die meisten Plotting-Funktionen erwarten separate Variablen fĂŒr verschiedene Dimensionen
Fehlende Konsistenz: Unterschiedliche Informationstypen in einer Tabelle erschweren einheitliche Verarbeitung
4. VollstÀndiger Verbesserungsvorschlag:
Jahr |
Studiengang |
Geschlecht |
Anzahl_Studierende |
Bemerkung |
---|---|---|---|---|
2020 |
Informatik |
maennlich |
500 |
NA |
2020 |
Informatik |
weiblich |
200 |
NA |
2020 |
Mathematik |
maennlich |
300 |
NA |
2020 |
Mathematik |
weiblich |
400 |
NA |
2020 |
Physik |
maennlich |
250 |
NA |
2020 |
Physik |
weiblich |
150 |
NA |
2021 |
Informatik |
maennlich |
520 |
Trend_steigend |
2021 |
Informatik |
weiblich |
210 |
Trend_steigend |
2021 |
Mathematik |
maennlich |
290 |
NA |
2021 |
Mathematik |
weiblich |
420 |
NA |
2021 |
Physik |
maennlich |
260 |
Neue_Professur_2021 |
2021 |
Physik |
weiblich |
160 |
Neue_Professur_2021 |
ZusÀtzliche Empfehlungen:
SUMME-Zeilen entfernen (können bei Bedarf durch Berechnungen erstellt werden)
Bemerkungen in separate Metadaten-Tabelle auslagern oder standardisierte Codes verwenden
Konsistente Bezeichnungen ohne Umlaute fĂŒr bessere Maschinenlesbarkeit
6.5.6. Reflexionsfrage#
Warum ist eine klare Datenstruktur besonders wichtig, wenn mehrere Personen an einem Datenprojekt arbeiten?
Musterantwort
Eine klare Datenstruktur ist bei Teamarbeit essentiell, weil sie Konsistenz und VerstĂ€ndlichkeit gewĂ€hrleistet. Wie im Kapitel am Beispiel der Namensgebung (Dr. Max Tom Mustermann) gezeigt, können inkonsistente Strukturen die VerknĂŒpfung und Analyse von Daten erheblich erschweren. Tidy-Data-Prinzipien schaffen einen gemeinsamen Standard, der es allen Teammitgliedern ermöglicht, die Daten zu verstehen und effektiv damit zu arbeiten, ohne aufwendige RĂŒcksprachen oder Interpretationen. Dies reduziert Fehlerquellen und beschleunigt den gesamten Analyseprozess.