6.5. 🏆Selbsttest: Wissen und Praxis#

Hinweis

Diese Übungsaufgaben dienen Ihrer SelbsteinschĂ€tzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.

Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.

So funktioniert es:

  • WĂ€hlen Sie bei jeder Frage die Antwort(en), die Sie fĂŒr richtig halten

  • Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfĂ€ltig durch

  • Die ErklĂ€rungen helfen Ihnen, Ihr VerstĂ€ndnis zu vertiefen – auch bei korrekten Antworten

Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um WissenslĂŒcken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.

GeschÀtzte Zeit: XXX

Viel Erfolg!

6.5.1. Frage 1#

6.5.2. Frage 2#

6.5.3. Frage 3#

6.5.4. Aufgabe 1: Ursachen und Konsequenzen von DatenqualitÀtsproblemen#

Ausgangssituation: Basierend auf dem Destatis-Beispiel aus dem Kapitel analysieren Sie die Ursachen von DatenqualitÀtsproblemen und deren Auswirkungen auf die Datenanalyse.

Teil A: Ursachenanalyse von DatenqualitÀtsproblemen#

ErklĂ€ren Sie fĂŒr jedes im Kapitel identifizierte Problem die zugrundeliegende Ursache:

  1. Problem: Umlaute werden als “\xe4”, “\xf6” angezeigt. Ursache:

  1. Problem: Metadaten und Tabellendaten sind vermischt. Ursache:

  1. Problem: Spalten haben generische Namen (V1, V2, V3). Ursache:

  1. Problem: Numerische Spalte wird als Text interpretiert. Ursache:

  1. Problem: Hierarchische Kategorien sind unĂŒbersichtlich vermischt. Ursache:

Teil B: Konsequenzen fĂŒr die Datenanalyse#

1. Konsequenz von falschen Datentypen:

Das Kapitel zeigt ein konkretes Beispiel mit der max()-Funktion. Beschreiben Sie:

  • Was geschah, als max() auf die character-Variable angewendet wurde?

  • Welches falsche Ergebnis wurde ausgegeben?

  • Was war das korrekte Ergebnis nach der Datentyp-Korrektur?

2. Konsequenz von schlechter Maschinenlesbarkeit:

Das Kapitel erwĂ€hnt Faktoren, die die CSV-Datei “schlechter maschinenlesbar” machen. Nennen Sie drei dieser Faktoren und erklĂ€ren Sie kurz, warum sie problematisch sind:

3. Konsequenz von Zeichenkodierungsproblemen:

  • Wie beeintrĂ€chtigen unleserliche Zeichen die Datenaufbereitung?

  • Warum empfiehlt das Kapitel UTF-8 als Standard-Zeichenkodierung?

6.5.5. Aufgabe 2: Tidy-Data-Prinzipien anwenden#

Szenario: Sie erhalten zwei Versionen einer Tabelle mit Studierendenzahlen. Bewerten Sie diese anhand der Tidy-Data-Prinzipien und schlagen Sie Verbesserungen vor.

Tabelle A (Problematisch):

Studiengang

2020_m/w

2021_m/w

Bemerkungen

Informatik

500/200

520/210

Trend steigend

Mathematik

300/400

290/420

Physik

250/150

260/160

Neue Professur 2021

SUMME

1050/750

1070/790

Gesamtzahl

Tabelle B (Verbessert):

Jahr

Studiengang

Geschlecht

Anzahl_Studierende

2020

Informatik

maennlich

500

2020

Informatik

weiblich

200

2020

Mathematik

maennlich

300

2020

Mathematik

weiblich

400

2021

Informatik

maennlich

520

2021

Informatik

weiblich

210

Tidy-Data-Bewertung

Bewerten Sie beide Tabellen anhand der drei Tidy-Data-Prinzipien:

  • Jede Variable ist eine Spalte

  • Jede Beobachtung ist eine Zeile

  • Jeder Wert wird einer Variable und einer Beobachtung zugeordnet

Problemidentifikation#

Identifizieren Sie mindestens 4 spezifische Probleme in Tabelle A, die gegen Tidy-Data-Prinzipien verstoßen:

Auswirkungen#

ErklĂ€ren Sie, warum diese Strukturprobleme die Datenaufbereitung und -analyse erschweren wĂŒrden:

Verbesserungsvorschlag#

Schlagen Sie vor, wie Tabelle A vollstĂ€ndig in eine Tidy-Data-Struktur ĂŒberfĂŒhrt werden könnte:

6.5.6. Reflexionsfrage#

Warum ist eine klare Datenstruktur besonders wichtig, wenn mehrere Personen an einem Datenprojekt arbeiten?