4.6. 🏆Selbsttest: Wissen und Praxis#
Hinweis
Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.
Sie können die Fragen in beliebiger Reihenfolge bearbeiten und die Beantwortung auch mehrfach versuchen.
So funktioniert es:
Wählen Sie bei jeder Frage die Antwort(en) aus, die Sie für richtig halten
Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfältig durch
Die Erklärungen helfen Ihnen, Ihr Verständnis zu vertiefen – auch bei korrekten Antworten
Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um Wissenslücken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels nochmals zu bearbeiten.
Geschätzte Zeit: XX
Viel Erfolg!
4.6.1. Aufgabe 1#
4.6.2. Aufgabe 2#
Bewerten Sie folgende Aussagen zu Datenmodellen:
4.6.3. Aufgabe 3#
4.6.4. Aufgabe 4#
Szenario: Sie erhalten einen OPAC-Datenauszug mit folgenden Beispieleinträgen:
ID: 12458
Titel: Stilles Land
Jahr: 1992
sonstige Person: Dresen, Andreas [Regie] ; Höfer, Andreas [Kamera] ; Stieler, Laila [Drehbuch]
Umfang/Format: 35mm, 2690m, 98 Min, 24fps, Farbe, Mono
Schlagwort: Spielfilm ; Drama/A
Stichwörter: Wende, Provinz, Theater, Kleinstadt
Analysieren Sie diese Datenstruktur systematisch:
Identifizieren Sie Probleme für die maschinelle Auswertung
Bewerten Sie die Datenqualität des Auszugs
Musterlösung
1. Probleme für die maschinelle Auswertung:
In einem Feld sind mehrere Werte vorhanden (sonstige Person, Umfang/Format, Schlagwort, Stichwörter)
Verschiedene Trennzeichen (Semikolon, Komma)
Komma wird auch als Zeichen in Einträgen verwendet (z.B. Personenangabe Nachname, Vorname)
Gemischte Informationstypen in einem Feld (Format, Länge, Dauer, etc. in Umfang/Format)
Strukturierte und unstrukturierte Informationen sind vermischt
Leerzeichen um Trennzeichen sind inkonsistent
2. Beurteilung der Datenqualität:
Eine ID ist vorhanden, dies ist wichtig für die eindeutige Identifikation eines Eintrages
Eine Jahreszahl für eine zeitliche Einordnung ist vorhanden
Die Gewerke sind klar zugeordnet
Die Schlagworte folgen einem kontrollierten Vokabular, dadurch wird eine einheitliche Beschreibung vereinfacht
Die Stichwörter sind frei vergeben; dies kann zu Inkonsistenzen führen aber auch individuelle Beschreibungen ermöglichen
Technische Angaben zum Filmwerk sind vorhanden
4.6.5. Aufgabe 5#
Szenario: In einem Datensatz finden Sie folgende problematische Jahresangaben:
[1995]
ca. 1997
1990/91
1993-1995
1999
Entwickeln Sie eine systematische Bereinigungsstrategie mit OpenRefine:
Identifizierung der Probleme
Notwendige Bereinigungsschritte
Verwendung geeigneter OpenRefine-Funktionen
Musterlösung
1. Probleme identifizieren:
Eckige Klammern bei Jahren
“ca.” Zusätze für Schätzungen
Verschiedene Trennzeichen für Jahresbereiche (/, -)
Abgekürzte Jahreszahlen (91 statt 1991)
2. Bereinigungsschritte:
Übersicht über die Art der verschiedenen Jahresangaben
Entfernung der Zusätze (eckige Klammern)
Normalisierung der Trennzeichen (z.B. ; statt / oder -)
Ergänzung abgekürzter Jahreszahlen
Neue Spalte für Schätzungsangaben erstellen (contains-Methode)
Aufteilung in separate Jahresspalten
3. OpenRefine-Funktionen:
Text Facet für Übersicht
Cluster für ähnliche Einträge
GREL Transform für Bereinigung (replace- und contains-Methode)
„Add column based on this column” für neue Spalte für Schätzungen
„Split into several columns” für Aufteilung der Spalten
4.6.6. Aufgabe 6#
Bewerten Sie folgende Aussagen zu OpenRefine: