4.3.6. Sichtung des Datensatzes#
Layout OpenRefine#
Als ersten Schritt in der Bereinigung eines Datensatzes lohnt es sich, diesen im Detail mit den Funktionen von OpenRefine zu sichten. So erhalten Sie eine genaue Vorstellung bezüglich des Inhalts jeder Spalte und möglicher Probleme und können diese anschließend zielorientiert angehen.
Nachdem die Importeinstellungen vorgenommen wurden, kann das Projekt über den Button Create Project erstellt werden:

Fig. 4.22 Create Project#
Nun öffnet sich das Hauptfenster von OpenRefine, in dem Sie während der Bereinigung eines Datensatzes die meiste Zeit verbringen werden.

Fig. 4.23 Hauptfenster#
Ihnen mag auffallen, dass nicht alle Zeilen gleichzeitig angezeigt werden. Die Anzeige sehr großer Datensätze kann OpenRefine deutlich verlangsamen, allerdings sollte das beim Übungsdatensatz nicht als Problem auftreten. Mittels dieser Menü-Elemente kann die maximale Anzahl an Zeilen festgelegt und zwischen ihnen navigiert werden:

Fig. 4.24 Menü-Elemente zur Zeilen-Navigation#
Innerhalb der Spalte All werden die Zeilen nummeriert und können für ein besseres Auffinden mit einer Flagge oder einem Stern markiert werden. Weder diese Markierungen noch die Nummerierung sind Teil das Datensatzes und werden nicht exportiert.
Export eines OpenRefine Projekts#
Während Ihrer Arbeit an dem Datensatz möchten Sie ggf. einen Zwischenschritt des OpenRefine-Projekts speichern.
Achtung
Denken Sie daran, regelmäßig Zwischenstände Ihres Projekts als eigene OpenRefine-Projektdateien abzuspeichern. Diese sollten sie so benennen, dass der Arbeitsstand aus dem Dateinamen ersichtlich ist (z.B. durch Einbindung des Bearbeitungsdatums, einer Versionsnummer, eines Kürzels der bearbeitenden Person etc.).
In OpenRefine können zwar Bearbeitungsschritte relativ einfach rückgängig gemacht werden, dennoch kann es ggf. nützlich sein, auf eine älteren Version der Datenbereinigung zurückgreifen zu können. Insbesondere vor größeren Bearbeitungsschritten wie z.B. dem Löschen ganzer Spalten oder Zeilen ist das Speichern einer Zwischenversion des Projekts sinnvoll.
Klicken Sie dazu auf das Export Dropdown-Menü in der oberen rechten Ecke der Benutzeroberfläche und wählen Sie den ersten Punkt OpenRefine project archive to file:

Fig. 4.25 Export eines OpenRefine Projekts#
Wählen Sie einen Speicherort und einen Dateinamen aus. Es empfiehlt sich für die Benennung der Export-Datei den vorgeschlagenen aktuellen Namen des Projekts beizubehalten und falls notwendig durch weitere Informationen zu ergänzen. Das Projekt wird im TAR Format gespeichert. Anschließend kehren Sie durch einen Klick auf den Open Button zum Startmenü von OpenRefine zurück. Hier können Sie das Projekt vom gewählten Speicherort aus re-importieren:

Fig. 4.26 Re-Import eines Projekts#
Im sich nun wieder öffnenden Hauptfenster benennen Sie mit einem Klick auf den aktuellen Namen das Projekt um. Geben Sie hierfür einen neuen oder modifizierten Projektnamen ein, z.B. mit angepasster Datumsangabe:

Fig. 4.27 Umbenennung eines Projekts#
Sichtung mittels Facets#
Zurück zum Datensatz selbst. In einem ersten Schritt ist es sinnvoll, den Inhalt jeder Spalte des Datensatzes zu überprüfen.
Text Facets#
Zu diesem Zweck kann ein sogenanntes Text Facet verwendet werden, um die Inhalte einer Spalte gebündelt auf der linken Seite des Hauptfensters anzuzeigen. Sie erstellen ein Text Facet, indem sie das Dropdown-Menü einer Spalte öffnen, dort Facet und anschließend Text Facet auswählen:

Fig. 4.28 Erstellung eines Text Facet#
Auf der linken Seite des Hauptfenster erscheint das erstellte Text Facet:

Fig. 4.29 Ein Text Facet für die Spalte Titel#
Am unteren Rand kann das Fenster verlängert werden. Im Falle der Spalte Titel werden 1176 choices angezeigt, also genauso viele Einträge wie Zeilen. Jede Zeile enthält somit die Informationen für einen Titel.
Ein Text Facet für die Spalte Jahr zeigt weniger choices an:

Fig. 4.30 Ein Text Facet für die Spalte Jahr#
Da sich mehrere Filme dasselbe Produktionsjahr teilen, gibt es in dieser Spalte deutlich weniger unterschiedliche Einträge. Standardmäßig ist das Text Facet alphabetisch sortiert. Diese Sortierung lässt sich auch auf count umstellen, also auf die Häufung pro Eintrag:

Fig. 4.31 Die Sortierung nach count#
Neben jedem Eintrag wird in grau dessen Häufung angezeigt. Mit Klick auf einen der Einträge, etwa das häufigste Jahr 1989, wird der Datensatz gefiltert, sodass nur noch Filme aus diesem Jahr angezeigt und bearbeitet werden.

Fig. 4.32 Filterung des Datensatzes nach dem Jahr 1989#
Mit einem Klick auf den Button invert kann diese Auswahl auch umgekehrt werden, sodass nur noch Filme ausgewählt sind, die nicht dem Jahr 1989 zugeordnet wurden.

Fig. 4.33 Invertierung des Text Filter#
Ein Klick auf den Button reset hebt die Filterung auf.
Bei der Erkundung eines Datensatzes haben Text Facets damit vor allem zwei Funktionen:
Sichtung des Inhalts von Spalten eines Datensatzes und von dort auftretenden Werthäufungen
Filterung des Datensatzes nach einzelnen Spalteninhalten, um nur eine Auswahl des Datensatzes zu betrachten und zu bearbeiten
Numeric Facet#
Über das Facet Dropdown-Menü können auch andere Arten von Facets ausgewählt werden. Anders als das Text Facet, das auf Text und Zahlen angewandt werden kann, funktioniert das Numeric Facet nur für Zahlen.
Das Numeric Facet ist praktisch, um den Datensatz hinsichtlich eines Zahlenraums zu filtern, etwa nach dem Zeitraum der Jahre 1989 bis 1994:

Fig. 4.34 Numeric Facet zur Auswahl des Zeitraums 1989 bis 1994#
Der Unterschied zwischen numerischen und textbasierten Datentypen besteht darin, dass Zahlen (numerische Datentype wie Integer oder Float) mathematisch interpretierbar sind – etwa zum Rechnen oder Vergleichen –, während Textwerte (Strings) lediglich als Zeichenfolgen behandelt werden. So kann etwa der Eintrag 1990 entweder als Text oder als Zahl vorliegen: Ist er als Text formatiert, erkennt OpenRefine ihn nicht als numerischen Wert – der Eintrag wird in diesem Fall von dem Numeric Facet nicht erfasst und auch Rechenoperationen lassen sich nicht auf ihn anwenden. Erst wenn der Eintrag korrekt in einen Zahlentyp konvertiert wurde, kann er als Zahl interpretiert werden.
Vermutlich ist Ihnen schon aufgefallen, dass in der Spalte Jahr manche Einträge grün markiert sind und andere nicht. Diese Einträge wurden bereits als Zahl erkannt und korrekt konvertiert, da beim Import die Option Attempt to parse cell text into numbers ausgewählt wurde (siehe Vorbereitung und Import des Datensatzes. Manche der Einträge konnten allerdings nicht als Zahl interpretiert werden, da sie nichtnumerische Zeichen wie Schrägstriche enthalten:

Fig. 4.35 Die unterschiedlichen Datentypen innerhalb der Spalte Jahr#
Sie können die Transformation To Number nutzen, um auch nachträglich die passenden Einträge innerhalb einer Spalte in numerische Werte umzuwandeln:

Fig. 4.36 Die Transformation To Number#
Auf die Spalte Jahr in ihrer aktuellen Form hat diese Transformation allerdings keine Wirkung. Die Einträge mit nicht-numerischen Zeichen wie Schrägstrichen werden weiterhin nicht als Zahlen erkannt, während jene Einträge, die nur aus Zahlen bestehen, bereits als solche während des Import des Datensatzes identifiziert wurden.
Text filter#
Mit einem Text Filter können Sie Spalten nach einem Text durchsuchen und den Datensatz nach den Ergebnissen filtern. Der Text Filter findet sich im Dropdown-Menü der Spalten unter den Facets:

Fig. 4.37 Auswahl des Text Filter#
Nun kann der Datensatz mittels eines Textfelds durchsucht werden. Im folgenden Beispiel wird der Text Filter auf die Spalte verantw.__Person angewandt und Filme von Olga Mielke ausgewählt.

Fig. 4.38 Anwendung des Text Filter#
Wie bei den Facets ist es möglich, den Text Filter zu invertieren, sodass nur noch Filme ohne Olga Mielke ausgewählt werden. Zudem gibt es innerhalb des Text Filter die zwei Optionen case sensitive und regular expression. In einer case sensitive Suche wird die Groß- bzw. Kleinschreibung des Suchbegriffs berücksichtigt, somit würde etwa ein Film von olga mielke nicht mehr ausgewählt werden. Zusätzlich können Sie auch nach Mustern innerhalb der Einträge mittels regular expressions oder Regex suchen. Im Abschnitt zur Standardisierung der Titel wird der Umgang mit Regex genauer erklärt.