XLSX und CSV

4.2. XLSX und CSV#

In diesem Abschnitt werfen wir einen Blick auf Dateiformate. Aus der Bewertung der FAIRness der Daten im letzten Kapitel ging bereits hervor, dass Daten im Format XLSX unter bestimmten Gesichtspunkten Einschränkungen unterliegen können.

Dies unterstreicht das kurze Tutorial zu Datenqualität und Maschinenlesbarkeit tabellarischer Daten in Bezug auf CSV und XLSX, dass von der Open Data Informationsstelle Berlin, einem Projekt der Technologiestiftung Berlin, erstellt wurde. Dort erfahren Sie u. a., wie sich die beiden Formate unterscheiden und warum Excel-Tabellen oft nicht einwandfrei maschinenlesbar sind. Das Video wurde unter der Lizenz CC BY veröffentlicht.


Da Sie ab diesem Kapitel mit einem CSV-Datensatz arbeiten werden, muss die Excel-Tabelle des Berichts umgewandelt werden. Da sie nicht konvertiert werden soll und die Tabellen des Berichts nur im Format XLSX zur Verfügung stehen, muss die Rohdatenquelle für die Daten ermittelt werden.

Die Fig. 4.1 zeigt, dass am Ende der (Excel-)Tabelle H1-9web u. a. auf das Statistische Bundesamt (Destatis) als Quelle für die Rohdaten verwiesen wird.

Auschnitt einer Tabelle, auf dem eine Quelle der Daten hervorgehoben ist.

Fig. 4.1 Die Quelle verweist auf die Statistischen Ämter des Bundes und der Länder.#

Auf der unter dem oben angegebenen Link zu findenden Genesis-Datenbank von Destatis sind die relevanten Daten praktischerweise nach kurzer Recherche (Suche nach “Personal” und “Hochschule”) auszumachen.

Angezeigt werden dann mehrere Tabellen wie Fig. 4.2 zeigt. Die von uns benötigte hat den Code 21341-0001 und steht wahrscheinlich ganz oben in der Liste.

Screenshot einer Datensuche bei Destatis.

Fig. 4.2 Die benötigte Tabelle hat den Code 21341-0001.#

Nachdem Sie auf die Tabelle 21341-0001 geklickt haben, erscheint die Seite “Tabelle abrufen”. Unter “Tabellenaufbau” wählen wir noch das Jahr 2020 aus, weil wir zunächst ein Jahr bertrachten wollen. Beginnen Sie den Abruf der Werte mit einem Klick auf den Button (Werteabruf).

Sodann wird Ihnen die Tabelle bereits angezeigt. Sie können die Daten nun in verschiedenen Formaten auswählen. Destatis bietet hier andere Formate, die für eine maschinelle Weiterverabreitung geeigneter sind als CSV. Wir arbeiten für unsere Lernzwecke mit der CSV-Datei weiter, weil CSV ein häufig genutztes Format ist. Wählen Sie deshalb CSV aus und der Datensatz wird als 21341-0001_$F im Format CSV heruntergeladen.

Screenshot eines Datensatzes bei Destatis.

Fig. 4.3 Wählen Sie CSV als Dateiformat aus.#

Alternativ können Sie den Datensatz auch aus unserem Repository laden: CSV-Datensatz

Wunderbar, damit sind Sie bereit für die folgenden Kapitel!