4.1. Qualitätskriterien#

Der nationale Bildungsbericht stellt die Beispieldaten offen auf Basis von Bundesstatistikdaten zur Verfügung. Daher wird im Folgenden auf offene Daten (Open Data) und die Qualitätskriterien für Open Data eingegangen. Unter Open Data versteht man, dass die Daten im Netz frei verfügbar und nutzbar sind. Sie sollen durch die Möglichkeit einer freien Nachnutzung mehr Transparenz in der Forschung ermöglichen und sind ein Basiselement der Reproduzierbarkeit von Forschungsergebnissen, weshalb Open Data auch als Teil der Open-Science-Bewegung verstanden werden kann [Open Data, Open Access und Nachnutzung, 2023].

Anschließend werden Merkmale für Statistikdaten aufgezeigt, da diese für die Verwaltungswissenschaften von herausgehobener Bedeutung sind.

4.1.1. Qualitätsmerkmale für (offene) Daten und Metadaten#

Die inhaltliche und kontextuelle Qualität von Daten und Metadaten kann anhand von verschiedenen Qualitätsmerkmalen erfasst werden. In der Fachliteratur variieren die einzelnen Dimensionen je nach Disziplin und Kontext [Behkamal et al., 2014, Bruns et al., 2019, Neumaier et al., 2016, Vetrò et al., 2016]. Die nachfolgenden Qualitätsmerkmale bilden eine fachübergreifende Basis zur Evaluation der Datenqualität:

Weitere Informationen

Zur Steigerung der Qualität von CSV-Dateien haben das Fraunhofer FOKUS und die Pumacy Technologies AG im Rahmen des NQDM-Projektes (Normentwurf für qualitativ hochwertige Daten und Metadaten) eine Checkliste erarbeitet [Bruns et al., 2019].

4.1.2. Qualitätsmerkmale für Statistikdaten#

Im Rahmen des Verhaltenskodex für europäische Statistiken der Europäischen Union werden Qualitätskriterien für die statistische Datenerhebung und -aufbereitung aufgelistet und erläutert [Verhaltenskodex für europäische Statistiken, 2018]. Dieser Kodex legt die Basis für einen qualitativ hochwertigen Umgang mit statistischen Daten und ist angelehnt an die zehn Fundamental Principles of Official Statistics der Vereinten Nationen [Fundamental Principles of National Official Statistics, 2014]. Im nachfolgenden werden die Qualitätskriterien von “Statistischen Produkten” des Verhaltenskodex näher begutachtet:

  • Relevanz: Die bereitgestellten Statistiken bieten Mehrwert für die Nutzer:innen.

  • Genauigkeit und Zuverlässigkeit: Die bereitgestellten Statistiken sind fehlerfrei und detailliert.

  • Aktualität und Pünktlichkeit: Die bereitgestellten Statistiken werden regelmäßig aktualisiert und zum angesetzten Zeitpunkt fristgerecht veröffentlicht.

  • Kohärenz und Vergleichbarkeit: Die bereitgestellten Statistiken sind untereinander und im Zeitverlauf konsistent und mit anderen staatlich öffentlichten Statistiken vergleichbar. Hierbei steht die Möglichkeit der Datenkombination aus verschiedenen öffentlichen Institutionen im Vordergrund.

  • Zugänglichkeit und Klarheit: Die bereitgestellten Statistiken werden öffentlich zur Verfügung gestellt und sind leicht auffindbar. Zudem wird transparent und detailreich die Statistik inklusive der Datenerhebung und -auswertung sowie Inhalt zu den beteiligten Parteien angegeben.

Was fällt Ihnen an den beiden Auflistungen auf?

Es zeigt sich, dass Datenqualität und Datennachnutzung eng miteinander verknüpft sind, denn wer Daten nachnutzen möchte, profitiert von qualitätvollen Daten und Metadaten.

Bevor Sie im übernächsten Abschnitt mit dem 5-Sterne-Modell ein weiteres Bewertungsschema für Datenqualität kennenlernen, lassen Sie uns im nächsten Abschnitt noch einen Blick auf das Dateiformat werfen.

Literatur

[noa14]

Fundamental Principles of National Official Statistics. 2014. URL: https://unstats.un.org/unsd/dnss/gp/fundprinciples.aspx.

[noa18]

Verhaltenskodex für europäische Statistiken. 2018. URL: https://ec.europa.eu/eurostat/documents/4031688/9394019/KS-02-18-142-DE-N.pdf.

[BKBJ14] (1,2,3,4,5,6,7)

B. Behkamal, M. Kahani, E. Bagheri, and Z. Jeremic. A metrics-driven approach for quality assessment of linked open data. Journal of Theoretical and Applied Electronic Commerce Research, 9(2):64–79, 2014. doi:10.4067/S0718-18762014000200006.

[BDM19a]

Lina Bruns, Benjamin Dittwald, and Fritz Meiners. Checkliste zur Steigerung der Datenqualität von CSV-Dateien. 2019. URL: https://nqdm-projekt.de/de/downloads/leitfaden.

[BDM19b] (1,2,3,4)

Lina Bruns, Benjamin Dittwald, and Fritz Meiners. Leitfaden für qualitativ hochwertige Daten und Metadaten. Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS, 2019. URL: https://nqdm-projekt.de/de/downloads/leitfaden.

[NUP16]

Sebastian Neumaier, Jürgen Umbrich, and Axel Polleres. Automated Quality Assessment of Metadata across Open Data Portals. Journal of Data and Information Quality, 8(1):2:1–2:29, 2016. URL: https://dl.acm.org/doi/10.1145/2964909 (visited on 2024-04-23), doi:10.1145/2964909.

[PLW02] (1,2,3,4,5,6,7)

Leo L. Pipino, Yang W. Lee, and Richard Y. Wang. Data Quality Assessment. Communications of the ACM, 45(4):211–218, April 2002. URL: https://dl.acm.org/doi/10.1145/505248.506010 (visited on 2024-04-22), doi:10.1145/505248.506010.

[VPPH23] (1,2,3)

Krishna Vaddepalli, Victoria Palacin, Jari Porras, and Ari Happonen. Taxonomy of Data Quality Metrics in Digital Citizen Science. In Atulya K. Nagar, Dharm Singh Jat, Durgesh Kumar Mishra, and Amit Joshi, editors, Intelligent Sustainable Systems, 391–410. Singapore, 2023. Springer Nature. doi:10.1007/978-981-19-7660-5_34.

[VCT+16] (1,2,3,4,5,6)

Antonio Vetrò, Lorenzo Canova, Marco Torchiano, Camilo Orozco Minotas, Raimondo Iemma, and Federico Morando. Open data quality measurement framework: Definition and application to Open Government Data. Government Information Quarterly, 33(2):325–337, April 2016. URL: https://www.sciencedirect.com/science/article/pii/S0740624X16300132 (visited on 2024-04-22), doi:10.1016/j.giq.2016.02.001.