4.1. Qualitätskriterien#
Der nationale Bildungsbericht stellt die Beispieldaten offen auf Basis von Bundesstatistikdaten zur Verfügung. Daher wird im Folgenden auf offene Daten (Open Data) und die Qualitätskriterien für Open Data eingegangen. Unter Open Data versteht man, dass die Daten im Netz frei verfügbar und nutzbar sind. Sie sollen durch die Möglichkeit einer freien Nachnutzung mehr Transparenz in der Forschung ermöglichen und sind ein Basiselement der Reproduzierbarkeit von Forschungsergebnissen, weshalb Open Data auch als Teil der Open-Science-Bewegung verstanden werden kann [Open Data, Open Access und Nachnutzung, 2023].
Anschließend werden Merkmale für Statistikdaten aufgezeigt, da diese für die Verwaltungswissenschaften von herausgehobener Bedeutung sind.
4.1.1. Qualitätsmerkmale für (offene) Daten und Metadaten#
Die inhaltliche und kontextuelle Qualität von Daten und Metadaten kann anhand von verschiedenen Qualitätsmerkmalen erfasst werden. In der Fachliteratur variieren die einzelnen Dimensionen je nach Disziplin und Kontext [Behkamal et al., 2014, Bruns et al., 2019, Neumaier et al., 2016, Vetrò et al., 2016]. Die nachfolgenden Qualitätsmerkmale bilden eine fachübergreifende Basis zur Evaluation der Datenqualität:
Fehlerfreiheit: Die Daten und Metadaten sind fehlerfrei. Somit sind nur korrekte Werte in der Datei vorhanden [Pipino et al., 2002, Vaddepalli et al., 2023].
Aktualität: Die Daten und Metadaten sind auf dem neuesten Stand und werden in regelmäßigen Intervallen überprüft. Das Aktualisierungsintervall ist in den Metadaten mit angegeben. Die Datei enthält eine Versionsnummer, aus welcher erkenntlich wird, auf welchem zeitlichen Stand die Datei ist [Pipino et al., 2002, Vaddepalli et al., 2023].
Genauigkeit: Die Daten und Metadaten sind so präzise wie möglich angegeben. Demnach wird auf Rundungen von Zahlen verzichtet. Die Metadaten enthalten alle relevanten Details zur Datei [Behkamal et al., 2014, Bruns et al., 2019, Vetrò et al., 2016].
Konformität: Die Daten und Metadaten entsprechen den domänenspezifischen Standards. Diese beziehen sich auf Datumsangaben, Zeichenkodierung, etc. Zudem sind alle Informationen enthalten, welche durch verwendetes Vokabular und Betitelung impliziert werden [Behkamal et al., 2014, Vetrò et al., 2016].
Konsistenz: Daten und Metadaten sind widerspruchsfrei. Dies gilt für die Daten selbst und auch in Bezug auf andere Datensätze [Behkamal et al., 2014, Pipino et al., 2002].
Vertrauenswürdigkeit: Der Ursprung der Daten ist kenntlich gemacht. Zudem sollte eine Evaluation bezüglich der Glaubwürdigkeit des Herausgebers erfolgen [Bruns et al., 2019, Pipino et al., 2002].
Transparenz: Veränderungen an den Daten ist für Dritte ersichtlich (beispielsweise durch die Angabe einer Versionsnummer) [Bruns et al., 2019].
Verständlichkeit: Die Daten sind so strukturiert und bezeichnet, dass Außenstehende dieses leicht verstehen können. Es wird nur einfaches Vokabular verwendet, welches kein besonderes Fachwissen voraussetzt [Behkamal et al., 2014, Pipino et al., 2002, Vetrò et al., 2016].
Vollständigkeit: Die Daten sind vollständig (z. B. sind alle Datenfelder befüllt). Falls die Daten unvollständig sind, wird auf die Unvollständigkeit hingewiesen [Behkamal et al., 2014, Pipino et al., 2002, Vetrò et al., 2016].
Zugänglichkeit: Die Daten können auf einfache Weise abgerufen werden. Außerdem besteht eine permanente Verlinkung aller Referenzen und Links (z.B. mittels Verwendung permanenter URIs) [Behkamal et al., 2014, Pipino et al., 2002, Vaddepalli et al., 2023, Vetrò et al., 2016].
Weitere Informationen
Zur Steigerung der Qualität von CSV-Dateien haben das Fraunhofer FOKUS und die Pumacy Technologies AG im Rahmen des NQDM-Projektes (Normentwurf für qualitativ hochwertige Daten und Metadaten) eine Checkliste erarbeitet [Bruns et al., 2019].
4.1.2. Qualitätsmerkmale für Statistikdaten#
Im Rahmen des Verhaltenskodex für europäische Statistiken der Europäischen Union werden Qualitätskriterien für die statistische Datenerhebung und -aufbereitung aufgelistet und erläutert [Verhaltenskodex für europäische Statistiken, 2018]. Dieser Kodex legt die Basis für einen qualitativ hochwertigen Umgang mit statistischen Daten und ist angelehnt an die zehn Fundamental Principles of Official Statistics der Vereinten Nationen [Fundamental Principles of National Official Statistics, 2014]. Im nachfolgenden werden die Qualitätskriterien von “Statistischen Produkten” des Verhaltenskodex näher begutachtet:
Relevanz: Die bereitgestellten Statistiken bieten Mehrwert für die Nutzer:innen.
Genauigkeit und Zuverlässigkeit: Die bereitgestellten Statistiken sind fehlerfrei und detailliert.
Aktualität und Pünktlichkeit: Die bereitgestellten Statistiken werden regelmäßig aktualisiert und zum angesetzten Zeitpunkt fristgerecht veröffentlicht.
Kohärenz und Vergleichbarkeit: Die bereitgestellten Statistiken sind untereinander und im Zeitverlauf konsistent und mit anderen staatlich öffentlichten Statistiken vergleichbar. Hierbei steht die Möglichkeit der Datenkombination aus verschiedenen öffentlichen Institutionen im Vordergrund.
Zugänglichkeit und Klarheit: Die bereitgestellten Statistiken werden öffentlich zur Verfügung gestellt und sind leicht auffindbar. Zudem wird transparent und detailreich die Statistik inklusive der Datenerhebung und -auswertung sowie Inhalt zu den beteiligten Parteien angegeben.
Was fällt Ihnen an den beiden Auflistungen auf?
Lösung
Zum einen überschneiden sich einige Aspekte in den Listen. So erwähnen beide beispielsweise die Genauigkeit, die Aktualität oder die Zuverlässigkeit.
Zum anderen finden sich hier alle Stichworte wieder, die Sie bereits von den FAIR-Prinzipien kennen. Diesbezüglich zu nennen sind z. B. die Angabe von Metadaten nach domänenspezifischen Standards, die Auffindbarkeit, die Zugänglichkeit, die Interoperabilität (hier als Vergleich- und Kombinierbarkeit) und auch die Wiederverwendbarkeit (hier als Transparenz, Verständlichkeit, Vertrauenswürdigkeit).
Es zeigt sich, dass Datenqualität und Datennachnutzung eng miteinander verknüpft sind, denn wer Daten nachnutzen möchte, profitiert von qualitätvollen Daten und Metadaten.
Bevor Sie im übernächsten Abschnitt mit dem 5-Sterne-Modell ein weiteres Bewertungsschema für Datenqualität kennenlernen, lassen Sie uns im nächsten Abschnitt noch einen Blick auf das Dateiformat werfen.
Literatur
Fundamental Principles of National Official Statistics. 2014. URL: https://unstats.un.org/unsd/dnss/gp/fundprinciples.aspx.
Verhaltenskodex für europäische Statistiken. 2018. URL: https://ec.europa.eu/eurostat/documents/4031688/9394019/KS-02-18-142-DE-N.pdf.
Open Data, Open Access und Nachnutzung. May 2023. URL: https://forschungsdaten.info/themen/finden-und-nachnutzen/open-data-open-access-und-nachnutzung/.
B. Behkamal, M. Kahani, E. Bagheri, and Z. Jeremic. A metrics-driven approach for quality assessment of linked open data. Journal of Theoretical and Applied Electronic Commerce Research, 9(2):64–79, 2014. doi:10.4067/S0718-18762014000200006.
Lina Bruns, Benjamin Dittwald, and Fritz Meiners. Checkliste zur Steigerung der Datenqualität von CSV-Dateien. 2019. URL: https://nqdm-projekt.de/de/downloads/leitfaden.
Lina Bruns, Benjamin Dittwald, and Fritz Meiners. Leitfaden für qualitativ hochwertige Daten und Metadaten. Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS, 2019. URL: https://nqdm-projekt.de/de/downloads/leitfaden.
Sebastian Neumaier, Jürgen Umbrich, and Axel Polleres. Automated Quality Assessment of Metadata across Open Data Portals. Journal of Data and Information Quality, 8(1):2:1–2:29, 2016. URL: https://dl.acm.org/doi/10.1145/2964909 (visited on 2024-04-23), doi:10.1145/2964909.
Leo L. Pipino, Yang W. Lee, and Richard Y. Wang. Data Quality Assessment. Communications of the ACM, 45(4):211–218, April 2002. URL: https://dl.acm.org/doi/10.1145/505248.506010 (visited on 2024-04-22), doi:10.1145/505248.506010.
Krishna Vaddepalli, Victoria Palacin, Jari Porras, and Ari Happonen. Taxonomy of Data Quality Metrics in Digital Citizen Science. In Atulya K. Nagar, Dharm Singh Jat, Durgesh Kumar Mishra, and Amit Joshi, editors, Intelligent Sustainable Systems, 391–410. Singapore, 2023. Springer Nature. doi:10.1007/978-981-19-7660-5_34.
Antonio Vetrò, Lorenzo Canova, Marco Torchiano, Camilo Orozco Minotas, Raimondo Iemma, and Federico Morando. Open data quality measurement framework: Definition and application to Open Government Data. Government Information Quarterly, 33(2):325–337, April 2016. URL: https://www.sciencedirect.com/science/article/pii/S0740624X16300132 (visited on 2024-04-22), doi:10.1016/j.giq.2016.02.001.