# üöÄ √úbung - Metadaten gruppieren & auswerten 

Nachdem wir im vorherigen Abschnitt gelernt haben, wie sich offene Datens√§tze mit Hilfe von SPARQL gezielt durchsuchen und filtern lassen, m√∂chten wir Dr. Amir Weber in dieser Phase seiner Untersuchung weiter unterst√ºtzen. 

Um besser einsch√§tzen zu k√∂nnen, welche Datenquellen f√ºr seine Analyse relevant sind, gen√ºgt es jedoch nicht, nur einzelne Datens√§tze zu finden. Es interessiert ihn auch, welche Institutionen regelm√§√üig entsprechende Daten bereitstellen und in welchen Formaten diese verf√ºgbar sind. Dies kann Aufschluss dar√ºber geben, wie verl√§sslich und zug√§nglich bestimmte Datenquellen sind.

In dieser √úbung werden wir daher SPARQL nutzen, um Metadaten zu gruppieren und quantitativ auszuwerten. Wir analysieren, in welchen Datenformaten diese Informationen angeboten werden, um Dr. Weber bei der technischen Einsch√§tzung der Weiterverwendbarkeit zu unterst√ºtzen.

Diese aggregierten Informationen geben ihm wertvolle Hinweise auf die Datenqualit√§t, Ver√∂ffentlichungsfrequenz und technische Nutzbarkeit ‚Äì und legen damit die Grundlage f√ºr fundierte Entscheidungen im weiteren Verlauf seiner Analyse.

## Daten gruppieren

Im ersten Schritt lassen wir uns anzeigen, welche Datenbereitsteller die meisten Datens√§tze mit dem Begriff ‚ÄûBaumkataster‚Äú im Titel ver√∂ffentlicht haben. Durch diese Gruppierung erh√§lt Dr. Weber einen schnellen √úberblick dar√ºber, welche Institutionen oder Verwaltungseinheiten in den letzten Jahren besonders aktiv im Bereich der baumbezogenen offenen Daten waren ‚Äì ein wichtiger Hinweis auf m√∂gliche Hauptquellen f√ºr seine weitere Recherche.

:::{admonition} Erkl√§rung des Codes
:class: hinweis, dropdown

Zu den bekannten Prefixes kommt nun `rdfs` dazu, um das RDF Schema, also allgemeine Begriffsdefinitionen einzuschlie√üen.

Der `COUNT` Befehl in SPARQL wird verwendet, um die Anzahl der Ergebnisse zu z√§hlen, die eine bestimmte Bedingung erf√ºllen. Der `AS` Befehl folgt dem `COUNT` und dient dazu, das Ergebnis der Z√§hlung einer Variablen zuzuweisen, die dann im Ergebnis verwendet werden kann. `DISTINCT` gibt an, dass nur eindeutige ("distinct") Werte der Variable `?datasetTitle` gez√§hlt werden sollen. `AS ?uniqueDatasetTitleCount` weist das Ergebnis der Z√§hlung der Variable `?uniqueDatasetTitleCount` zu. Diese Variable kann dann im Ergebnis verwendet werden, um die Anzahl der eindeutigen Titel (?datasetTitle) f√ºr jede `contributorID` anzuzeigen. 

Die Bedingung `(LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de")` wird verwendet, um sicherzustellen, dass nur Titel (?datasetTitle) ausgew√§hlt werden, die entweder keine Sprachinformation haben ("") oder explizit als Deutsch ("de") gekennzeichnet sind. Dies ist wichtig, da nicht alle Datenbereitsteller Information √ºber die Sprache des Datensatzes einschlie√üen. Die Suche nach Datens√§tzen mit deutscher Sprachinformation mag √ºberfl√ºsig wirken, denn das Wort "Baumkataster" ist bereits ein deutsches Wort. Trotzdem wollen wir diese Funktion an dieser Stelle hervorheben, weil wir sp√§ter davon Gebrauch machen werden.
:::

**Code**

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?contributorID (COUNT(DISTINCT ?datasetTitle) AS ?uniqueDatasetTitleCount)
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  FILTER(
      CONTAINS(STR(?modified), "2015") ||
      CONTAINS(STR(?modified), "2016") ||
      CONTAINS(STR(?modified), "2017") || 
      CONTAINS(STR(?modified), "2018") || 
      CONTAINS(STR(?modified), "2019") ||
      CONTAINS(STR(?modified), "2020") ||
      CONTAINS(STR(?modified), "2021") ||
      CONTAINS(STR(?modified), "2022") ||
      CONTAINS(STR(?modified), "2023") ||
      CONTAINS(STR(?modified), "2024") ||
  	  CONTAINS(STR(?modified), "2025") 


               )
}
GROUP BY ?contributorID

**Output**

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?contributorID (COUNT(DISTINCT ?datasetTitle) AS ?uniqueDatasetTitleCount)
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  FILTER(
      CONTAINS(STR(?modified), "2015") ||
      CONTAINS(STR(?modified), "2016") ||
      CONTAINS(STR(?modified), "2017") || 
      CONTAINS(STR(?modified), "2018") || 
      CONTAINS(STR(?modified), "2019") ||
      CONTAINS(STR(?modified), "2020") ||
      CONTAINS(STR(?modified), "2021") ||
      CONTAINS(STR(?modified), "2022") ||
      CONTAINS(STR(?modified), "2023") ||
      CONTAINS(STR(?modified), "2024") ||
  	  CONTAINS(STR(?modified), "2025") 


               )
}
GROUP BY ?contributorID

**Erkl√§rung des Ergebnisses**

Jeweils 8 Datens√§tze stammen aus Nordrhein-Westfalen und Rheinland-Pfalz, 6 aus Bayern und 4 aus Brandenburg.

Auff√§llig ist, dass ganz verschiedene Institutionen und Verwaltungsebenen offene Daten bereitstellen. Hinter `http://dcat-ap.de/def/contributors/mobilithek` verbirgt sich die <a href="https://mobilithek.info/" class="external-link" target="_blank">Mobilithek</a> des Bundesverkehrsministeriums und neben Bundesl√§ndern finden sich auch kommunale Datenbereitsteller.

## Dateiformate

Im Anschluss interessiert sich Dr. Weber daf√ºr, in welchen Formaten die Baumkataster-Daten vorliegen, da dies direkte Auswirkungen auf deren Weiterverwendbarkeit hat. W√§hrend offene Formate wie CSV, GeoJSON oder XML eine einfache Analyse erm√∂glichen, k√∂nnen propriet√§re oder unstrukturierte Formate die Weiterverarbeitung erschweren.

Daher erweitern wir unsere SPARQL-Abfrage, um f√ºr jeden Datenbereitsteller zu ermitteln, wie viele unterschiedliche Datenformate er im Zusammenhang mit Baumkataster-Daten anbietet. Diese Auswertung hilft Dr. Weber dabei einzusch√§tzen, bei welchen Anbietern er mit einem breiten und technisch zug√§nglichen Angebot rechnen kann ‚Äì ein entscheidender Aspekt f√ºr seine geplante Analyse des Baumbestands.

:::{admonition} Erkl√§rung des Codes
:class: hinweis, dropdown

Statt der Titel, z√§hlen wir nun mit dem Befehl `SELECT ?contributorID (COUNT(DISTINCT ?format) AS ?formatCount)` die verschiedenen Formate, die mit den Datens√§tzen verbunden sind.

Mit dem `WHERE`-Befehl suchen wir nach Datens√§tzen (`dcat:Dataset`), die die folgenden Eigenschaften haben:
- `dct:title`: einen Titel.
- `dcatde:contributorID`: eine ID des Datenbereitstellers.
- `dct:modified`: ein Datum der letzten √Ñnderung.
sowie mit `OPTIONAL` nach dem Katalog des Datensatzes, wenn er vorhanden ist.

Dazu filtern wir mit `FILTER`, dass der Titel entweder keine Sprachangabe haben kann oder in Deutsch vorliegen muss, das Wort "baumkataster" enth√§lt (unabh√§ngig von Gro√ü- oder Kleinschreibung) und innerhalb des Zeitraums von 2015 bis 2025 ver√∂ffentlicht wurden.

`?datasetURI dcat:distribution ?distribution.` und `?distribution dct:format ?format.` geben zudem an, dass der Datensatz eine Distribution und diese ein bestimmtes Format haben muss.

Mit `GROUP BY ?contributorID` werden die Ergebnisse nach dem Datenbereitsteller sortiert.
:::

**Code**

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?contributorID (COUNT(DISTINCT ?format) AS ?formatCount)
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  OPTIONAL { ?datasetURI dcat:catalog ?catalog. }
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  FILTER(
      CONTAINS(STR(?modified), "2015") ||
      CONTAINS(STR(?modified), "2016") ||
      CONTAINS(STR(?modified), "2017") || 
      CONTAINS(STR(?modified), "2018") || 
      CONTAINS(STR(?modified), "2019") ||
      CONTAINS(STR(?modified), "2020") ||
      CONTAINS(STR(?modified), "2021") ||
      CONTAINS(STR(?modified), "2022") ||
      CONTAINS(STR(?modified), "2023") ||
      CONTAINS(STR(?modified), "2024") ||
      CONTAINS(STR(?modified), "2025")
  )

  ?datasetURI dcat:distribution ?distribution.
  ?distribution dct:format ?format.
}
GROUP BY ?contributorID


**Output**

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?contributorID (COUNT(DISTINCT ?format) AS ?formatCount)
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dcatde:contributorID ?contributorID;
              dct:modified ?modified.
  OPTIONAL { ?datasetURI dcat:catalog ?catalog. }
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  FILTER(
      CONTAINS(STR(?modified), "2015") ||
      CONTAINS(STR(?modified), "2016") ||
      CONTAINS(STR(?modified), "2017") || 
      CONTAINS(STR(?modified), "2018") || 
      CONTAINS(STR(?modified), "2019") ||
      CONTAINS(STR(?modified), "2020") ||
      CONTAINS(STR(?modified), "2021") ||
      CONTAINS(STR(?modified), "2022") ||
      CONTAINS(STR(?modified), "2023") ||
      CONTAINS(STR(?modified), "2024") ||
      CONTAINS(STR(?modified), "2025")
  )

  ?datasetURI dcat:distribution ?distribution.
  ?distribution dct:format ?format.
}
GROUP BY ?contributorID


**Erkl√§rung des Ergebnisses**

wir erhalten eine einfache Liste mit zwei Spalten: den Datenbereitstellern und der Summe von Formaten der eingestellten Datens√§tze. Das bedeutet, dass NRW mit seinen eingestellten Dateien auf 29 verschiedene Dateiformate kommt und Bayern auf 21. Das hei√üt allerdings nicht, dass alle Datens√§tze in jeweils jedem Format vorhanden sind. Ablesbar ist aus dieser Zusammenstellung lediglich ein gewisses Ma√ü an Flexibilit√§t. 

## Eingrenzung der Abfrage

Nachdem Dr. Weber nun einen √úberblick dar√ºber erhalten hat, welche Datenbereitsteller aktiv sind und in welchen Formaten die Daten zur Verf√ºgung stehen, m√∂chte er sich f√ºr einen konkreten Datensatz entscheiden, um seine Analyse zu starten. Dabei ist es ihm wichtig, den regionalen Bezug zum Raum Berlin-Brandenburg zu wahren, da seine bisherigen Untersuchungen vor allem auf diese Region fokussiert waren.

Er entscheidet sich daher, gezielt nach Datens√§tzen zu suchen, die von der Plattform ‚ÄûOpen Data Brandenburg‚Äú bereitgestellt werden und das Stichwort ‚ÄûBaumkataster‚Äú im Titel f√ºhren. Durch diese gezielte Einschr√§nkung kann Dr. Weber sicherstellen, dass die Daten sowohl thematisch relevant als auch geographisch passend sind ‚Äì und damit eine geeignete Grundlage f√ºr die weitere Analyse des Baumbestands in der Region darstellen.

Um direkt auf die Daten zugreifen zu k√∂nnen, erweitern wir die Abfrage um die Zugriffs-URL (accessURL). Diese verweist auf die konkrete Stelle, an der der Datensatz heruntergeladen oder weiterverarbeitet werden kann ‚Äì ein praktischer Schritt, der es Dr. Weber erm√∂glicht, ohne Umwege mit der Analyse zu beginnen.

**Code**

In [None]:
%endpoint https://www.govdata.de/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?datasetURI ?datasetTitle ?datasetDescription ?accessURL
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dct:description ?datasetDescription;
              dcatde:contributorID <http://dcat-ap.de/def/contributors/openDataBrandenburg>;
              dct:modified ?modified;
              dcat:distribution ?distribution.
              
  ?distribution dcat:accessURL ?accessURL.
  
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  
  FILTER(
    CONTAINS(STR(?modified), "2017") || 
    CONTAINS(STR(?modified), "2018") || 
    CONTAINS(STR(?modified), "2019") || 
    CONTAINS(STR(?modified), "2020") || 
    CONTAINS(STR(?modified), "2021") || 
    CONTAINS(STR(?modified), "2022") || 
    CONTAINS(STR(?modified), "2023") || 
    CONTAINS(STR(?modified), "2024") || 
    CONTAINS(STR(?modified), "2025")
  )
}
ORDER BY ?datasetTitle


**Output**

In [None]:
%endpoint https://www.govdata.de/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?datasetURI ?datasetTitle ?datasetDescription ?accessURL
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dct:description ?datasetDescription;
              dcatde:contributorID <http://dcat-ap.de/def/contributors/openDataBrandenburg>;
              dct:modified ?modified;
              dcat:distribution ?distribution.
              
  ?distribution dcat:accessURL ?accessURL.
  
  FILTER((LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") && CONTAINS(LCASE(?datasetTitle), "baumkataster"))
  
  FILTER(
    CONTAINS(STR(?modified), "2017") || 
    CONTAINS(STR(?modified), "2018") || 
    CONTAINS(STR(?modified), "2019") || 
    CONTAINS(STR(?modified), "2020") || 
    CONTAINS(STR(?modified), "2021") || 
    CONTAINS(STR(?modified), "2022") || 
    CONTAINS(STR(?modified), "2023") || 
    CONTAINS(STR(?modified), "2024") || 
    CONTAINS(STR(?modified), "2025")
  )
}
ORDER BY ?datasetTitle


Dr. Weber entscheidet sich schlie√ülich, den Datensatz ‚ÄûBaumkataster Frankfurt (Oder) - (WFS-BAUMKATASTER)‚Äù genauer unter die Lupe zu nehmen, da er f√ºr seine Analyse relevante Informationen zu den Baumstandorten in der Region liefern k√∂nnte. Dieser Datensatz scheint zun√§chst vielversprechend, da er auf den ersten Blick sowohl geografische als auch baumspezifische Daten zu liefern scheint.

Leider stellt Dr. Weber bei der √úberpr√ºfung fest, dass sich der betreffende Datensatz nicht direkt herunterladen l√§sst oder die bereitgestellte URL nicht wie erwartet funktioniert.

Das zeigt: Auch wenn Metadaten vielversprechende Informationen liefern, ist es in der Praxis oft notwendig, die tats√§chliche Verf√ºgbarkeit und Zug√§nglichkeit der Daten manuell zu pr√ºfen. Dr. Weber wird seine Suche daher fortsetzen m√ºssen ‚Äì eventuell mit einer breiteren geografischen Eingrenzung oder indem er nach anderen relevanten Begriffen sucht.

Da sich der ausgew√§hlte Datensatz nicht wie gew√ºnscht herunterladen l√§sst, entscheidet sich Dr. Weber dazu, seine Suche thematisch zu erweitern. Ihm ist bewusst, dass nicht alle relevanten Informationen unter dem Begriff ‚ÄûBaumkataster‚Äú ver√∂ffentlicht werden. Ein verwandter Begriff, der insbesondere in st√§dtischen Kontexten h√§ufig auftaucht, ist ‚ÄûBaumpflanzungen‚Äú ‚Äì ein Thema, das ebenfalls R√ºckschl√ºsse auf den aktuellen Baumbestand sowie stadtplanerische Ma√ünahmen erlaubt.

Dr. Weber formuliert daher eine neue SPARQL-Abfrage, die zus√§tzlich nach Datens√§tzen sucht, in deren Titel der Begriff ‚ÄûBaumpflanzungen‚Äú vorkommt. So erhofft er sich, weitere geeignete Datens√§tze zu identifizieren, die ihm bei der Analyse des Baumwachstums und der Nachpflanzungen im Raum Berlin-Brandenburg n√ºtzliche Hinweise liefern k√∂nnen.

**Code**

In [None]:
%endpoint https://www.govdata.de/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?datasetURI ?datasetTitle ?datasetDescription ?accessURL
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dct:description ?datasetDescription;
              dct:modified ?modified;
              dcat:distribution ?distribution.

  ?distribution dcat:accessURL ?accessURL.

  FILTER(
    (LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") &&
    (
      CONTAINS(LCASE(?datasetTitle), "baumkataster") || 
      CONTAINS(LCASE(?datasetTitle), "baumpflanzungen")
    )
  )

  FILTER(
    CONTAINS(STR(?modified), "2015") || 
    CONTAINS(STR(?modified), "2016") ||
    CONTAINS(STR(?modified), "2017") || 
    CONTAINS(STR(?modified), "2018") || 
    CONTAINS(STR(?modified), "2019") || 
    CONTAINS(STR(?modified), "2020") || 
    CONTAINS(STR(?modified), "2021") || 
    CONTAINS(STR(?modified), "2022") || 
    CONTAINS(STR(?modified), "2023") || 
    CONTAINS(STR(?modified), "2024") || 
    CONTAINS(STR(?modified), "2025")
  )
}
ORDER BY ?datasetTitle
OFFSET 140

**Output**

In [None]:
%endpoint https://www.govdata.de/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?datasetURI ?datasetTitle ?datasetDescription ?accessURL
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dct:description ?datasetDescription;
              dct:modified ?modified;
              dcat:distribution ?distribution.

  ?distribution dcat:accessURL ?accessURL.

  FILTER(
    (LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") &&
    (
      CONTAINS(LCASE(?datasetTitle), "baumkataster") || 
      CONTAINS(LCASE(?datasetTitle), "baumpflanzungen")
    )
  )

  FILTER(
    CONTAINS(STR(?modified), "2015") || 
    CONTAINS(STR(?modified), "2016") ||
    CONTAINS(STR(?modified), "2017") || 
    CONTAINS(STR(?modified), "2018") || 
    CONTAINS(STR(?modified), "2019") || 
    CONTAINS(STR(?modified), "2020") || 
    CONTAINS(STR(?modified), "2021") || 
    CONTAINS(STR(?modified), "2022") || 
    CONTAINS(STR(?modified), "2023") || 
    CONTAINS(STR(?modified), "2024") || 
    CONTAINS(STR(?modified), "2025")
  )
}
ORDER BY ?datasetTitle
OFFSET 140

Beim weiteren Durchst√∂bern der Datens√§tze ‚Äì unterst√ºtzt durch den Einsatz von OFFSET zur Paginierung der Ergebnisse ‚Äì st√∂√üt Dr. Weber auf einen Datensatz mit dem Titel ‚ÄûStra√üenbaumpflanzungen in Steglitz-Zehlendorf‚Äú, der ihm sofort ins Auge f√§llt. Besonders positiv: Der Datensatz steht im CSV-Format zur Verf√ºgung, was eine einfache Weiterverarbeitung erm√∂glicht.

Ein Blick in die Beschreibung macht jedoch deutlich, dass es sich dabei nicht um das vollst√§ndige Baumkataster handelt, sondern um eine Teilmenge, die lediglich bereits erfolgte Neupflanzungen auflistet. Es wird erkl√§rt, dass Pflanzungen erst nach ihrer Durchf√ºhrung in das eigentliche Baumkataster √ºbernommen werden. Die enthaltenen Eintr√§ge stammen aus verschiedenen Quellen ‚Äì etwa Spendenaktionen oder bezirklichen Projekten ‚Äì und umfassen zudem Angaben zur Pflege der B√§ume.

Dr. Weber erkennt den Wert dieser Information, stellt aber auch fest, dass sie f√ºr eine umfassende Analyse des aktuellen Baumbestands nicht ausreicht. Der Datensatz bietet zwar Einblicke in die Entwicklung und Nachpflanzung, jedoch nicht in die vollst√§ndige aktuelle Baumverteilung im Bezirk oder gar in Berlin insgesamt. Damit bleibt der umfassende Zugriff auf ein vollst√§ndiges Kataster weiterhin ausst√§ndig, und Dr. Weber wird seine Suche weiter ausbauen m√ºssen, um eine geeignete Datengrundlage zu finden.

Da sich viele der bisher gefundenen Datens√§tze entweder als unvollst√§ndig oder schwer zug√§nglich erwiesen haben, blickt Dr. Weber nun in Richtung Nordrhein-Westfalen (NRW). Bereits bei der vorherigen Auswertung zur Datenverf√ºgbarkeit war ihm aufgefallen, dass NRW eine besonders hohe Anzahl an relevanten Datens√§tzen bereitstellt ‚Äì und das in verschiedenen Formaten und mit stabiler Zugriffbarkeit.

Die gute technische Performance und die Vielzahl ver√∂ffentlichter Inhalte lassen darauf schlie√üen, dass das Land NRW ein fortschrittliches Open-Data-Angebot betreibt, das m√∂glicherweise besser f√ºr eine umfassende Analyse geeignet ist. Aus diesem Grund richtet Dr. Weber nun gezielt seine Suche auf Datens√§tze, die durch Open Data NRW bereitgestellt werden und thematisch zu seiner Untersuchung rund um Baumkataster und Baumpflanzungen passen.

**Code**

In [None]:
%endpoint https://www.govdata.de/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?datasetURI ?datasetTitle ?datasetDescription ?accessURL
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dct:description ?datasetDescription;
              dcatde:contributorID <http://dcat-ap.de/def/contributors/openNRW>;
              dct:modified ?modified.

  OPTIONAL {
    ?datasetURI dcat:distribution ?distribution.
    ?distribution dcat:accessURL ?accessURL.
  }

  FILTER(
    (LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") &&
    (CONTAINS(LCASE(?datasetTitle), "baumkataster")
    )
  )

  FILTER(
    CONTAINS(STR(?modified), "2017") || 
    CONTAINS(STR(?modified), "2018") || 
    CONTAINS(STR(?modified), "2019") || 
    CONTAINS(STR(?modified), "2020") || 
    CONTAINS(STR(?modified), "2021") || 
    CONTAINS(STR(?modified), "2022") || 
    CONTAINS(STR(?modified), "2023") || 
    CONTAINS(STR(?modified), "2024") || 
    CONTAINS(STR(?modified), "2025")
  )
}
ORDER BY ?datasetTitle

**Output**

In [None]:
%endpoint https://www.govdata.de/sparql
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX pg: <http://dcat-ap.de/def/politicalGeocoding/>

SELECT ?datasetURI ?datasetTitle ?datasetDescription ?accessURL
WHERE {
  ?datasetURI a dcat:Dataset;
              dct:title ?datasetTitle;
              dct:description ?datasetDescription;
              dcatde:contributorID <http://dcat-ap.de/def/contributors/openNRW>;
              dct:modified ?modified.

  OPTIONAL {
    ?datasetURI dcat:distribution ?distribution.
    ?distribution dcat:accessURL ?accessURL.
  }

  FILTER(
    (LANG(?datasetTitle) = "" || LANG(?datasetTitle) = "de") &&
    (CONTAINS(LCASE(?datasetTitle), "baumkataster")
    )
  )

  FILTER(
    CONTAINS(STR(?modified), "2017") || 
    CONTAINS(STR(?modified), "2018") || 
    CONTAINS(STR(?modified), "2019") || 
    CONTAINS(STR(?modified), "2020") || 
    CONTAINS(STR(?modified), "2021") || 
    CONTAINS(STR(?modified), "2022") || 
    CONTAINS(STR(?modified), "2023") || 
    CONTAINS(STR(?modified), "2024") || 
    CONTAINS(STR(?modified), "2025")
  )
}
ORDER BY ?datasetTitle

**Fund eines geeigneten Datensatzes**

Nach intensiver Recherche entscheidet sich Dr. Weber schlie√ülich f√ºr den Datensatz ‚ÄûBaumkataster K√∂ln 2017‚Äú. Dieser bietet eine umfassende Beschreibung des st√§dtischen Baumbestands und enth√§lt nicht nur geografische Informationen, sondern auch detaillierte Angaben zur Baumart, zum Alter, zur Kronenbreite, zur Stammdicke sowie zur Wuchsh√∂he der B√§ume.

Besonders positiv f√§llt Dr. Weber die gute Zug√§nglichkeit des Datensatzes auf - die enthaltenen Informationen sind klar strukturiert, verst√§ndlich dokumentiert und stehen in einem g√§ngigen Format zur Verf√ºgung. Dadurch l√§sst sich der Datensatz problemlos in bestehende Analyseumgebungen integrieren ‚Äì ein wichtiger Vorteil f√ºr die praktische Weiterverarbeitung. Auch wenn der Datensatz noch nicht den vollst√§ndigen Baumbestand der Stadt K√∂ln abbildet, bietet er bereits jetzt eine solide Datenbasis f√ºr eine fundierte Analyse.

Damit verf√ºgt Dr. Weber √ºber eine valide Grundlage, um erste Auswertungen zur Baumverteilung und -struktur in einer Gro√üstadt vorzunehmen und m√∂gliche Modellregionen f√ºr seine Untersuchung zu identifizieren.