# üöÄ Grundlagen

In diesem Abschnitt widmen wir uns einer praktischen SPARQL-√úbung, die die Grundlagen dieser Abfragesprache vermittelt und aufzeigt, wie Datens√§tze mit SPARQL abgefragt werden k√∂nnen. 
Thematisch n√§hern wir uns damit bereits dem Untersuchungsauftrag des Experten Amir Weber an, der in der [Einleitung](/Titelseite.md) vorgestellt wurde. Der Auftrag besteht darin, zu pr√ºfen, welche offen verf√ºgbaren Daten existieren, die dazu beitragen k√∂nnen, den Baumbestand in einer bestimmten Region zu ermitteln.

Wir arbeiten mit Jupyter Notebook - einem Dateiformat, welches erm√∂glicht, Erkl√§rtext und Code in verschiedenen Programmiersprachen gleichberechtigt nebeneinander darzustellen. Dadurch wird die visuelle Darstellung von echtem Code f√ºr Abfragen und deren Ergebnisse erm√∂glicht. Zus√§tzlich k√∂nnen Erl√§uterungen zu den aufgerufenen Befehlen sowie weitere Kommentare dargestellt werden. 

Am besten l√§sst sich das Gelernte direkt ausprobieren. F√ºr eigene SPARQL-Abfragen empfehlen wir den interaktiven SPARQL-Editor von [data.europa.eu](https://data.europa.eu/data/sparql). Dieser bietet eine intuitive Benutzeroberfl√§che, mit der sich SPARQL-Queries unkompliziert testen und ausf√ºhren lassen ‚Äì ideal, um erste praktische Erfahrungen zu sammeln oder die im Jupyter Notebook gezeigten Beispiele nachzuvollziehen.

<span style="color:green">Die eingangs erw√§hnte Forschungsfrage lautet:

<span style="color:green">**Welche offenen Daten gibt es, die dazu beitragen, den Bew√§sserungsbedarf von B√§umen in einer bestimmten Region zu ermitteln?**

<span style="color:green">Um diese Frage zu beantworten, werden verschiedene Aspekte aus Datenportalen erfragt werden m√ºssen.

- <span style="color:green">Wie viele Datens√§tze beinhalten das Wort ‚ÄûBaumkataster‚Äú im Titel?
- <span style="color:green">Wer stellt die meisten Daten bereit?
- <span style="color:green">Wie unterscheiden sich die Bereitsteller in ihrer Anzahl an Formaten?

<span style="color:green">Diese Fragen sind der Ausgangspunkt f√ºr eine tiefere Untersuchung der verf√ºgbaren offenen Daten. An der Seite von Dr. Weber werden wir die Datens√§tze nach Bundesl√§ndern und Bereitstellern zu filtern, um ein besseres Verst√§ndnis dar√ºber zu gewinnen, welche Regionen besonders viele und vielf√§ltige Baumkataster-Daten zur Verf√ºgung stellen. Recherchieren Sie mit ihm zusammen, wie die entsprechende Datengrundlage ist.</span>

##  Endpunkt definieren

Zuerst muss ein sogenannter *endpoint* bzw. Endpunkt definiert werden. Der Endpunkt ist die maschinenlesbare Schnittstelle zum Repositorium, in dem jene Metadaten gespeichert sind, die wir abfragen wollen. 

Bei der Verwendung eines Online-Tools zur Generierung von SPARQL-Abfragen ist die Definition eines Endpunkts h√§ufig nicht n√∂tig, da dieser schon automatisch definiert ist. 

Der SPARQL Endpunkt des deutschen Open Data Portals GovData ist beispielsweise "https://www.govdata.de/sparql" {cite}`GovData_SPARQL`.

Beispielhaft wollen wir nun das europ√§ische Datenportal durchsuchen, welches wir auf der Webseite <a href="https://data.europa.eu/de" class="external-link" target="_blank">https://data.europa.eu/de</a> finden. 
Dazu verwenden wir einen "Magic", d. h. einen Befehl, der Teil vom SPARQL-Python-Paket ist, der es uns erlaubt, alle k√ºnftigen Abfragen mit dem europ√§ischen Datenportal als unserem Endpunkt zu verkn√ºpfen.

Dieser lautet `%endpoint https://data.europa.eu/sparql` und wird der SPARQL-Abfrage vorangestellt.

In [None]:
%endpoint https://data.europa.eu/sparql

## SPAQRL-Syntax

Widmen wir uns nun der SPARQL-Syntax, indem wir uns die Struktur unserer ersten Abfrage ansehen.

Zur Erinnerung: Der im Kapitel [DCAT-AP](dcat-1) erkl√§rte Metatenstandard <a href="https://www.dcat-ap.de/def/" class="external-link" target="_blank">DCAT-AP</a> ist zentral f√ºr die Untersuchung der Metadateneigenschaften und definiert die Struktur und den Inhalt der Metadatenfelder (<a href="https://www.dcat-ap.de/def/dcatde/2.0/implRules/" class="external-link" target="_blank">DCAT-AP Handbuch</a>).

:::{admonition} Einf√ºhrung in den Code
:class: hinweis, dropdown
Hier folgt eine einfache SPARQL-Abfrage, um Ihnen die Systematik von Abfragen zu erkl√§ren.

Select-Befehl und Where-Befehl.
:::

**Code**

In [None]:
SELECT ?contributorid
WHERE {
    ?uri <http://dcat-ap.de/def/dcatde/contributorID> ?contributorid .
}

**Output**

In [None]:
SELECT ?contributorid
WHERE {
    ?uri <http://dcat-ap.de/def/dcatde/contributorID> ?contributorid .
}

**Erkl√§rung des Ergebnisses**

Nun haben wir das europ√§ische Datenportal data.europa.eu als Endpunkt festgelegt und k√∂nnen mit der Erstellung von SPARQL-Abfragen beginnen. Allerdings fragen wir nur jene Metadaten ab, welche zu den Datens√§tzen im Portal gespeichert sind. Siehe hierzu Kapitel ... .

## Erweiterung der Abfrage

Unsere erste Abfrage ist nicht besonders pr√§zise oder aussagekr√§ftig. Daher wollen wir nun weitere Befehle hinzuf√ºgen, um Ergebnisse zu erhalten, mit denen wir weiterarbeiten k√∂nnen.

:::{admonition} Einf√ºhrung in den Code
:class: hinweis, dropdown

**PREFIX**
In den ersten drei Zeilen sehen wir sogenannte PREFIXES. Durch sie kann man auf diverse Eigenschaften verweisen und Bez√ºge zwischen diesen Eigenschaften herstellen. Sie sind zwar wichtig f√ºr eine einfachere Gestaltung der Abfragen, aber nicht essentiell. Es handelt sich um Abk√ºrzungen, die es erm√∂glichen, Links nicht immer wieder ausschreiben zu m√ºssen. 

*dct: <http://purl.org/dc/terms/>* bedeutet, dass mit *dct* (dublin core term) nach Ressorucen gesucht werden kann, die sich im Namensraum von *<http://purl.org/dc/terms/>*, also der Dublin Core Metadata Initiative (DCMI), befinden. So l√§sst sich nach DCMI standardisierten Metadaten suchen ohne die volle Adresse eingeben zu m√ºssen. Mit *dct:titel* l√§sst sich beispielsweise nach dem Metadatenelement "Titel" suchen.

Mit *dcatde: <http://dcat-ap.de/def/dcatde/>* k√∂nnen wir, analog zum vorherigen Beispiel, mit der Abk√ºrzung *dcatde* (dcat deutschland) den Namensraum von DCAT (Data Catalog Vocabulary) durchsuchen. *dcatde:contributorID* erm√∂glicht die Suche nach einem eindeutig identifizierbaren Datenbereitsteller innerhalb des deutschen DCAT-AP.

Die Abk√ºrzung *pg* im PREFIX *pg: <https://www.dcat-ap.de/def/politicalGeocoding/>* steht f√ºr "political geocoding" und verweist auf eine geopolitische Abdeckung im Sinne eines administrativen Gebiets der Bundesrepublik Deutschland.

**SELECT**
Vorerst betrachten wir aber den SELECT-Befehl. Mit SELECT w√§hlen wir die Properties bzw. die Eigenschaften, die aufgelistet werden sollen. Jede Eigenschaft entspricht einer Spalte, die in der Tabelle mit Ergebnissen zu sehen ist. 

Wir wollen mit unserer Abfrage folgende Informationen erhalten: die URIs, die Titel, die Namen der Datenbereitsteller und das K√ºrzel des jeweiligen Landes, aus dem der Datensatz stammt.

Daher geben wir in unserem SELECT-Befehl diese vier Properties an: ?uri ?title ?contributorid ?stateKey.

Die genauen Benennungen der Properties (Labels) werden im oben verlinkten DCAT-AP-Handbuch definiert, auf das wir zur√ºckgreifen m√ºssen, um die genauen Labels f√ºr jede Property zu finden.

**WHERE**
Als n√§chstes haben wir den Kern jeder SPARQL-Abfrage - den WHERE-Befehl. Der WHERE-Befehl definiert die Bedingungen, die erf√ºllt werden m√ºssen, damit eine Beobachtung aufgelistet werden kann. Das hei√üt, es werden **nur** die Beobachtungen aufgelistet, die alle Bedingungen erf√ºllen. 

**OPTIONAL**
Im Unterschied dazu besagt der Befehl OPTIONAL, dass die folgende Bedingung nicht zwingend zu erf√ºllen ist. OPTIONAL ist ein gutes Werkzeug, das benutzt werden kann, wenn man sich nicht sicher ist, ob die jeweiligen Properties ordentlich codiert sind. So stellen wir sicher, dass wir trotz des SELECT-Befehls keine leere Liste erhalten.

In jeder Zeile in der WHERE-Funktion m√ºssen drei Elemente zu sehen sein. Diese Struktur ist essentiell f√ºr die SPARQL-Sprache - durch die sogenannten "triplets" werden Bez√ºge zwischen den Eigenschaften erstellt. Jede Zeile bestimmt einen Bezug zwischen zwei Eigenschaften. Die erste Eigenschaft ist somit das Subjekt (S), das zweite Element - der Bezug, der aus einem Prefix und einer zus√§tzlichen Spezifizierung besteht - hei√üt Pr√§dikat (P), und das dritte - die zweite Eigenschaft - ist das Objekt (O). P entspricht einem Link, der darauf verweist, wo die zweite Eigentschaft zu finden ist. Die Einordnung der Eigenschaften ist nach dem W3C-Standard, der schon *in einem fr√ºheren Kapitel erkl√§rt wurde*, definiert. In dem DCAT-AP-Handbuch ist dann die genaue Verortung von jeder Eingenschaft zu finden. Durch die Triplets fragen wir genau ab, welche Datens√§tze wir erfragen wollen, je nach den Bedingungen, die solche Datens√§tze erf√ºllen sollen. 

Mit unserer Abfrage suchen wir die Datens√§tze ab, die einen Titel, ein URI, einen mitcodierten Datenbereitsteller, und wenn vorhanden, einen Schl√ºssel f√ºr das Bundesland haben. Mit anderen Worten: Wir suchen nach offenen Daten, die von einem deutschen Datenbereitsteller stammen und wollen diese den Bundesl√§ndern zuordnen.
:::

**Code**

In [None]:
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX pg: <https://www.dcat-ap.de/def/politicalGeocoding/>

SELECT ?uri ?title ?contributorid ?stateKey
WHERE {
    ?uri dct:title ?title .
    ?uri dcatde:contributorID ?contributorid .
  OPTIONAL {?uri pg:stateKey ?stateKey} .
}

**Output**

In [None]:
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX pg: <https://www.dcat-ap.de/def/politicalGeocoding/>

SELECT ?uri ?title ?contributorid ?stateKey
WHERE {
    ?uri dct:title ?title .
    ?uri dcatde:contributorID ?contributorid .
  OPTIONAL {?uri pg:stateKey ?stateKey} .
}

uri,title,contributorid,stateKey
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitale Topographische Karte 1 : 10 000 - 3952-NO Friedland - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,L√©arsc√°il thopagrafach dhigiteach 1 : 10 000 - 3952-NO Friedland - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Œ®Œ∑œÜŒπŒ±Œ∫œåœÇ œÑŒøœÄŒøŒ≥œÅŒ±œÜŒπŒ∫œåœÇ œáŒ¨œÅœÑŒ∑œÇ 1: 10000 ‚Äî 3952-NO Friedland ‚Äî Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitalna topografska karta 1.: 10 000 - 3952-NO Friedland - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,DigitƒÅlƒÅ topogrƒÅfiskƒÅ karte Nr. 1 : 10 000 - 3952-NO Friedland - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitaalinen topografinen kartta 1 : 10 000 - 3952-NO Friedland - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Mapa topogr√°fico digital 1 : 10 000 - 3952-NO Fr√≠sia - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Carta topografica digitale 1 : 10 000 - 3952-NO Friedland - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digit√°lna topografick√° mapa 1 : 10 000 - 3952-NO Friedland - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,
http://data.europa.eu/88u/dataset/b7cad163-8d99-4d97-b781-e4f5a11078d3,Digitale topografische kaart 1 : 10 000 - 3952-NO Friedland - Gro√ü Muckrow,http://dcat-ap.de/def/contributors/openDataBrandenburg,


**Erkl√§rung des Ergebnisses**


Wie bef√ºrchtet, ist die Spalte f√ºr das Bundesland(-K√ºrzel) (stateKey) leer. Das liegt daran, dass stateKey nicht definiert worden ist, wodurch diese Felder leer bleiben. M√∂glicherweise m√ºssen diese Felder nicht verpflichtend ausgef√ºllt werden. Dies ist ein klares Beispiel f√ºr l√ºckenhaftes Metadatenmanagement. In der Praxis kommt es oft zu F√§llen, in denen SPARQL-Abfragen nicht erfolgreich sind, weil die Metadatenbeschreibung unvollst√§ndig ist. Mit dem OPTIONAL-Befehl kann man dieses Problem teilweise umgehen.

Dar√ºber hinaus konnten wir durch das fehlende stateKey-Element die offenen Daten nicht den einzelnen Bundesl√§ndern zuordnen.

Wir erhalten stattdessen eine Liste, die uns die URI des europ√§ischen Datenportals, den Titel und den Bereitsteller der Daten angibt. Als Bereitsteller l√§sst sich openDataBrandenburg ermitteln. Wie sich aus dem Titel entnehmen l√§sst, handelt es sich bei dem ausgegebenen Datensatz um eine digitale topografische Karte im Ma√üstab 1 : 10.000 von <a href="https://de.wikipedia.org/wiki/Gro%C3%9F_Muckrow" class="external-link" target="_blank">Gro√ü Muckrow</a>, einem Ortsteil der Stadt Friedland in Brandenburg. Dieser Datensatz wird auf verschiedenen Sprachen ausgegeben.

Vielleicht ist Ihnen aufgefallen, dass uns nur 20 von 100.000 Ergebnissen angezeigt werden und wir uns die weiteren Daten nicht ansehen k√∂nnen. Das liegt daran, dass SPARQL keine Paginierungsfunktion, also das Durchbl√§ttern von Ergebnissen wie auf einer Weboberfl√§che, unterst√ºtzt. Stattdessen muss die Paginierung manuell durch die Verwendung von Befehlen wie LIMIT und OFFSET in der Abfrage implementiert werden. Um die aktuelle Ausgabe vollst√§ndig zu sehen, m√ºsste man diese Befehle zus√§tzlich einf√ºgen.

## Zusammenfassung

In diesem Abschnitt haben wir einen Einblick in die Funktionsweise der Abfragesprache SPAQRL vermittelt, indem wir einen Endpunkt gesetzt und erste Abfragen mit den Befehlen SELECT und WHERE sowie PREFIX und OPTIONAL get√§tigt haben.

Um unsere Abfrage zu verfeinern, ben√∂tigen wir weitere Befehle, die im n√§chsten Abschnitt vermittelt werden.

**Literatur**

```{bibliography}
:filter: docname in docnames
```