# üöÄ √úbung - Metadaten suchen & filtern

In dieser √úbung wollen wir mit Hilfe von SPARQL Metadaten suchen und filtern, wie im vorherigen Abschnitt gezeigt. Dabei unterst√ºtzen wir Dr. Amir Weber in seinem Untersuchungsauftrag, zu pr√ºfen, welche offen verf√ºgbaren Daten existieren, die dazu beitragen k√∂nnen, den Baumbestand in einer bestimmten Region zu ermitteln.

## Suche nach "Baumkataster"

Nachdem wir im letzten Abschnitt nach offenen Daten von deutschen Bereitstellern im Allgemeinen gesucht haben, gilt es nun, die Suche zu verfeinern bzw. die Suchergebnisse zu filtern. Dazu werden wir nun nach Datens√§tzen suchen, die das Wort "Baumkataster" im Titel beinhalten. Au√üerdem werden wir das Ergebnis auf einen Zeitabschnitt beschr√§nken. F√ºr die folgende Suche entscheidet sich Dr. Weber spontan f√ºr den Zeitraum 2010-2015. 

:::{admonition} Einf√ºhrung in den Code
:class: hinweis, dropdown
Als erstes setzen wir mit `(%endpoint https://data.europa.eu/sparql)` wieder unsere Verkn√ºpfung zur Schnittstelle des europ√§ischen Datenportals data.europa.eu. 

Auch die PREFIXES kennen Sie bereits aus dem vorigen Abschnitt:

Mit dem PREFIX `(dct: <http://purl.org/dc/terms/>)` k√ºrzen wir Verweise auf die angegebene Adresse (der Namensraum der Dublic Core Metadata Initiative) auf *dct* (dublin core term).

Mit dem PREFIX `(dcatde: <http://dcat-ap.de/def/dcatde/>)` k√ºrzen wir Verweise aus dem Namensraum von DCAT-AP auf *dcatde* (data catalog vocabulary deutschland).

Mit den SELECT-Befehlen geben wir die Eigenschaften an, die wir sehen wollen. Sie werden in der Ausgabe als Spalten angezeigt.

In dieser √úbung kommen die `FILTER`-Befehle neu hinzu. Diese sind zus√§tzliche Bedingungen, die die Datens√§tze erf√ºllen m√ºssen, um aufgelistet zu werden bzw. um Ergebnisse ein- oder auszuschlie√üen. Sie werden als `FILTER(besipiel)` formuliert und in der Regel verwendet, um spezifische Merkmale von Daten zu w√§hlen wie beispielsweise numerische Bedingungen (z. B. Werte gr√∂√üer oder kleiner als eine bestimmte Zahl).

So gibt der Befehl `FILTER(isURI(?contributorid))` beispielsweise an, dass nur Ergebnisse angezeigt werden sollen, bei denen der Bereitsteller als URI-Link angegeben ist. Damit k√∂nnen wir sicherstellen, dass eine Ressource eine identifizierbare Webadresse hat. Dies ist besonders in Bezug auf Datenvalidierung und -bereinigung von Bedeutung.

Der Befehl `FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))` ist komplizierter, denn er bedeutet, dass nur jene Ergebnisse `?contributorid` ber√ºcksichtigt werden, deren URI-Zeichenkette mit `"http://dcat-ap.de/def/contributors/"` beginnt. D. h. er filtert die Datens√§tze so, dass nur diejenigen einbezogen werden, die als Contributor-IDs einen URI haben, der zu der spezifischen Sammlung oder Definition von Contributor-URIs geh√∂ren, die unter `http://dcat-ap.de/def/contributors/` zu finden sind. Das ist wichtig, denn wir werden sehen, dass die Namen der Datenbereitsteller im URI-Format angegeben sind. Die Funktion `strstarts` zusammen mit dem angegebenen Wert legt fest, mit welcher Zeichenfolge die Angabe beginnen muss. `str()` konvertiert ein URI oder einen anderen RDF-Term in eine Zeichenkette, sodass Zeichenkettenoperationen ausgef√ºhrt werden k√∂nnen. In unserem Fall bedeutet das, dass `str(?contributorid)` verwendet wird, um sicherzustellen, dass `?contributorid` als Zeichenkette behandelt wird.

Den Befehl `FILTER(CONTAINS(LCASE(?title), "baumkataster"))` verwenden wir, um die Ergebnisse so zu filtern, sodass nur die Eintr√§ge einbezogen werden, deren Titel die Zeichenfolge "baumkataster" enthalten, unabh√§ngig von der Gro√ü- oder Kleinschreibung. `CONTAINS()` ist der Befehl, der pr√ºft, ob eine Zeichenkette einen bestimmten Teilstring enth√§lt. `LCASE()` konvertiert alle Zeichen in einer Zeichenkette in Kleinbuchstaben. So wird die Variable `?title` in Kleinbuchstaben umgewandelt, bevor sie auf das Vorhandensein des Teilstrings √ºberpr√ºft wird. So stellen wir sicher, dass keine Eintr√§ge ausgeschlossen werden, nur weil "Baumkataster" in einer anderen Gro√ü- und Kleinschreibung geschrieben ist, wie beispielsweise "BaumKataster" oder "BAUMKATASTER".

Um unsere Suche auf einen Zeitraum einzugrenzen, k√∂nnen wir ebenfalls den `Filter`-Befehl verwenden.

`STR()` konvertiert den Wert der Variable `?modified` in eine Zeichenkette. Dies ist notwendig, um die Zeichenfolgenoperationen ausf√ºhren zu k√∂nnen. Mit `CONTAINS()` stellen wir sicher, dasss eine Zeichenkette einen bestimmten Teilstring enth√§lt. In unserem Fall pr√ºft sie, ob die Zeichenkette, die das modifizierte Datum darstellt, einen der Teilstrings "2010", "2011", "2012", "2013", "2014" oder "2015" enth√§lt. Die Verwendung von `||` verkn√ºpft mehrere `CONTAINS`-Bedingungen mit einem logischen OR-Operator. Dies bedeutet, dass das Ergebnis akzeptiert wird, wenn eine der Bedingungen wahr ist.

Unsere Eingabe filtert die Ergebnisse also so, dass nur Eintr√§ge, deren `?modified`-Datum eine der genannten Jahreszahlen enth√§lt, in den Ergebnissen verbleiben. Wenn also das Datum (z.B. in einem Zeitstempel wie `2013-05-15T13:45:30`) einen der Jahre zwischen 2010 und 2015 enth√§lt, wird das Ergebnis beibehalten.
:::

**Code**

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>

SELECT ?uri ?title ?contributorid ?modified WHERE {
    {
        SELECT ?uri ?title ?contributorid ?modified WHERE {
            ?uri dct:title ?title .
            ?uri dcatde:contributorID ?contributorid .
            ?uri dct:modified ?modified .
            FILTER(isURI(?contributorid))
            FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))       
            FILTER(CONTAINS(LCASE(?title), "baumkataster"))
            FILTER(
                CONTAINS(STR(?modified), "2010") || 
                CONTAINS(STR(?modified), "2011") || 
                CONTAINS(STR(?modified), "2012") || 
                CONTAINS(STR(?modified), "2013") || 
                CONTAINS(STR(?modified), "2014") || 
                CONTAINS(STR(?modified), "2015") 
                )
        }
    }
}

**Output**

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>

SELECT ?uri ?title ?contributorid ?modified WHERE {
    {
        SELECT ?uri ?title ?contributorid ?modified WHERE {
            ?uri dct:title ?title .
            ?uri dcatde:contributorID ?contributorid .
            ?uri dct:modified ?modified .
            FILTER(isURI(?contributorid))
            FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))       
            FILTER(CONTAINS(LCASE(?title), "baumkataster"))
            FILTER(
                CONTAINS(STR(?modified), "2010") || 
                CONTAINS(STR(?modified), "2011") || 
                CONTAINS(STR(?modified), "2012") || 
                CONTAINS(STR(?modified), "2013") || 
                CONTAINS(STR(?modified), "2014") || 
                CONTAINS(STR(?modified), "2015") 
                )
        }
    }
}

**Erkl√§rung des Ergebnissess**

Mit dieser Abfrage haben wir nach s√§mtlichen Datens√§tzen gesucht, die von einem deutschen Bereitsteller stammen, das Wort "Baumkataster" beinhalten und im Zeitraum 2010-2015 ver√∂ffentlicht wurden. Leider m√ºssen wir feststellen, dass uns gar keine Daten ausgegeben werden.

## Anpassen der Abfrage

Nachdem er sich die Ausgabe angesehen hat, f√§llt Dr. Amir Weber ein, dass im Sommer 2017 das sog. Open-Data-Gesetz in Kraft getreten ist. Damit wurden Beh√∂rden der unmittelbaren Bundesverwaltung dazu verpflichtet, Datens√§tze "open", also offen und f√ºr alle zug√§nglich, bereitzustellen.

Er vermutet daher einen Anstieg der eingepflegten Daten nach 2017 und passt seine SPARQL-Abrage dementsprechend an. Aus diesem Grund wollen wir nun Daten aus den Jahren 2015 bis 2025 suchen.

:::{admonition} Einf√ºhrung in den Code
:class: hinweis, dropdown
An der Grundstruktur des Codes brauchen wir nichts zu √§ndern. Es m√ºssen lediglich die Jahreszahlen angepasst werden. Statt des Zeitraums 2010-2015 wird nun der Zeitraum 2015-2025 untersucht.
:::

**Code**

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>

SELECT ?uri ?title ?contributorid ?modified WHERE {
    {
        SELECT ?uri ?title ?contributorid ?modified WHERE {
            ?uri dct:title ?title .
            ?uri dcatde:contributorID ?contributorid .
            ?uri dct:modified ?modified .
            FILTER(isURI(?contributorid))
            FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))       
            FILTER(CONTAINS(LCASE(?title), "baumkataster"))
            FILTER(
                CONTAINS(STR(?modified), "2015") ||
                CONTAINS(STR(?modified), "2016") ||
                CONTAINS(STR(?modified), "2017") ||
                CONTAINS(STR(?modified), "2018") ||
                CONTAINS(STR(?modified), "2019") ||
                CONTAINS(STR(?modified), "2020") ||
                CONTAINS(STR(?modified), "2021") ||
                CONTAINS(STR(?modified), "2022") ||
                CONTAINS(STR(?modified), "2023") ||
                CONTAINS(STR(?modified), "2024") ||
                CONTAINS(STR(?modified), "2025")
            )
        }
    }
}


**Output**

In [None]:
%endpoint https://data.europa.eu/sparql
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>

SELECT ?uri ?title ?contributorid ?modified WHERE {
    {
        SELECT ?uri ?title ?contributorid ?modified WHERE {
            ?uri dct:title ?title .
            ?uri dcatde:contributorID ?contributorid .
            ?uri dct:modified ?modified .
            FILTER(isURI(?contributorid))
            FILTER(strstarts(str(?contributorid), "http://dcat-ap.de/def/contributors/"))       
            FILTER(CONTAINS(LCASE(?title), "baumkataster"))
            FILTER(
                CONTAINS(STR(?modified), "2015") ||
                CONTAINS(STR(?modified), "2016") ||
                CONTAINS(STR(?modified), "2017") ||
                CONTAINS(STR(?modified), "2018") ||
                CONTAINS(STR(?modified), "2019") ||
                CONTAINS(STR(?modified), "2020") ||
                CONTAINS(STR(?modified), "2021") ||
                CONTAINS(STR(?modified), "2022") ||
                CONTAINS(STR(?modified), "2023") ||
                CONTAINS(STR(?modified), "2024") ||
                CONTAINS(STR(?modified), "2025")
            )
        }
    }
}


**Erkl√§rung des Ergebnisses**


Wir bekommen nun 43 Ergebnisse angegeben, von denen uns 20 angezeigt werden.

Wie Dr. Weber richtig vermutet hat, sind die meisten Datens√§tze noch nicht allzu lange online verf√ºgbar.


## Zusammenfassung

In diesem Abschnitt haben wir uns dem Forschungsauftrag von Dr. Weber gewidmet und unsere Suche nach offenen deutschen Beh√∂rdendaten auf solche eingegrenzt, die das Wort Baumkataster im Titel tragen. Anschlie√üend haben wir die Suche auf einen bestimmten Zeitraum eingegrenzt und diesen verschoben. 

Dabei haben wir die Kenntnisse der Befehle PREFIX, SELECT und WHERE gefestigt und die FILTER-Funktion kennengelernt.

Im n√§chsten Abschnitt wird die Anzeige des Ergebnisses so angepasst, dass wir uns anzeigen lassen k√∂nnen, welche Datenbereitsteller am produktivsten sind und welche Formate verwendet werden.