(scraping-intro_method)=
# üöÄ Web-Scraping als Methode der Korpuserstellung

<div class="alert alert-block alert-info"> <b> üîî Feinlernziel(e) dieses Kapitels</b></br>
Sie k√∂nnen verschiedene Methoden der Website-Abfrage aufz√§hlen und Unterschiede identifizieren. </br>
Sie k√∂nnen Vor- und Nachteile der Methoden erkl√§ren und ermitteln, in welchen Szenarien welche Methode geeignet ist.
</div>

## Hinweise zur Ausf√ºhrung des Notebooks
Dieses Notebook kann auf unterschiedlichen Levels erarbeitet werden (siehe Abschnitt ["Technische Voraussetzungen"](../introduction/introduction_requirements)): 
1. Book-Only Mode
2. Cloud Mode: Daf√ºr auf üöÄ klicken und z.B. in Colab ausf√ºhren.
3. Local Mode: Daf√ºr auf Herunterladen ‚Üì klicken und ".ipynb" w√§hlen. 

<details>
  <summary><b>Informationen zum Ausf√ºhren des Notebooks ‚Äì Zum Ausklappen klicken ‚¨áÔ∏è</b></summary>
  
<b>Voraussetzungen zur Ausf√ºhrung des Jupyter Notebooks:</b>
<ul>
<li> Installieren der Bibliotheken </li>
</ul>
Zum Testen: Ausf√ºhren der Zelle "load libraries".</br>
Alle Zellen, die mit üöÄ gekennzeichnet sind, werden nur bei der Ausf√ºhrung des Noteboos in Colab / JupyterHub bzw. lokal ausgef√ºhrt. 
</details>

In [None]:
#  üöÄ Install libraries 
! pip install requests beautifulsoup4 scrapy selenium webdriver_manager time

## Einf√ºhrung
Im [vorherigen Kapitel](scraping-intro_http-intro) haben wir bereits ein Beispiel zur automatisierten Abfrage einer Website kennengelernt. Um mehr als eine Website abzufragen, gibt es verschiedene Methoden. Welche Methode sich am besten zur Extraktion eignet, h√§ngt davon ab, wie die abzufragenden Websites aufgebaut sind und ob sie rein statische oder auch dynamische Inhalte beinhalten. 

### Statische vs. dynamische Websites

Websites k√∂nnen grunds√§tzlich in zwei Kategorien eingeteilt werden: statische und dynamische Websites. Abh√§ngig davon, welche Inhalte extrahiert werden sollen und wie die Website beschaffen ist, muss die Scraping-Methode angepasst werden.

- **Statische Websites**: Diese Websites sind fertige Dokumente, die auf einem Server bereitliegen. Wenn Sie eine solche Website anfordern, wird Ihnen exakt dieser vorbereitete Inhalt geschickt. Das ist vergleichbar mit dem Anfordern eines bestimmten Buches aus einer Bibliothek ‚Äì der Inhalt liegt fertig vor und √§ndert sich nicht. Diese Art von Websites kann leicht mit einfachen Scraping-Methoden extrahiert werden, da alle Informationen direkt im HTML-Code enthalten sind.

- **Dynamische Websites**: Diese Websites werden erst im Moment der Anfrage zusammengestellt. Sie enthalten oft JavaScript-Code, der nach dem Laden der Seite ausgef√ºhrt wird und weitere Inhalte nachladen oder ver√§ndern kann. Das ist vergleichbar mit einem Koch, der das Gericht erst auf Bestellung zubereitet. F√ºr die automatisierte Abfrage dieser Art von Websites ben√∂tigt man fortgeschrittenere Scraping-Methoden wie Selenium, die einen Browser simulieren k√∂nnen.

## Drei Ebenen des Web Scrapings

### 1. Einfache Anfragen mit requests

Die grundlegendste Form des Web Scrapings ist das Abrufen einzelner Webseiten, z.B. mit Hilfe des Python-Pakets `requests`. Diese Methode eignet sich f√ºr statische Webseiten, deren Inhalt direkt im HTML-Code enthalten ist.

In [None]:
# import library to perform HTTP requests
import requests

# Set URL 
url = "https://www.berlin.de/rbmskzl/"

# perform get request
response = requests.get(url)

# check if request was successful (code: 200)
if response.status_code == 200:
    print(f"Status-Code: {response.status_code}")

    # display the first lines of the response body (the content of the website)
    print("\nBeginn des HTML-Dokuments:")
    print(response.text[:100])
else:
    print(f"Fehler beim Abrufen der Seite: {response.status_code}")

**Vorteile:**
- Einfach zu implementieren
- Geringer Ressourcenverbrauch
- Ausreichend f√ºr einfache Scraping-Aufgaben

**Nachteile:**
- Nur einzelne Seiten werden abgerufen
- Keine automatische Navigation zu anderen Seiten
- Nicht geeignet f√ºr dynamisch generierte Inhalte (JavaScript)

### 2. Navigation mit Scrapy

F√ºr komplexere Scraping-Aufgaben, bei denen mehrere Seiten durchlaufen werden m√ºssen, eignet sich die Bibliothek `scrapy`. Sie erm√∂glicht das systematische Folgen von Links und das Extrahieren von Daten aus mehreren Seiten.

In [None]:
import scrapy
from scrapy.crawler import CrawlerProcess
import json

class SenatSpider(scrapy.Spider):
    name = 'senat'
    start_urls = ['https://www.berlin.de/rbmskzl/']

    def parse(self, response):
        # Extrahiere Daten von der aktuellen Seite
        for book in response.css('div'):
            yield {
                'title': book.css('h2.title::text').get(),
            }

        # Folge den Links zu den n√§chsten Seiten
        next_page = response.css('a.next-page::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

# Run the spider in Jupyter
process = CrawlerProcess({
    'USER_AGENT': 'mozilla/4.0 (compatible; msie 7.0; windows nt 5.1; gtb5)',
    'FEEDS': {
        'output.json': {'format': 'json'},
    }
})

process.crawl(SenatSpider)
process.start()  # This will block until crawling is finished

**Vorteile:**
- Effizientes Crawlen mehrerer Seiten
- Integrierte Funktionen f√ºr Datenverwaltung und -export
- Robuste Error-Handling-Mechanismen

**Nachteile:**
- Steilere Lernkurve als bei `requests`
- Nicht geeignet f√ºr dynamische Webseiten mit JavaScript
- Komplexere Konfiguration

### 3. Simulation von Benutzerinteraktionen mit Selenium

F√ºr Websites, die dynamische Inhalte mittels JavaScript laden oder Benutzerinteraktionen erfordern, ist `Selenium` die geeignete Wahl. Diese Bibliothek steuert einen echten Webbrowser und kann somit mit allen Elementen interagieren.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
import time

# Browser-Instanz erstellen
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# Website aufrufen
driver.get('https://example.com/dynamic-page')

# Warten, bis JavaScript-Inhalte geladen sind
time.sleep(2)

# Mit Elementen interagieren
search_button = driver.find_element(By.ID, 'search-button')
search_button.click()

# Auf dynamisch geladene Inhalte zugreifen
results = driver.find_elements(By.CLASS_NAME, 'result-item')
for result in results:
    print(result.text)

# Browser schlie√üen
driver.quit()

**Vorteile:**
- Zugriff auf dynamisch geladene Inhalte (JavaScript)
- Simulation von Benutzerinteraktionen (Klicks, Formulare ausf√ºllen)
- "Sieht" die Website wie ein menschlicher Benutzer

**Nachteile:**
- Deutlich ressourcenintensiver
- Langsamer als `requests` oder `Scrapy`
- Anf√§lliger f√ºr √Ñnderungen im Website-Layout

## Geeignete Szenarien f√ºr die verschiedenen Methoden

| Szenario | Geeignete Methode | Begr√ºndung |
|----------|-------------------|------------|
| Extraktion von Texten aus einer bekannten Webseite | `requests` | Einfach, effizient f√ºr einzelne statische Seiten |
| Durchsuchen und Extraktion von Daten aus einem Blog oder Wiki | `Scrapy` | Effizientes Folgen von Links, Extrahieren √§hnlicher Daten von mehreren Seiten |
| Daten aus einem Social-Media-Portal | `Selenium` | Notwendig f√ºr Login, Scrollen, Klicken und dynamisch nachgeladene Inhalte |
| Korpuserstellung aus statischen Webseiten | `Scrapy` | Gute Balance aus Geschwindigkeit und Funktionalit√§t f√ºr gr√∂√üere Sammlungen |
| Korpuserstellung aus dynamischen Webseiten | `Selenium` | Notwendig f√ºr Scrollen, Klicken und dynamisch nachgeladene Inhalte |
| Interaktion mit Suchformularen | `Selenium` | Erm√∂glicht das Ausf√ºllen und Absenden von Formularen |

## Ethische und rechtliche Aspekte

Beim Web Scraping sind stets ethische und rechtliche Aspekte zu beachten:

- Beachtung der `robots.txt`-Datei einer Website, die Informationen dar√ºber gibt, welche Websites gescraped werden d√ºrfen.
- Angemessene Wartezeiten zwischen Anfragen einhalten
- Keine pers√∂nlichen Daten ohne Einwilligung sammeln
- Urheberrecht und Nutzungsbedingungen der Websites beachten
- Datenschutzbestimmungen einhalten