6.3. 🏆Selbsttest: Wissen und Praxis#

Hinweis

Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.

Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.

So funktioniert es:

  • Wählen Sie bei jeder Frage die Antwort(en), die Sie für richtig halten

  • Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfältig durch

  • Die Erklärungen helfen Ihnen, Ihr Verständnis zu vertiefen – auch bei korrekten Antworten

Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um Wissenslücken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.

Geschätzte Zeit: XX

Viel Erfolg!

6.3.1. Frage 1#

6.3.2. Frage 2#

6.3.3. Frage 3#

6.3.4. Frage 4#

6.3.5. Frage 5#

6.3.6. Frage 6#

Ordnen Sie die Schritte des Korpusaufbaus in die richtige Reihenfolge:
Untersuchung der HTML-Struktur der Übersichtsseite
Hier ablegen
Scraping der Einzelseiten mit HTTP-Requests
Hier ablegen
Extraktion aller Links zu Einzelseiten
Hier ablegen
Extraktion und Speicherung von Text und Metadaten
Hier ablegen
Ziehen Sie diese zu den passenden Beschreibungen
3
1
4
2

6.3.7. Frage 7#

Szenario: Sie untersuchen eine Nachrichten-Website und finden folgende HTML-Struktur auf der Übersichtsseite:

<table>
  <tbody>
    <tr>
      <td>15.01.2024</td>
      <td><a href="/artikel/12345.html">Neuer Stadtrat gewählt</a></td>
      <td>Rathaus</td>
    </tr>
    <tr>
      <td>14.01.2024</td>
      <td><a href="/artikel/12344.html">Haushalt beschlossen</a></td>
      <td>Finanzen</td>
    </tr>
  </tbody>
</table>

Aufgaben:

  1. Welchen CSS-Selektor würden Sie verwenden, um alle Tabellenzeilen zu finden?

  2. Wie würden Sie aus einer Zeile das Datum, den Titel und den Link extrahieren?

  3. Wie würden Sie aus dem relativen Link “/artikel/12345.html” eine vollständige URL machen?

  4. Welche Metadaten würden Sie für jeden Artikel erfassen?