🏆Selbsttest: Wissen und Praxis

4.5. 🏆Selbsttest: Wissen und Praxis#

Hinweis

Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.

Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.

So funktioniert es:

Wählen Sie bei jeder Frage die Antwort(en), die Sie für richtig halten
Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfältig durch
Die Erklärungen helfen Ihnen, Ihr Verständnis zu vertiefen – auch bei korrekten Antworten

Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um Wissenslücken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.

Geschätzte Zeit: 20–25 min.

Viel Erfolg!

4.5.1. Frage 1#

4.5.2. Frage 2#

Ordnen Sie die Textformate den passenden Beschreibungen zu:

Bewahrt die visuelle Gestalt des Originals, aber nicht direkt maschinenlesbar

Hier ablegen

Einfache, unformatierte Textdatei ohne Stilelemente oder Metadaten

Hier ablegen

Strukturierte Darstellung mit verschachtelten Tags und semantischer Information

Hier ablegen

Tabellarisches Format, ideal für annotierte Textdaten mit linguistischen Informationen

Hier ablegen

Ziehen Sie diese zu den passenden Beschreibungen

Bilddigitalisat

Plain Text

HTML

CSV

CSS

4.5.3. Frage 3#

4.5.4. Frage 4#

Ordnen Sie die HTML-Tags ihren Funktionen zu:

Erstellt einen Hyperlink

Hier ablegen

Fügt ein Bild ein

Hier ablegen

Erstellt eine ungeordnete Liste (mit Punkten)

Hier ablegen

Erstellt eine Tabelle

Hier ablegen

Ziehen Sie diese zu den passenden Beschreibungen

a

img

ul

table

div

p

4.5.5. Frage 5#

4.5.6. Frage 6#

4.5.7. Frage 7#

Szenario: Sie sollen folgenden HTML-Code analysieren:

<div class="article">
    <h2>Nachhaltige Mobilität</h2>
    <p>Die Stadt plant den <strong>Ausbau</strong> des Radwegenetzes.</p>
    <ul>
        <li>50 km neue Radwege</li>
        <li><a href="/details">Mehr Informationen</a></li>
    </ul>
</div>

Ihre Aufgabe:

Beschreiben Sie die hierarchische Struktur (welche Elemente sind in welchen enthalten?)
Welche Tags würden Sie verwenden, um nur den Haupttext (ohne Liste) zu extrahieren?
Wie würden Sie auf das verlinkte Dokument zugreifen?

Musterlösung

Musterlösung:

1. Hierarchische Struktur:

div (class="article")                     (Hauptcontainer)
├── h2                                    (Überschrift, Kind von div)
│   └── "Nachhaltige Mobilität"          (Textinhalt)
├── p                                     (Absatz, Kind von div)
│   ├── "Die Stadt plant den "           (Textinhalt)
│   ├── strong                            (Betonung, Kind von p)
│   │   └── "Ausbau"                     (Textinhalt)
│   └── " des Radwegenetzes."            (Textinhalt)
└── ul                                    (Liste, Kind von div)
    ├── li                                (Listenelement)
    │   └── "50 km neue Radwege"         (Textinhalt)
    └── li                                (Listenelement)
        └── a (href="/details")           (Link, Kind von li)
            └── "Mehr Informationen"      (Textinhalt)

Erklärung:

Das div-Element ist der Hauptcontainer
Es enthält direkt drei Kindelemente: h2, p, und ul
Das p-Element enthält Text und ein verschachteltes strong-Element
Das ul-Element enthält zwei li-Elemente
Das zweite li enthält ein a-Element

2. Extraktion des Haupttexts (ohne Liste):

Um nur den Haupttext zu extrahieren, würde man:

Das h2-Tag für die Überschrift auswählen
Das p-Tag für den Absatz auswählen
Die ul-Liste NICHT auswählen

Mögliche Selektoren:

CSS: .article h2 und .article p
XPath: //div[@class='article']/h2 und //div[@class='article']/p
Oder: Alle direkten Kindelemente außer ul auswählen

3. Zugriff auf das verlinkte Dokument:

Um auf das verlinkte Dokument zuzugreifen:

Tag: a (Anchor-Tag für Links)
Attribut: href=”/details”
Selektor: .article a oder //a[@href='/details']
Der Wert des href-Attributs ist /details
Dies ist eine relative URL (bezieht sich auf die aktuelle Domain)

Beispiel in Python mit BeautifulSoup:

link = soup.select_one('.article a')
url = link['href']  # Gibt '/details' zurück

4.5.8. Frage 8#

4.5.9. Frage 9#

Ordnen Sie die Schritte zur HTML-Extraktion in die richtige Reihenfolge:

Identifikation der HTML-Tags, die den relevanten Text enthalten

Hier ablegen

Analyse der visuellen Struktur der Website

Hier ablegen

Auswahl der Tags mittels CSS-Selektoren oder XPath

Hier ablegen

Extraktion des Textinhalts aus den ausgewählten Tags

Hier ablegen

Ziehen Sie diese zu den passenden Beschreibungen

2

4

1

3

4.5.10. Frage 10 (Bonusfrage)#

Vergleichende Analyse: Sie müssen entscheiden, welches Format für folgende Anwendungsfälle am besten geeignet ist:

Szenario A: Ein historisches Archiv möchte 10.000 handschriftliche Briefe aus dem 19. Jahrhundert digitalisieren und online verfügbar machen.

Szenario B: Ein Linguistik-Team möchte 500 Zeitungsartikel mit grammatischen Annotationen (Wortart, Lemma, syntaktische Funktion) versehen.

Szenario C: Eine Forschungsgruppe möchte alle Artikel einer Nachrichtenseite systematisch sammeln und den Haupttext für Textanalysen extrahieren.

Ihre Aufgabe: Empfehlen Sie für jedes Szenario das am besten geeignete Format (Bilddigitalisat, Plain Text, HTML, oder CSV) und begründen Sie Ihre Entscheidung.

Musterlösung

Musterlösung:

Szenario A: Historische handschriftliche Briefe

Empfohlenes Format: Bilddigitalisat (PDF, PNG, TIFF)

Begründung:

Visuelle Authentizität: Handschrift und originales Layout bleiben erhalten
Historischer Wert: Papierqualität, Tintenfarbe, Briefstruktur sind sichtbar
Schwierige Transkription: Handschrift erfordert oft manuelle Transkription
Archivstandard: Bibliotheken und Archive verwenden Bildformate für Originaltreue
Langzeitarchivierung: Etablierte Standards für digitale Bildarchivierung

Zusätzlich sinnvoll:

Plain Text Transkriptionen (nach manueller Erfassung)
Metadaten in separater Datei (Datum, Absender, Empfänger)

Szenario B: Zeitungsartikel mit linguistischen Annotationen

Empfohlenes Format: CSV

Begründung:

Tabellarische Struktur: Perfekt für Token + Annotationen (Wortart, Lemma, Syntax)
Standardformat: Etabliert in der Computerlinguistik
Einfache Verarbeitung: Mit Statistik- und Analysewerkzeugen gut nutzbar
Klare Organisation: Jede Zeile = ein Token mit allen Annotationen
Interoperabilität: Zwischen verschiedenen Tools austauschbar

Beispielstruktur:

ARTIKEL_ID,TOKEN_ID,TOKEN,LEMMA,POS,SYNTAX
art1,1,Der,der,DET,nsubj
art1,2,Artikel,Artikel,NOUN,ROOT

Alternative: XML/TEI (wenn hierarchische Strukturen wichtig sind)

Szenario C: Nachrichtenseite systematisch scrapen

Empfohlenes Format für Speicherung: HTML UND Plain Text

Begründung:

HTML speichern:

Original bewahren: Komplette Quelle für Nachvollziehbarkeit
Strukturinformation: Tags, Links, Metadaten erhalten
Flexibilität: Spätere Re-Extraktion mit anderen Methoden möglich
Debugging: Bei Problemen kann Original analysiert werden

Plain Text extrahieren:

Analysefreundlich: Direkt für Textanalyse verwendbar
Speichereffizient: Kleinere Dateien als HTML
Einfache Verarbeitung: Keine HTML-Parsing mehr nötig
Schnelle Analyse: Sofort mit NLP-Tools nutzbar

Empfohlener Workflow:

HTML von Website herunterladen und speichern
Relevante Teile identifizieren (z.B. article, div class=”content”)
Plain Text extrahieren und separat speichern
Metadaten in CSV speichern (URL, Datum, Titel, Autor)

Dateistruktur:

corpus/
├── html/
│   ├── article_001.html
│   ├── article_002.html
├── txt/
│   ├── article_001.txt
│   ├── article_002.txt
└── metadata.csv

Warum nicht nur ein Format?

Nur HTML: Zu viel Overhead für Textanalyse
Nur Plain Text: Quellennachweis und Struktur gehen verloren
Kombination: Best of both worlds

🏆Selbsttest: Wissen und Praxis

Contents

4.5. 🏆Selbsttest: Wissen und Praxis#

4.5.1. Frage 1#

4.5.2. Frage 2#

4.5.3. Frage 3#

4.5.4. Frage 4#

4.5.5. Frage 5#

4.5.6. Frage 6#

4.5.7. Frage 7#

4.5.8. Frage 8#

4.5.9. Frage 9#

4.5.10. Frage 10 (Bonusfrage)#