4.5. 🏆Selbsttest: Wissen und Praxis#
Hinweis
Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.
Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.
So funktioniert es:
Wählen Sie bei jeder Frage die Antwort(en), die Sie für richtig halten
Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfältig durch
Die Erklärungen helfen Ihnen, Ihr Verständnis zu vertiefen – auch bei korrekten Antworten
Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um WissenslĂĽcken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.
Geschätzte Zeit: XX
Viel Erfolg!
4.5.1. Frage 1#
4.5.2. Frage 2#
4.5.3. Frage 3#
4.5.4. Frage 4#
4.5.5. Frage 5#
4.5.6. Frage 6#
4.5.7. Frage 7#
Szenario: Sie sollen folgenden HTML-Code analysieren:
<div class="article">
<h2>Nachhaltige Mobilität</h2>
<p>Die Stadt plant den <strong>Ausbau</strong> des Radwegenetzes.</p>
<ul>
<li>50 km neue Radwege</li>
<li><a href="/details">Mehr Informationen</a></li>
</ul>
</div>
Ihre Aufgabe:
Beschreiben Sie die hierarchische Struktur (welche Elemente sind in welchen enthalten?)
Welche Tags wĂĽrden Sie verwenden, um nur den Haupttext (ohne Liste) zu extrahieren?
Wie wĂĽrden Sie auf das verlinkte Dokument zugreifen?
Musterlösung
Musterlösung:
1. Hierarchische Struktur:
div (class="article") (Hauptcontainer)
├── h2 (Überschrift, Kind von div)
│ └── "Nachhaltige Mobilität" (Textinhalt)
├── p (Absatz, Kind von div)
│ ├── "Die Stadt plant den " (Textinhalt)
│ ├── strong (Betonung, Kind von p)
│ │ └── "Ausbau" (Textinhalt)
│ └── " des Radwegenetzes." (Textinhalt)
└── ul (Liste, Kind von div)
├── li (Listenelement)
│ └── "50 km neue Radwege" (Textinhalt)
└── li (Listenelement)
└── a (href="/details") (Link, Kind von li)
└── "Mehr Informationen" (Textinhalt)
Erklärung:
Das div-Element ist der Hauptcontainer
Es enthält direkt drei Kindelemente: h2, p, und ul
Das p-Element enthält Text und ein verschachteltes strong-Element
Das ul-Element enthält zwei li-Elemente
Das zweite li enthält ein a-Element
2. Extraktion des Haupttexts (ohne Liste):
Um nur den Haupttext zu extrahieren, wĂĽrde man:
Das h2-Tag für die Überschrift auswählen
Das p-Tag für den Absatz auswählen
Die ul-Liste NICHT auswählen
Mögliche Selektoren:
CSS:
.article h2und.article pXPath:
//div[@class='article']/h2und//div[@class='article']/pOder: Alle direkten Kindelemente außer ul auswählen
3. Zugriff auf das verlinkte Dokument:
Um auf das verlinkte Dokument zuzugreifen:
Tag: a (Anchor-Tag fĂĽr Links)
Attribut: href=”/details”
Selektor:
.article aoder//a[@href='/details']Der Wert des href-Attributs ist
/detailsDies ist eine relative URL (bezieht sich auf die aktuelle Domain)
Beispiel in Python mit BeautifulSoup:
link = soup.select_one('.article a')
url = link['href'] # Gibt '/details' zurĂĽck
4.5.8. Frage 8#
4.5.9. Frage 9#
4.5.10. Frage 10#
Vergleichende Analyse: Sie müssen entscheiden, welches Format für folgende Anwendungsfälle am besten geeignet ist:
Szenario A: Ein historisches Archiv möchte 10.000 handschriftliche Briefe aus dem 19. Jahrhundert digitalisieren und online verfügbar machen.
Szenario B: Ein Linguistik-Team möchte 500 Zeitungsartikel mit grammatischen Annotationen (Wortart, Lemma, syntaktische Funktion) versehen.
Szenario C: Eine Forschungsgruppe möchte alle Artikel einer Nachrichtenseite systematisch sammeln und den Haupttext für Textanalysen extrahieren.
Ihre Aufgabe: Empfehlen Sie fĂĽr jedes Szenario das am besten geeignete Format (Bilddigitalisat, Plain Text, HTML, oder CSV) und begrĂĽnden Sie Ihre Entscheidung.
Musterlösung
Musterlösung:
Szenario A: Historische handschriftliche Briefe
Empfohlenes Format: Bilddigitalisat (PDF, PNG, TIFF)
BegrĂĽndung:
Visuelle Authentizität: Handschrift und originales Layout bleiben erhalten
Historischer Wert: Papierqualität, Tintenfarbe, Briefstruktur sind sichtbar
Schwierige Transkription: Handschrift erfordert oft manuelle Transkription
Archivstandard: Bibliotheken und Archive verwenden Bildformate fĂĽr Originaltreue
Langzeitarchivierung: Etablierte Standards fĂĽr digitale Bildarchivierung
Zusätzlich sinnvoll:
Plain Text Transkriptionen (nach manueller Erfassung)
Metadaten in separater Datei (Datum, Absender, Empfänger)
Szenario B: Zeitungsartikel mit linguistischen Annotationen
Empfohlenes Format: CSV
BegrĂĽndung:
Tabellarische Struktur: Perfekt fĂĽr Token + Annotationen (Wortart, Lemma, Syntax)
Standardformat: Etabliert in der Computerlinguistik
Einfache Verarbeitung: Mit Statistik- und Analysewerkzeugen gut nutzbar
Klare Organisation: Jede Zeile = ein Token mit allen Annotationen
Interoperabilität: Zwischen verschiedenen Tools austauschbar
Beispielstruktur:
ARTIKEL_ID,TOKEN_ID,TOKEN,LEMMA,POS,SYNTAX
art1,1,Der,der,DET,nsubj
art1,2,Artikel,Artikel,NOUN,ROOT
Alternative: XML/TEI (wenn hierarchische Strukturen wichtig sind)
Szenario C: Nachrichtenseite systematisch scrapen
Empfohlenes Format fĂĽr Speicherung: HTML UND Plain Text
BegrĂĽndung:
HTML speichern:
Original bewahren: Komplette Quelle fĂĽr Nachvollziehbarkeit
Strukturinformation: Tags, Links, Metadaten erhalten
Flexibilität: Spätere Re-Extraktion mit anderen Methoden möglich
Debugging: Bei Problemen kann Original analysiert werden
Plain Text extrahieren:
Analysefreundlich: Direkt fĂĽr Textanalyse verwendbar
Speichereffizient: Kleinere Dateien als HTML
Einfache Verarbeitung: Keine HTML-Parsing mehr nötig
Schnelle Analyse: Sofort mit NLP-Tools nutzbar
Empfohlener Workflow:
HTML von Website herunterladen und speichern
Relevante Teile identifizieren (z.B. article, div class=”content”)
Plain Text extrahieren und separat speichern
Metadaten in CSV speichern (URL, Datum, Titel, Autor)
Dateistruktur:
corpus/
├── html/
│ ├── article_001.html
│ ├── article_002.html
├── txt/
│ ├── article_001.txt
│ ├── article_002.txt
└── metadata.csv
Warum nicht nur ein Format?
Nur HTML: Zu viel Overhead fĂĽr Textanalyse
Nur Plain Text: Quellennachweis und Struktur gehen verloren
Kombination: Best of both worlds