Fallstudien zum Bedeutungswandel: Automatische Disambiguierung und Visualisierung disambiguierter lexikalischer Einheiten: Unterschied zwischen den Versionen

Aus Kobra
Wechseln zu: Navigation, Suche
Zeile 64: Zeile 64:
  
 
<br style="clear:both;"/>
 
<br style="clear:both;"/>
 +
 +
== 4  Auswahl der Wörter und Korpora ==
 +
 +
Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.
 +
 +
Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.
 +
 +
Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.
 +
 +
Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.
 +
 +
Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.
 +
 +
Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.
 +
 +
Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.
 +
 +
Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.
 +
 +
Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).
 +
 +
Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).
 +
 +
Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt.
 +
Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.
 +
 +
== 5  Experimente und Evaluation ==
 +
 +
Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:
 +
:'''1) Abgefragtes Wort und Wortart:''' Substantiv, Verb, Adjektiv oder Konjunktion?
 +
:'''2) Menge der Bedeutungen:''' Zwei oder mehr Bedeutungen?
 +
:'''3) Abgefragtes Korpus:''' Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
 +
:'''4) Sprache des Korpus:''' Deutsch oder Englisch?
 +
:'''5) Menge der KwiC-Snippets:''' Weniger oder mehr als 1000 Snippets?
 +
Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments:

Version vom 22. Juli 2015, 09:53 Uhr


1 Entwicklung und Ausdifferenzierung von Bedeutungen: KobRA-Anwendungsbereich Lexikographie

Die Entwicklung und Ausdifferenzierung von Bedeutungen ist für Linguisten in zweierlei Hinsicht interessant: Lexikographen verfolgen Wortentwicklungen, um adäquate lexikographische Beschreibungen erstellen bzw. vorhandene Wörterbucheinträge aktualisieren zu können (Storrer, 2011). Forscher im Bereich der Historischen Semantik fragen nach den Möglichkeiten, Bedingungen und Folgen semantischer Innovationen (Fritz, 2012; Fritz 2005; Keller & Kirschbaum 2003). Für den Erkenntnisgewinn entscheidend ist in beiden Fällen die Verfügbarkeit strukturierter Textkorpora, die es erlauben, die Verwendung eines Wortes über größere Zeiträume hinweg nachzuvollziehen. Während insbesondere im Rahmen von CLARIN umfangreiche synchrone und diachrone Textkorpora mit Metadaten zu Erscheinungsdatum und Textsorte sowie komfortable Abfrage- und Analysewerkzeuge zur Verfügung stehen, ist die großflächige automatische semantische Annotation der Korpora nach gegenwärtigem Stand der Technik noch nicht zufriedenstellend möglich (Rayson & Stevenson, 2008). Bei der Korpus-basierten Untersuchung von Bedeutungswandel müssen deshalb bislang die zu einem Wort gefundenen Einzelbelege manuell disambiguiert werden. Verbreitung und Prozesse des Bedeutungswandels können daher aktuell lediglich anhand weniger Beispiele und auf einer vergleichsweise geringen Datenbasis beschrieben werden (Fritz 2005; Keller & Kirschbaum 2003). Ziel der im Folgenden beschriebenen Fallstudie ist es, Data-Mining-Verfahren zu erproben, die den Korpus-Nutzer dadurch unterstützen, dass sie eine Menge von Snippets zu einem lexikographisch interessanten Wort nach den Bedeutungen dieses Wortes partitionieren, sodass die Snippets für einzelne Bedeutungen auch einzeln zählbar sind (Details s. Bartz et al. im Erscheinen).

2 Bezug zu den Aufgabenstellungen des KobRA-Projekts: Disambiguieren/Visualisieren

Das übergreifende Ziel des KobRA-Projekts besteht darin, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern. Die auf dieser Seite dokumentierte Fallstudie bearbeitet einen Problemtyp, der in vielen korpusbasierten linguistischen Untersuchungen auftritt:

Ein Wort, dessen Gebrauch untersucht werden soll, tritt im Korpus mit hoher Frequenz auf. Die bei der Korpussuche generierten Trefferlisten sind aber nicht unmittelbar nutzbar, weil das gesuchte Wort in verschiedenen Bedeutungen vorkommt, die im Rahmen der Untersuchung zu unterscheiden und ggf. einzeln zu zählen sind, was aber mit der vorhandenen Korpustechnologie nicht automatisch möglich ist. Benötigt werden deshalb Data-Mining-Verfahren, die den Korpus-Nutzer dabei unterstützen, Trefferlisten zu einem Wort nach verschiedenen Bedeutungen dieses Wortes zu partitionieren.

Die Partitionierung ermöglicht zugleich anspruchsvolle Visualisierungen, die den Gebrauch von Wörtern über Zeitspannen und Textsortenbereiche hinweg in seiner Entwicklung auch grafisch sichtbar machen sowie neue Fragestellungen und Hypothesen induzieren können. Ein Werkzeug zur Visualisierung disambiguierter lexikalischer Einheiten wird daher ergänzend erprobt.

3 Data-Mining-Verfahren und -Umgebung, Werkzeuge zur Annotation und Visualisierung

3.1 Einlesen, Repräsentation und Nutzung der Korpusdaten

Die Data-Mining-Verfahren des KobRA-Projekts setzen direkt an der von einem Korpusabfragesystem zu einem gesuchten Ausdruck ausgegebenen Keyword-in-Context-Ergebnisliste (KwiC-Liste) an (s. Abbildung 1). Diese besteht aus kurzen Text-Snippets für jeden Treffer der Abfrage, die das Suchwort in einem Kontext von einigen Sätzen erhalten (je nach Fragestellung und genutztem Korpus variabel, meist 1-3 Sätze). Grundlage für das maschinelle Lernen sind also nicht die vollständigen Korpora, sondern eine vom Korpus-Nutzer auf Grundlage seiner Expertise schon auf die hochrelevanten Daten konzentrierte Auswahl. Die gängigen Abfragesysteme bieten dazu heute über ausgefeilte Abfragesprachen bereits umfangreiche Möglichkeiten an, das Suchergebnis abhängig von bestimmten Merkmalen möglichst präzise einzuschränken. Zu diesen Merkmalen zählen Wortformen und Phrasen, Wortabstände und -fenster bis hin zu regulären Ausdrücken für die Mustersuche, Lemmata (Rückführung der flektierten Wortformen auf die Grundform), morphosyntaktischen (Wortarten) und syntaktischen Informationen.

Abbildung 1: Abfrage zum Suchwort „toll" im DWDS-Kernkorpus des 20. Jh. über das Abfragesystem des DWDS mit Nutzung des Wortarten-Filters (vgl. Geyken 2007, Klein & Geyken 2010)


Die durch Korpusabfrage gewonnenen Daten können unabhängig vom verwendeten Korpus in die im Projekt genutzte und angepasste Data-Mining-Umgebung (s. 2.4) eingelesen werden. Einzige Voraussetzung ist die Formatierung in einem Tabellenformat (z.B. als Komma-separated-Values/CSV oder XLS). Alternativ steht mit dem im Projekt entwickelten Plug-in ein Werkzeug („LinguisticQuery-Operator“) zur Verfügung, das die Abfrage der durch die KobRA-Projektpartner bereitgestellten Ressourcen direkt aus der Data-Mining-Umgebung heraus ermöglicht. Das Werkzeug unterstützt auch die oben genannten erweiterten Abfragemöglichkeiten gängiger Korpusabfragesysteme. Für das Auslesen der in vielen Korpora genutzten XML-Datenbasis (nach TEI-Standard, z.B.: Beißwenger et al. 2012) wurde als Bestandteil des RapidMiner-Plug-ins außerdem ein TEI-Reader bereitgestellt.

Die KwiC-Snippets werden für das maschinelle Lernen als Sequenzen von Wörtern repräsentiert (‚Bags-of-Words‘; grundlegende Repräsentation). Jedes Snippet wird als großer Vektor mit Einträgen für jedes Wort der Gesamtmenge aller Wörter in einer KwiC-Liste dargestellt (ein sogenannter ‚Wortvektor‘). In einer KwiC-Liste mit N Wörtern ist der Vektor N-dimensional. Die Elemente der Wortvektoren können binär sein und das bloße Vorkommen eines Wortes in einem Snippet oder Häufigkeiten des Wortes in einem Snippet und in allen Snippets der KwiC-Liste darstellen. Formal ist ein Wortvektor v für einen endlichen Text definiert als ein N-dimensionaler Vektor, d.h. alle möglichen Texte enthalten N unterschiedliche Wörter. Für v gilt, dass die i-te Komponente die Anzahl der Vorkommen oder (normalisierte) Frequenz von Wort i im Text ist. Ordnet man diese Wörter, so kann man jedes Wort über einen Index i identifizieren. Damit definieren wir eine Abbildung Phi, die die Snippets (hier wie ‚Texte‘ behandelt) als Wortvektoren abbildet. Dies geschieht formal so:

φ(d) = (f(w1,d), f(w2,d), …, f(wN,d)), wobei f(wi,d) die Anzahl oder (normalisierte) Frequenz von Wort i in Text d (für ‚document‘) angibt.

Für eine erweiterte Repräsentation, die die Berücksichtigung weiterer Merkmale (z.B. N-Gramme, Phrasen, morphosyntaktische Informationen, Dependenzen, Syntaxbäume) über die reinen Wortvorkommen hinaus beim maschinellen Lernen erlaubt, nutzen wir Kernmethoden (Shawe-Taylor & Cristianini 2004), die die Ähnlichkeit für jedes mögliche Paar von Snippets angeben, indem sie die Snippets in einem Hilbertraum abbilden. Mithilfe der Stützvektormethode (auch ‚Support-Vector-Machine‘, kurz: SVM, Joachims 1998; s. 2.2) lässt sich daraufhin eine klassifizierende Hyperebene lernen (s. 2.2). Beispielsweise werden Parse-Bäume über sogenannte ‚Treekernels‘ in einen Hilbertraum gemappt, der von allen möglichen Teilbäumen aufgespannt wird. Mittels des sogenannten ‚Kerneltricks‘ kann dann eine Support-Vector-Maschine gelernt werden, ohne explizit alle möglichen Teilbäume aufzählen zu müssen (Collins & Duffy 2001).

3.2 Lernverfahren: Topic-Modelle/Latente Dirichlet-Analyse

Die oben formulierte Aufgabe wurde in der Forschung zu Data-Mining-Verfahren vor allem im Bereich der Induktion von Wortbedeutungen schon in zahlreichen Ansätzen bearbeitet. Ein früher statistischer Ansatz wurde bereits 1991 von Brown et al. vorgelegt, einen umfassenden Überblick über den gegenwärtigen Forschungsstand gibt Navigli (2009). Brody und Lapata (2009) konnten zeigen, dass sich mithilfe der Latenten Dirichlet-Analyse (auch ‚Latent-Dirichlet-Allocation‘, kurz: ‚LDA‘, vgl. Blei et al. 2003) tendenziell die besten Ergebnisse erzielen lassen. LDA wurde ursprünglich zum thematischen Partitionieren von Dokumentsammlungen genutzt. Navigli und Crisafulli (2010) konnten aber bereits zeigen, dass sich das Verfahren auch für die Disambiguierung kleiner Text-Snippets erfolgreich nutzen lässt, z.B. für das Partitionieren der Trefferlisten von Web-Suchmaschinen. Besonderheiten der Anwendung von LDA auf KwiC-Listen aus Korpora und weitere Details zum Verfahren sind in Batz et al. (2013, Technischer Bericht 2013/2) beschrieben.

Im Rahmen des KobRA-Projekts wurde LDA für die Nutzung in RapidMiner (s. 2.4) implementiert, wie es von Blei et al. (2003) vorgestellt wurde. LDA schätzt die Wahrscheinlichkeitsverteilungen von Wörtern und Dokumenten (hier: KwiC-Snippets) über eine bestimmte Anzahl überzufällig häufig auftretender Kontextwörter, sogenannter ‚Topics‘, die als Repräsentationen für verschiedene Verwendungsweisen (z.B. Bedeutungen) eines gegebenen sprachlichen Ausdrucks aufgefasst werden. Dabei wird angenommen, dass die Wahrscheinlichkeit für die Zuordnung zu den Topics einer Dirichletverteilung folgt, die von den gegebenen Metaparametern α und β abhängt. Die Wahrscheinlichkeit eines bestimmten Topics für ein gegebenes Snippet ist modelliert als multinomiale Verteilung, die von der Dirichletverteilung der Snippets über die Topics abhängt. Formal sei ϕ ~ Dirichlet(β) die Wahrscheinlichkeitsverteilung eines Snippets und p(z1| ϕ(j)) ~ Multi(ϕ(j)) die Wahrscheinlichkeit des Topics z1 für ein gegebenes Snippet j.

Wir verwenden einen Gibbs-Sampler (Griffiths & Steyvers 2004), um die Verteilungen zu schätzen. Der Gibbs-Sampler modelliert die Wahrscheinlichkeitsverteilungen für ein gegebenes Topic z1 in Abhängigkeit zu allen anderen Topics und den Wörtern eines Snippets als Markov-Reihe. Diese nähert sich der A-posteriori-Verteilung der Topics für die in einem Snippet gegebenen Wörter an. Die A-posteriori-Verteilung kann schließlich genutzt werden, um das wahrscheinlichste Topic für ein gegebenes Snippet zu ermitteln. Auf dieser Basis wird im Rahmen des stochastischen Prozesses die Generierung von Topics simuliert. Abhängig davon, wie häufig ein bestimmtes Topic für ein gegebenes Snippet gezogen wird, ermitteln wir die Wörter, die das Topic am wahrscheinlichsten indizieren. Diese repräsentieren das Topic und damit die Verwendungsweise/Bedeutung des gesuchten Ausdrucks.

3.3 Berücksichtigung zeitlicher Entwicklungen

Die Analyse von Aspekten des Sprachwandels über die Zeit ist aus der linguistischen Anwenderperspektive ein besonderer Fokus des KobRA-Projekts. Deshalb wurde das oben beschriebene Verfahren für die Analyse zeitlicher Entwicklungen erweitert. Dafür haben wir zum einen eine Möglichkeit geschaffen, die in den verwendeten Korpora als Metadaten vorhandenen zeitlichen Informationen zu den Snippets (z.B. Veröffentlichungsdatum) unabhängig von den Wahrscheinlichkeitsverteilungen der Topic-Wörter und der Topics über die Snippets auszuwerten. Dies ermöglicht uns, zu erfassen, wie häufig ein bestimmtes Topic des Topic-Modells in einem bestimmten Zeitabschnitt vorkommt. Abbildung 3 zeigt eine solche Verteilung der Topics für das Wort „Platte“ über die Zeit (Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2):

Abbildung 2: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Unabhängigkeitsannahme


Eine weitere Möglichkeit zur Integration von zeitlichen Informationen in Topic-Modelle ist die Modellierung von Zeit explizit als Zufallsvariable (Wang & McCallum 2006). Dafür nehmen wir an, dass die Zeit eine Beta-verteilte Zufallsvariable ist und die Wahrscheinlichkeit, dass ein bestimmtes Wort in einem Snippet zu einem Topic gehört, auch von dieser Variable abhängig ist. Dies hat vor allem den Vorteil, dass wir die Zeit nicht in Intervalle einteilen müssen, sondern dynamische Perioden der Topics modellieren können. Abbildung 4 zeigt die Verteilung der Topics für das Wort „Platte“ über die Zeit, wenn Zeit als abhängige Beta-verteilte Zufallsvariable modelliert wird (gleiche Korpusbasis: DWDS-Kernkorpus des 20. Jh., s. 3.2). Im Vergleich zu Abbildung 3 sieht man sehr schön, dass wir nun die Topics über die Zeit viel eindeutiger trennen können.

Visualisierungen wie die Abbildungen 3 und 4 wurden mithilfe des Werkzeugs „dfr-browser“ (Goldstone o.J.) generiert, das die Entwicklung von Topics über die Zeit und auch die Verteilung von Kontextwörtern und Snippets über die Topics veranschaulichen kann. Eine Schnittstelle zum Visualisierungswerkzeug wurde für die Nutzung in RapidMininer implementiert (s. 2.4).

Abbildung 3: Verteilung der LDA-Topics für Snippets mit dem Wort „Platte“ über die Zeit unter der Abhängigkeitsanahme


3.4 Erweiterung der Data-Mining-Umgebung „RapidMiner“

Alle im KobRA-Projekt implementierten und evaluierten Verfahren und Werkzeuge sind als Plug-in für die Data-Mining-Umgebung „RapidMiner“ (früher „YALE“, Mierswa et al. 2006) verfügbar. RapidMiner ermöglicht auf einfache Weise die Ausführung vielfältiger, leistungsfähiger Methoden zur Analyse großer Datenmengen und enthält standardmäßig bereits eine Vielzahl von Werkzeugen für Datenimport, -transformation, -analyse und -visualisierung.

Im KobRA-Projekt wurden neben den oben bereits beschriebenen Data-Mining-Verfahren für das Partitionieren (s. 3.2) von Daten zusätzlich Methoden implementiert, die einen effizienten Zugriff auf die im Projekt verfügbaren Sprachressourcen und die Extraktion sowie Analyse von Dokument- und sprachlichen Merkmalen ermöglichen. Eine integrierte Annotationsumgebung erlaubt Korpus-Nutzern, ihre Expertise durch Annotation von Daten direkt aus der Data-Mining-Umgebung heraus in maschinelle Lernprozesse einzubringen, z.B. in Szenarien des Aktiven Lernens. Eine Schnittstelle zur CLARIN-Annotationsumgebung „WebLicht“ (Hinrichs et al. 2010) eröffnet Nutzern die Möglichkeit, alle automatischen Sprachverarbeitungswerkzeuge zur Anreicherung der Daten zu verwenden, die über die CLARIN-Infrastruktur verfügbar sind. Eine weitere Schnittstelle zu einem leistungsfähigen Visualisierungswerkzeug (Goldstone o.J.) erschließt aktuelle Verfahren zur visuellen Aufbereitung der Analyseergebnisse. Abbildung 5 zeigt eine Auswahl der zur Verfügung gestellten Werkzeuge in der Anwendung in einem Prozess zur automatischen Disambiguierung von Korpusbelegen zum Adjektiv „toll“, wobei das Ergebnis der Disambiguierung an einer manuell annotierten Stichprobe direkt evaluiert wird.

Abbildung 4: Operatoren des KobRA-Plug-ins im Einsatz- „LinguisticQuery-Operator“, „LDA- Operator“, „Annotation-Operator“


4 Auswahl der Wörter und Korpora

Wir haben Korpusabfragen zu einer Auswahl an Wörtern gestellt, die aus linguistischer Sicht interessant sind, weil sie in letzter Zeit oder über eine längere Zeitspanne hinweg neue Bedeutungen entwickelt oder ihre prototypische Bedeutung gewechselt haben. Je nach angenommenem Zeitraum der Bedeutungsveränderungen wurden unterschiedliche Korpora abgefragt. Bei der Auswahl der Beispielwörter haben wir zudem unterschiedliche Wortarten berücksichtigt, um auch Einsichten in mögliche wortartenspezifische Unterschiede in der Leistungsfähigkeit der evaluierten Data-Mining-Verfahren zu erhalten. Folgende Beispielwörter bilden die Basis für die unten dargestellten Experimente. Details zu den verwendeten Korpora finden sich direkt im Anschluss.

Das Substantiv „Platte“ hat im Zuge technischer Innovationen im Laufe des 20. Jahrhunderts sein Bedeutungsspektrum stark ausdifferenziert. Neben den Bedeutungen flaches Werkstück oder Teller finden sich nach und nach zunehmend auch Verwendungen in den Bedeutungen fotografische Platte, Schallplatte/CD oder Festplatte. Eine Suche nach dem Lemma „Platte“ im DWDS-Kernkorpus des 20. Jh. ergibt 2886 KwiC-Snippets.

Das Verb „anrufen“ hat mit Beginn der kommerziellen Verbreitung des Telefons in den 20er/30er Jahren des 20. Jahrhunderts neben seiner ursprünglichen Bedeutung rufen/bitten auch die Bedeutung telefonieren erhalten. Eine Suche nach dem Verb „anrufen“ im DWDS-Kernkorpus des 20. Jh. ergibt 2085 KwiC-Snippets.

Das Substantiv „Heuschrecke“ scheint spätestens seit der Finanz- und Bankenkrise (ab 2007) neben seiner prototypischen Bedeutung Grashüpfer auch als Bezeichnung für eine am sogenannten “Heuschreckenkapitalismus” beteiligte Person verwendet zu werden. Eine Suche nach „Heuschrecke“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 715 KwiC-Snippets.

Das Adjektiv „zeitnah“ scheint in Laufe der letzten 20 bis 30 Jahre neben seiner ursprünglichen Bedeutung zeitgenössisch/zeitkritisch eine neue prototypische Bedeutung erhalten zu haben: unverzüglich. Eine Suche nach „zeitnah“ im DWDS-Zeitungskorpus ‚Die ZEIT‘ ergibt 597 KwiC-Snippets.

Das Adjektiv „toll“ hat im Laufe der letzten Jahrhunderte einen bemerkenswerten Bedeutungswandel durchlaufen, wobei sich die ursprüngliche Bedeutung irre über ausgelassen/wild bis hin zum positiv attribuierenden sehr gut wandelte. Eine Suche nach dem Adjektiv „toll“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 5793 KwiC-Snippets, eine entsprechende Suche im DWDS-Kernkorpus des 20. Jh. 1745 KwiC-Snippets.

Die Konjunktion „da“ wurde nach frühen Belegen zunächst ausschließlich in temporaler Bedeutung genutzt, heute finden sich häufiger Belege in kausaler Verwendung. Eine Suche nach der Konjunktion „da“ in der Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ergibt 123496 KwiC-Snippets.

Mit der Auswahl des englischen Substantivs „cloud“ soll schließlich ein erster Eindruck zur Anwendbarkeit des Verfahrens auch auf nicht deutsche Sprachdaten gewonnen werden. Das Wort scheint mit der Entstehung großer Computernetzwerke in den letzten Jahrzehnten neben seiner ursprünglichen Bedeutung Wolke eine neue Bedeutung entwickelt zu haben. Eine Suche nach „cloud“ in den Korpora der Leipzig Corpora Collection ergibt 1486 KwiC-Snippets.

Das DWDS-Kernkorpus des 20. Jh. (DWDS-KK), das an der Berlin-Brandenburgischen Akademie der Wissenschaften gepflegt wird, enthält ca. 100 Millionen laufende Wörter, die ausgewogen über die Dekaden des 20. Jh. und die Textsortenbereiche Belletristik, Zeitung, Wissenschaft und Sachtexte verteilt sind. Das Zeitungskorpus ‚Die ZEIT‘ (ZEIT) umfasst alle Ausgaben der gleichnamigen Wochenzeitung von 1946 bis 2009, ca. 460 Millionen laufende Wörter (Klein & Geyken, 2010; Geyken, 2007).

Die Tübingen Baumbank des Deutschen Diachron (TüBa-D/DC) ist ein syntaktisch annotiertes Korpus (Konstituentenbäume) mit ausgewählten diachronen Sprachdaten aus dem deutschen Gutenberg-Projekt (http://gutenberg.spiegel.de/); dabei handelt es sich um eine Initiative einer Gemeinschaft von Interessierten, die Copyright-freie Literatur von 1210 bis 1930 über eine Web-Schnittstelle öffentlich zugänglich macht. Die TüBa-D/DC wird vom CLARIN-D-Center an der Universität Tübingen gepflegt und enthält etwa 250 Millionen laufende Wörter (Hinrichs and Zastrow, 2012).

Die Leipzig-Corpora-Collection (LCC) besteht aus Korpora für verschiedene Sprachen, die zufällig ausgewählte Sätze aus Zeitungstexten und einer Web-Stichprobe enthalten (Quasthoff, Richter & Biemann, 2006). Für diese Fallstudie haben wir das englischsprachige Korpus mit Sprachdaten aus Zeitungstexten und der englischen Wikipedia verwendet, das eine Zeitspanne von 2005 bis 2010 abdeckt. Die Korpusabfragen ergeben KwiC-Snippets mit Vorkommen der untersuchten Wörter (einschließlich ihrer flektierten Formen) in einem Kontext von bis zu drei Sätzen (von bis zu einem Satz bei den Daten aus der LCC). Zusätzlich werden für jedes Snippet das Veröffentlichungsdatum sowie weitere Metadaten (bei der TüBa-D/DC: Publikationstitel und Autorname; beim DWDS-KK: Textsortenbereiche) ausgegeben.

5 Experimente und Evaluation

Für die automatische Disambiguierung der KwiC-Snippets zu den untersuchten Beispielwörtern wird jeweils ein unüberwachtes Verfahren eingesetzt, wie es unter 2.3. beschrieben ist. Zur Anwendung kommt jeweils das LDA-Verfahren, das in acht verschiedenen Treatments evaluiert wird, die sich durch die Auswahl der Beispielwörter und Korpora (s.o.) sowie unser Erkenntnisinteresse in Bezug auf die optimale Repräsentation der KwiC-Snippets ergeben. Die Treatments unterscheiden sich hinsichtlich folgender Aspekte:

1) Abgefragtes Wort und Wortart: Substantiv, Verb, Adjektiv oder Konjunktion?
2) Menge der Bedeutungen: Zwei oder mehr Bedeutungen?
3) Abgefragtes Korpus: Gegenwartssprachlich (DWDS-KK, ZEIT) oder diachron (TüBa-D/DC)?
4) Sprache des Korpus: Deutsch oder Englisch?
5) Menge der KwiC-Snippets: Weniger oder mehr als 1000 Snippets?

Für jedes Treatment wurde zudem überprüft, ob ein Kontext von 20, 30 oder 40 Wörtern um das zu disambiguierende Wort zu den besten Ergebnissen führt. Die folgende Tabelle 3 zeigt eine Übersicht über die Evaluations-Treatments: