Projektbeschreibung: Unterschied zwischen den Versionen
Bartz (Diskussion | Beiträge) K (Bartz verschob Seite Kobra:Über Kobra nach Projektbeschreibung) |
Weber (Diskussion | Beiträge) (→Methode) |
||
(10 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
__INHALTSVERZEICHNIS_ERZWINGEN__ | __INHALTSVERZEICHNIS_ERZWINGEN__ | ||
− | =''KobRA'' (Korpus-basierte Recherche und Analyse mit Hilfe von Data-Mining)= | + | =''KobRA'' (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)= |
<table width="730" border="0"><tr><td> | <table width="730" border="0"><tr><td> | ||
− | + | war ein Verbundprojekt, das vom [http://www.bmbf.de Bundesministerium für Bildung und Forschung (BMBF)] im Rahmen des '''[http://www.bmbf.de/foerderungen/16466.php Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities]''' gefördert wurde. Das Projekt wurde von 2012 bis 2015 gefördert. | |
*'''Beteiligte Disziplinen:''' Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. <u>[[Projektbeteiligte]]</u>) | *'''Beteiligte Disziplinen:''' Germanistische Sprachwissenschaft / Informatik / Computerlinguistik (s. <u>[[Projektbeteiligte]]</u>) | ||
*'''Methoden und Anwendungsbereich:''' Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache) | *'''Methoden und Anwendungsbereich:''' Data-Mining-Methoden zur Verbesserung der korpus-basierten Recherche und Analyse in großen strukturierten Textkorpora (mit Schwerpunkt auf Deutsch als Untersuchungssprache) | ||
− | *'''Koordination:''' Prof. Dr. Angelika Storrer ( | + | *'''Koordination:''' Prof. Dr. Angelika Storrer (Universität Mannheim) |
− | Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, | + | Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methoden und Ressourcen des Projekts: |
</td></tr></table> | </td></tr></table> | ||
+ | |||
=Wissenschaftliche Anwendungsfelder ("''use cases''")= | =Wissenschaftliche Anwendungsfelder ("''use cases''")= | ||
<table width="730" border="0"><tr><td> | <table width="730" border="0"><tr><td> | ||
'''Korpus-basierte Linguistik''' hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie [http://www.clarin.eu/ CLARIN] werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen. | '''Korpus-basierte Linguistik''' hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie [http://www.clarin.eu/ CLARIN] werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen. | ||
− | Das Projekt | + | Das Projekt setzte auf diesen Infrastrukturen auf und nutzte innovative '''Data-Mining-Verfahren''' (insbesondere Lernverfahren), die über die reine Suche hinausgehen, indem sie die Suchergebnisse filtern, sortieren oder strukturieren und ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, wurden auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt. Durch diese Verfahren sollen korpus-basiert arbeitende Linguisten und Lexikographen bei typischen Routineaufgaben unterstützt werden, sodass sie diese künftig schneller und mit besserem Ergebnis durchführen können. |
− | Die zu entwickelnden Verfahren | + | Die zu entwickelnden Verfahren wurden an '''Fallstudien aus drei linguistischen Anwendungsfeldern''' erprobt und evaluiert: |
*'''Varietätenlinguistik/Internetbasierte Kommunikation:''' Untersuchung von Sprachmerkmalen in Genres internetbasierter Kommunikation, auch im Vergleich zu standardkonformer redigierter Schriftlichkeit in anderen Textsortenbereichen (Belletristik, Zeitung, Wissenschaft, Gebrauchstexte). Studien zur sprachlichen Variation zwischen verschiedenen Genres der internetbasierten Kommunikation; Studien zum Einfluss diatopischer Varietäten und sprachvergleichende Untersuchungen. | *'''Varietätenlinguistik/Internetbasierte Kommunikation:''' Untersuchung von Sprachmerkmalen in Genres internetbasierter Kommunikation, auch im Vergleich zu standardkonformer redigierter Schriftlichkeit in anderen Textsortenbereichen (Belletristik, Zeitung, Wissenschaft, Gebrauchstexte). Studien zur sprachlichen Variation zwischen verschiedenen Genres der internetbasierten Kommunikation; Studien zum Einfluss diatopischer Varietäten und sprachvergleichende Untersuchungen. | ||
Zeile 25: | Zeile 26: | ||
Eine wichtige Zielgruppe für die Projektergebnisse sind '''Nachwuchswissenschaftler und fortgeschrittene Studierende''': Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des '''"forschenden Lernens"''' sollen die Projektergebnisse auch der '''Sprachvermittlung in der Schule''' zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft). | Eine wichtige Zielgruppe für die Projektergebnisse sind '''Nachwuchswissenschaftler und fortgeschrittene Studierende''': Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des '''"forschenden Lernens"''' sollen die Projektergebnisse auch der '''Sprachvermittlung in der Schule''' zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft). | ||
− | Im Rahmen des Projekts | + | Im Rahmen des Projekts wurde erprobt, welche Routineaufgaben mithilfe welcher Data-Mining-Verfahren beschleunigt und/oder im Ergebnis verbessert werden können. Dabei kamen verschiedene Lernverfahren in Verbindung mit strukturierten Daten und Annotationen vielfältiger Art zum Einsatz. Auf diese Weise ließen sich Einsichten im Hinblick auf die Frage gewinnen, welche Merkmale in welchen Repräsentationen für welche Lernaufgaben am besten geeignet sind. Diese Frage ist für Informatik, Linguistik und Sprachtechnologie gleichermaßen interessant. |
</td></tr></table> | </td></tr></table> | ||
+ | |||
=Methode= | =Methode= | ||
<table width="730" border="0"><tr><td> | <table width="730" border="0"><tr><td> | ||
− | Im Projekt | + | Im Projekt arbeiteten '''[[KobRA-Partner|Partner aus Informatik, Linguistik und Sprachtechnologie]]''' zusammen: Die '''Data-Mining-Methoden''' kamen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als '''Wissensbasis''' dienten '''[[Projektbeschreibung#Genutzte Ressourcen|strukturierte Sprachressourcen der Sprachtechnologie-Partner]]''' (BBAW, IDS, SfS Tübingen), die im Rahmen von [http://clarin-d.de/de/ CLARIN-D] Infrastrukturen für Sprachressourcen bereitstellten. Die Data-Mining-Verfahren des Projektes setzten auf diesen Infrastrukturen auf. Dabei ergab sich einerseits eine '''Schnittstelle zu den linguistischen Anwendern''' und andererseits eine interne '''Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur'''. Das folgende Schaubild verdeutlicht diese Verzahnung: |
[[Bild:Kobra-architektur.jpg]] | [[Bild:Kobra-architektur.jpg]] | ||
− | Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen | + | Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen wurden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei wurden folgende, für viele linguistische Untersuchungen relevante '''Verfahren''' an '''[[Projektbeschreibung#Anwendungsfelder|konkreten Fallstudien]]''' erprobt: |
*Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)'''; | *Die '''Klassifikation der Ergebnisliste nach verschiedenen Bedeutungen (Disambiguierung)'''; | ||
*das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann; | *das '''Clustering der Ergebnisliste''', sodass eine übersichtliche Struktur auch visuell dargestellt werden kann; | ||
*das''' Erkennen von "ungewöhnlichen" Belegen (Ausreißern)'''; | *das''' Erkennen von "ungewöhnlichen" Belegen (Ausreißern)'''; | ||
*die''' aufgabenbezogene linguistische Annotation'''. | *die''' aufgabenbezogene linguistische Annotation'''. | ||
− | Die im Projekt entwickelten Verfahren | + | Die im Projekt entwickelten Verfahren wurden im dritten Projektjahr '''in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert'''. Durch diese Integration wurde der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert. |
</td></tr></table> | </td></tr></table> | ||
Zeile 45: | Zeile 47: | ||
'''Verfahren:''' Die am '''[http://www-ai.cs.uni-dortmund.de/index.html Lehrstuhl für künstliche Intelligenz der TU Dortmund]''' entwickelten Softwaresysteme '''''SVMlight''''' und '''''RapidMiner''''' befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern). | '''Verfahren:''' Die am '''[http://www-ai.cs.uni-dortmund.de/index.html Lehrstuhl für künstliche Intelligenz der TU Dortmund]''' entwickelten Softwaresysteme '''''SVMlight''''' und '''''RapidMiner''''' befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern). | ||
− | '''Daten:''' Datengrundlage für die '''[[Projektbeschreibung#Methode|Lernverfahren]]''' und '''[[Projektbeschreibung#Anwendungsfelder|linguistischen Fallstudien]]''' | + | '''Daten:''' Datengrundlage für die '''[[Projektbeschreibung#Methode|Lernverfahren]]''' und '''[[Projektbeschreibung#Anwendungsfelder|linguistischen Fallstudien]]''' waren strukturierte, linguistisch annotierte große Korpora/Baumbanken und lexikalische Ressourcen, die von den Sprachtechnologie-Partnern bereitgestellt werden und über Abfragewerkzeuge und/oder Webservices in [http://clarin-d.de/de/ CLARIN-D] zur Verfügung stehen. Die folgende Tabelle gibt einen Überblick über diese Sprachressourcen und ihre Merkmale: |
[[Bild:kobra-ressourcen.jpg]] | [[Bild:kobra-ressourcen.jpg]] | ||
Zeile 52: | Zeile 54: | ||
=Entstehende Ressourcen= | =Entstehende Ressourcen= | ||
<table width="730" border="0"><tr><td> | <table width="730" border="0"><tr><td> | ||
− | Alle entwickelten und erprobten technischen Verfahren | + | Alle entwickelten und erprobten technischen Verfahren stehen nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung. Weiterhin sind die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret handelt es sich um folgende Integrationsarbeiten: |
*'''Berlin-Brandenburgische Akademie der Wissenschaften (BBAW):''' Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen. | *'''Berlin-Brandenburgische Akademie der Wissenschaften (BBAW):''' Integration als APIs auf der Arbeitsoberfläche der am Ausbau des DWDS-Wörterbuchs beteiligten Lexikographen. | ||
*'''Seminar für Sprachwissenschaft (SfS), Universität Tübingen:''' Integration in die Nutzerschnittstelle von '''[http://weblicht.sfs.uni-tuebingen.de/ WebLicht]'''. | *'''Seminar für Sprachwissenschaft (SfS), Universität Tübingen:''' Integration in die Nutzerschnittstelle von '''[http://weblicht.sfs.uni-tuebingen.de/ WebLicht]'''. | ||
Zeile 58: | Zeile 60: | ||
Da alle Sprachtechnologiepartner auch als [http://clarin-d.de/de/ CLARIN-D]-Zentren fungieren, sichert diese Integration die nachhaltige '''Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus'''. | Da alle Sprachtechnologiepartner auch als [http://clarin-d.de/de/ CLARIN-D]-Zentren fungieren, sichert diese Integration die nachhaltige '''Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus'''. | ||
− | Für die '''korpus-basierte Erforschung der internetbasierten Kommunikation''' gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am '''Aufbau eines Referenzkorpus zur | + | Für die '''korpus-basierte Erforschung der internetbasierten Kommunikation''' gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am '''Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation IBK (DeRiK)''' und kooperieren dabei mit '''[http://wiki.itmc.tu-dortmund.de/cmc/ Partnern aus anderen europäischen Initiativen]''', die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der '''[http://www.tei-c.org/ Text Encoding Initiative (TEI)]''' Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. [http://jtei.revues.org/476 Beißwenger et al. 2012]). |
</td></tr></table> | </td></tr></table> |
Aktuelle Version vom 4. März 2016, 12:34 Uhr
Inhaltsverzeichnis
KobRA (Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining)
war ein Verbundprojekt, das vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities gefördert wurde. Das Projekt wurde von 2012 bis 2015 gefördert.
Die folgenden Seiten bieten einen Überblick über Anwendungsfelder, Methoden und Ressourcen des Projekts: |
Wissenschaftliche Anwendungsfelder ("use cases")
Korpus-basierte Linguistik hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie CLARIN werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die hervorragende Möglichkeiten für die empirische Untersuchung sprachlicher Phänomene eröffnen. Das Projekt setzte auf diesen Infrastrukturen auf und nutzte innovative Data-Mining-Verfahren (insbesondere Lernverfahren), die über die reine Suche hinausgehen, indem sie die Suchergebnisse filtern, sortieren oder strukturieren und ggf. die weitere Aufbereitung der Daten für eine konkrete Fragestellung erleichtern. Um die Nutzer bei der Exploration verschiedener strukturierter Datenbestände zu unterstützen, wurden auch innovative Formen der Visualisierung für typische sprachbezogene Forschungsfragen erprobt. Durch diese Verfahren sollen korpus-basiert arbeitende Linguisten und Lexikographen bei typischen Routineaufgaben unterstützt werden, sodass sie diese künftig schneller und mit besserem Ergebnis durchführen können. Die zu entwickelnden Verfahren wurden an Fallstudien aus drei linguistischen Anwendungsfeldern erprobt und evaluiert:
Eine wichtige Zielgruppe für die Projektergebnisse sind Nachwuchswissenschaftler und fortgeschrittene Studierende: Als wichtige Multiplikatoren bei der Verbreitung korpus-basierter Zugänge zur Sprachforschung werden sie in die linguistischen Fallstudien und in die Erprobung der Verfahren mit eingebunden. In Verbindung mit Konzepten des "forschenden Lernens" sollen die Projektergebnisse auch der Sprachvermittlung in der Schule zugutekommen. Darüber hinaus können auch andere Fachbereiche profitieren, in denen das Aufspüren interessanter und ungewöhnlicher Sprachverwendungen eine wichtige Rolle spielt (z.B. die Literaturwissenschaft). Im Rahmen des Projekts wurde erprobt, welche Routineaufgaben mithilfe welcher Data-Mining-Verfahren beschleunigt und/oder im Ergebnis verbessert werden können. Dabei kamen verschiedene Lernverfahren in Verbindung mit strukturierten Daten und Annotationen vielfältiger Art zum Einsatz. Auf diese Weise ließen sich Einsichten im Hinblick auf die Frage gewinnen, welche Merkmale in welchen Repräsentationen für welche Lernaufgaben am besten geeignet sind. Diese Frage ist für Informatik, Linguistik und Sprachtechnologie gleichermaßen interessant. |
Methode
Im Projekt arbeiteten Partner aus Informatik, Linguistik und Sprachtechnologie zusammen: Die Data-Mining-Methoden kamen aus der Informatik und beziehen sich auf korpus-basierte Forschungen der Linguistik. Als Wissensbasis dienten strukturierte Sprachressourcen der Sprachtechnologie-Partner (BBAW, IDS, SfS Tübingen), die im Rahmen von CLARIN-D Infrastrukturen für Sprachressourcen bereitstellten. Die Data-Mining-Verfahren des Projektes setzten auf diesen Infrastrukturen auf. Dabei ergab sich einerseits eine Schnittstelle zu den linguistischen Anwendern und andererseits eine interne Schnittstelle zwischen der Data-Mining-Komponente und der Infrastruktur. Das folgende Schaubild verdeutlicht diese Verzahnung: Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen wurden als Datensätze behandelt, aus denen maschinell gelernt werden soll. Dabei wurden folgende, für viele linguistische Untersuchungen relevante Verfahren an konkreten Fallstudien erprobt:
Die im Projekt entwickelten Verfahren wurden im dritten Projektjahr in die Korpusinfrastrukturen der Sprachtechnologie-Partner integriert. Durch diese Integration wurde der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert. |
Genutzte Ressourcen
Verfahren: Die am Lehrstuhl für künstliche Intelligenz der TU Dortmund entwickelten Softwaresysteme SVMlight und RapidMiner befinden sich weltweit im Einsatz und werden auch für die Entwicklung innovativer Verfahren im vorliegenden Projekt genutzt. Bei beiden Systemen handelt es sich um für wissenschaftliche Zwecke frei verfügbare und erweiterbare Software (ggf. nach Rücksprache mit den Herausgebern). Daten: Datengrundlage für die Lernverfahren und linguistischen Fallstudien waren strukturierte, linguistisch annotierte große Korpora/Baumbanken und lexikalische Ressourcen, die von den Sprachtechnologie-Partnern bereitgestellt werden und über Abfragewerkzeuge und/oder Webservices in CLARIN-D zur Verfügung stehen. Die folgende Tabelle gibt einen Überblick über diese Sprachressourcen und ihre Merkmale: |
Entstehende Ressourcen
Alle entwickelten und erprobten technischen Verfahren stehen nach Ablauf des Projekts in Form weiter entwickelbarer Open-Source-Software zur Verfügung. Weiterhin sind die Verfahren in die Infrastrukturen der Sprachtechnologie-Partner eingebunden; konkret handelt es sich um folgende Integrationsarbeiten:
Da alle Sprachtechnologiepartner auch als CLARIN-D-Zentren fungieren, sichert diese Integration die nachhaltige Verwertbarkeit der Verfahren über die Projektlaufzeit hinaus. Für die korpus-basierte Erforschung der internetbasierten Kommunikation gibt es bislang keine Referenzkorpora. Die Dortmunder Linguistik und die DWDS-Arbeitsgruppe an der BBAW arbeiten deshalb gemeinsam am Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation IBK (DeRiK) und kooperieren dabei mit Partnern aus anderen europäischen Initiativen, die ähnliche Zielsetzungen verfolgen. Um die Nachhaltigkeit der Ressourcen und die Interoperabilität der dafür entwickelten Werkzeuge zu sichern, werden gemeinsam mit diesen Partnern im Rahmen der Text Encoding Initiative (TEI) Annotationsrichtlinien erarbeitet, die auch die Basis für geplante KobRA-Verfahren bilden (vgl. u.a. Beißwenger et al. 2012). |