Deutschsprachige Onlinekorpora im Unterricht

Aus Kobra
Wechseln zu: Navigation, Suche

Ressourcen

Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Kernkorpus
Korpus deutschsprachiger Texte (1900-2000), das ausgewogen auf die Textsorten und Dekaden des 20. Jahrhunderts verteilt ist
Umfang: > 100 Mio. Tokens
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
http://www.dwds.de/


Digitales Wörterbuch der deutschen Sprache (DWDS) [Berlin-Brandenburgische Akademie der Wissenschaften]

DWDS-Wortprofil
Ergebnis einer automatischen syntaktischen und statistischen Analyse ausgewählter Korpora. Es liefert einen kompakten Überblick über die statistisch signifikanten syntagmatischen Beziehungen eines Wortes. Neben dem DWDS-Kernkorpus werden unter anderem weitere Korpora wie die ZEIT, der Tagesspiegel und die Berliner Zeitung verwendet.
Umfang: > 1.7 Milliarden Tokens (entspricht ca. 114 Mio. Sätzen, ca. 4 Mio. Dokumente)
Nutzung: ohne Registrierung eingeschränkt nutzbar / nach kostenloser Registrierung uneingeschränkt nutzbar
http://www.dwds.de/

Referenzkorpus des deutschen Textarchivs (DTA) [Berlin-Brandenburgische Akademie der Wissenschaften]

Disziplinen- und gattungsübergreifender, ausgewogener Grundbestand deutschsprachiger Texte (ca. 1600-1900) als Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache
derzeitiger Umfang: 700 Texte des 18./19. Jahrhunderts (ca. 70 Mio. Textwörter)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.deutschestextarchiv.de/

Deutsches Referenzkorpus (DeReKo) [Institut für Deutsche Sprache, Mannheim]

Deutschsprachige Texte (ca. 1900-2012) aus unterschiedlichen Textsorten über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
Umfang: > 4 Milliarden Tokens
Nutzung: nur nach kostenloser Registrierung nutzbar
https://cosmas2.ids-mannheim.de/cosmas2-web/


Wikipedia-Korpus [Institut für Deutsche Sprache, Mannheim]

Artikel- und Diskussionsseiten der deutschsprachigen Wikipedia über Corpus Search, Management and Analysis System (COSMAS II) abrufbar
Umfang: > 1 Milliarde Tokens
Nutzung: nur nach kostenloser Registrierung nutzbar
https://cosmas2.ids-mannheim.de/cosmas2-web/

Kookkurrenzdatenbank CCDB [Institut für Deutsche Sprache, Mannheim]

Kollokationsprofile von Wörtern der geschriebenen Gegenwartssprache zur Aufdeckung und Interpretation von im Sprachgebrauch manifesten emergenten Strukturen
Umfang: Profile zu 220.000 lexikalischen Einheiten
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://corpora.ids-mannheim.de/ccdb/


WebLicht [Seminar für Sprachwissenschaft, Universität Tübingen]

Ausführungsumgebung für automatische Annotation von Textkorpora
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page


Tübingen aNnotated Data Retrieval Application (TüNDRA) [Seminar für Sprachwissenschaft, Universität Tübingen]

Webanwendung zur Durchsuchung, Abfragung und Visualisierung von Baumbanken (z.B. deutschsprachige Zeitungstexte (TüBa-D/Z), Texte der Sammlung Projekt Gutenberg (TüBa-D/DC))
Nutzung: über die Zugangsdaten der Heimatuniversität nutzbar / Alternativ ist die Beantragung eines kostenlosen Accounts möglich.
http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra

Projekt Gutenberg [Hille & Partner, Hamburg]

Deutschsprachige Textsammlung (1210-Anfang 20. Jh.), auf die frei vom Urheberrecht im Internet zugegriffen werden kann
Umfang: > 5500 Werke, > 1100 Autoren
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://gutenberg.spiegel.de/


Dortmunder Chat-Korpus [Technische Universität Dortmund]

Ressource für Analysen zum Sprachgebrauch in der internetbasierten Kommunikation mit einem Zugriff auf eine Vielzahl von Mitschnitten deutschsprachiger Chats aus unterschiedlichen sozialen Handlungsbereichen
Umfang: 478 Mitschnitte (140.000 Nutzerbeiträge / 1.06 Mio. Tokens)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.chatkorpus.tu-dortmund.de/

Weitere Ressourcen:

Canoonet

Online-Sprachservice (Deutsche Wörterbücher und Grammatik): Kooperation zwischen Mitarbeitern der Universität Basel, der Vrije Universiteit Amsterdam, des IDSIA Lugano und der Canoo Engineering AG
Das Deutsche morphologische Wörterbuch von Canoo baut auf verschiedenen elektronischen und traditionellen Wörtersammlungen auf.
Umfang: ca. 250.000 Einträge (entspricht ca. 3 Mio. Wortformen)
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.canoo.net/

Duden online

Duden online erfasst den für die deutsche Sprachgemeinschaft bedeutsamen Wortschatz des Deutschen und bietet darüber hinaus Angaben zu Rechtschreibung, Grammatik und Bedeutung eines Wortes. Als Basis für die Erfassung und Bearbeitung des Wortschatzes nutzt die Dudenredaktion in erster Linie das Dudenkorpus
Umfang: > 2 Milliarden Wortformen
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.duden.de/


Wortwarte [Dr. Lothar Lemnitzer – Berlin-Brandenburgische Akademie der Wissenschaften]

Sammlung von Neologismen in ihren jeweiligen Textstücken
Als Quelle dienen primär Onlineausgaben diverser Zeitungen (z.B. Spiegel, ZEIT, Handelsblatt).
Nutzung: ohne Registrierung uneingeschränkt nutzbar
http://www.wortwarte.de/