Das am IDS beheimatete Deutsche Referenzkorpus (DeReKo) ist die empirische Grundlage für nahezu alle Ressourcen des Syntagmatikons. Bei DeReKo handelt es sich um die „[...] weltweit größte Sammlung deutschsprachiger Korpora als empirische Basis für die linguistische Forschung“ (57,6 Mrd. Wörter; Stand 09.01.2024). Den einzelnen Ressourcen liegen unterschiedliche nicht-annotierte und annotierte Teilkorpora zugrunde:
Alle anderen Ressourcen basieren unterschiedlichen Ausgaben der DeReKo-W-Archive.
Für die Auswertung kamen quantitative Methoden wie Frequenzzählungen, iterative Suchen nach Textbelegen, statistische Kookkurrenzanalysen sowie Slot-Füller-Analysen zum Einsatz.
Sprachaneignung durch wiederkehrende Muster in Korpora
Was tun wir in der Regel, wenn wir nach einem angemessenen Ausdruck suchen? Klassischerweise schlagen wir im Wörterbuch nach. Heute nutzen wir aber auch die Ressourcen im Internet, seien es elektronische Wörterbücher wie Duden online oder dict.cc, automatische Übersetzungshilfen wie Google Übersetzer und DeepL oder Datenbanken mit übersetzten Texten wie Linguee. Eine immer zentralere Rolle spielt natürlich die KI.
Alle diese Quellen sind - vor allem, wenn man sie kombiniert - durchaus sehr nützlich. Was sie aber nicht befriedigend leisten, sind gesicherte Aussagen über Typikalität auf der einen Seite und über die kleinen, aber feinen Unterschiede im Gebrauch eines Ausdrucks auf der anderen.
Sicherlich muss jemand, der beispielsweise beginnt, eine Fremdsprache zu lernen, noch nicht mit all diesen Feinheiten vertraut sein. Je höher sich die Sprachkompetenz aber entwickelt, desto mehr wächst das Bedürfnis, nicht nur Fehler zu vermeiden oder sich irgendwie verständlich auszudrücken, sondern nah am muttersprachlichen Gebrauch zu kommunizieren.
Das Maß des Verstehens dieses „gewissen Etwas“ macht einen kulturell angemessenen Sprachgebrauch aus. Hat man das Privileg, eine Fremdsprache in dem entsprechenden Land zu lernen oder zu vertiefen, erwirbt man solche Kontextsensibilität „by doing“. Man hört bestimmte Ausdrücke und Chunks immer wieder und kann sie irgendwann aufgrund der wiederkehrenden Situationen memorieren. Von außen gestaltet sich dieser Lernprozess jedoch ungleich schwieriger; und nicht immer können Lehrbücher und Wörterbücher diese Lücken füllen.
Korpora als elektronische Sammlungen von sprachlichen Massendaten simulieren wiederkehrende Kontextmuster in authentischer Sprache bis zu einem gewissen Grad. Mithilfe quantitativer Auswertungen und statistischer Clusteringverfahren lassen sich neue Einsichten zu typischem Sprachgebrauch gewinnen. Typischer Sprachgebrauch manifestiert sich darin, dass viele Sprecher einer Sprachgemeinschaft verteilt über viele Texte und Zeitverläufe bestimmte sprachliche Einheiten auf dieselbe oder ähnliche Weise einsetzen.