Dokumentieren

Eine Definition: Dokumentieren als angewandt-linguistisches Tätigkeitsfeld

Dokumentieren bedeutet, etwas genau beschreibend zu erfassen und darzustellen. In der Angewandten Linguistik sind gesprochene, geschriebene oder multimodale Sprach- und Metadaten Gegenstände der Dokumentation. Auch der methodische Umgang mit dem Datenmaterial wird dokumentiert.

Magdalena Belz, Universität Würzburg

Tätigkeitsfelder: Dokumentieren

Angewandte Linguistinnen und Linguisten dokumentieren!

Ohne Sprachdaten ist empirische Sprachwissenschaft nicht möglich. Dokumentationsprozesse im Sinne fachlicher Erhebung sprachlicher Phänomene bilden die Datengrundlage für alle angewandt linguistischen Tätigkeitsfelder – sie stellen zugleich aber einen eigenen Tätigkeitsbereich dar!

Für wen und mit welchem Ziel wird dokumentiert?

Angewandt-linguistisches Dokumentieren macht sprachliche Strukturen sichtbar und ordnet diese fachlich ein. Sie liefert damit nicht nur Untersuchungsmaterial für Forschende, sondern auch Hinweise und Erklärungen für alle Interessierten. Ein wichtiger Aspekt des angewandt-linguistischen Dokumentierens ist deshalb auch die angemessene und der Gesellschaft zugewandte Aufbereitung der Ergebnisse.

Wo findet angewandt linguistisches Dokumentieren statt?

Dokumentation gesprochener und geschriebener Sprache findet überall dort statt, wo empirische Sprachwissenschaft stattfindet – das schließt die Erstellung von Datenkorpora in Hausarbeiten von Studierenden genauso ein wie größere Projekte in wissenschaftlichen Institutionen.

Bereiche der Angewandten Linguistik, in denen das Dokumentieren gesprochener oder geschriebener Sprache einen Schwerpunkt darstellt, sind etwa die Lexikografie, die Fachkommunikation oder die Technikdokumentation.

Wann wird dokumentiert?

In manchen Fällen – wie etwa in gesprächslinguistischen Untersuchungen – beginnt der Dokumentationsprozess bereits, bevor überhaupt Sprachdaten existieren: Vor der Aufzeichnung werden Formulare und Mustertranskripte entwickelt, mit denen im Anschluss geforscht werden kann (vgl. Imo – Lanwer (2019): Kapitel 4.2.3). In anderen Fällen – wie etwa bei der Erstellung von historischen Wörterbüchern – können dagegen viele Jahrhunderte vergehen, bis das sprachliche Material systematisch erfasst und aufbereitet wird.

Wie wird dokumentiert – und wie kann das Ergebnis eines Dokumentationsprozesses aussehen?

Angewandt-linguistische Dokumentation sucht nach Möglichkeiten, die Befunde auch für Gruppen außerhalb der linguistischen Disziplinen aufzubereiten und zur Verfügung zu stellen. Besonders stark ausgeprägt ist dieser Gedanke in neueren Forschungsansätzen wie Citizen Science: Hier können Bürgerinnen und Bürger Einblicke in Dokumentations- und Forschungsprozesse erhalten und aktiv daran teilhaben.

Prototypische linguistische Dokumentationsabläufe bestehen aus dem Identifizieren, Selektieren, Sichern, Analysieren und Kategorisieren von Sprachdaten. Je nach Forschungsziel und Datenmaterial werden bestimmte Teilschritte priorisiert. Auch die Formate, in denen Sprachdaten gesammelt und verfügbar gemacht werden, können sehr unterschiedlich aussehen. Drei große Kategorien, die sich u.a. im (digitalen) Angebot des IDS und des DWDS wiederfinden, sind beispielsweise Korpora, Wörterbücher oder Statistiken:

Darüber hinaus gibt es noch andere (Teil-)Formate, die kontinuierlich weiter- oder neu entwickelt werden, etwa Terminologielisten oder lexikalische Datenbanken.

Magdalena Belz, Universität Würzburg

Sprachdaten

Was sind Sprachdaten?

Sprachdaten sind mündliche oder schriftliche, öffentliche oder private, bereits vorhandene oder erst während des Dokumentationsprozesses entstehende sprachliche Äußerungseinheiten. Manchmal liegt der Fokus auf bestimmten sprachlichen Ebenen – beispielsweise Phonetik, Lexik, Syntax, Text oder Diskurs. Es werden Informationen über die Daten (= Metadaten), erhoben und bereitgestellt.

Ein Forschungsdesiderat stellen vor allem spontane, nichtöffentliche Kommunikationssituationen in Bildungswesen, Verwaltung, Wirtschaft oder Alltag dar (vgl. Lobin 2019: 2) – also einige zentrale Arbeitsbereiche der Angewandten Linguistik! Um diese Lücke zu schließen, hat das Institut für Deutsche Sprache (IDS) den Stabsbereich Dokumentationszentrum der deutschen Sprache eingerichtet, der in den kommenden Jahren weiter ausgebaut werden soll.

Magdalena Belz, Universität Würzburg

Glossar/Einige Fachbegriffe

Annotation

Linguistische Annotationen geben Informationen über das erhobene Datenmaterial. Sie reichern die Rohdaten mit zusätzlichen Informationen an und beschreiben sie auf verschiedenen sprachlichen Ebenen (z.B. Phonetik, Syntax, Semantik, Pragmatik, Stil…). Es handelt sich somit um eine eigene Kategorie von Daten, die für Analyseprozesse relevant ist und die typischerweise unterhalb der Textebene anzufinden ist (vgl. Keibel et al. 2012: 45f.).

Beispiele für Annotationen sind etwa Transkriptionen, Übersetzungen oder Notizen (vgl. Good 2022: 33; vgl. Berez-Kroeker et al. 2023: 194).

(vgl. Andresen und Zinsmeister 2019: 11; vgl. Glück und Rödel ⁵2016: 43; vgl. Keibel et al. 2012: 45f.)

Daten

(Roh-, Primär- und Sekundärdaten)

In der Sprachwissenschaft bezieht sich der Begriff auf „sprachliche Äußerungen jeglicher Form als Basis für linguistische Untersuchungen“ (Bußmann ⁴2008: 112).

Daten können u.a. hinsichtlich ihres Bearbeitungsgrades beschrieben werden: Rohdaten wie phonometrische Schallmessungen oder Aufnahmen von Gesprächen sind lediglich aufgezeichnet und daher besonders „hart“, bzw. tendenziell objektiver; Primärdaten sind dekodiert, annotiert oder transkribiert sowie in analysierbare Formate (z.B. Korpora) überführt; Sekundärdaten sind eher „weich“, d.h. durch hermeneutische subjektive Interpretation gewonnen und in einen größeren Forschungsdiskurs eingeordnet.

(vgl. Andresen und Zinsmeister 2019: 10; vgl. Good 2011: 212; vgl. Himmelmann 2012: 199; vgl. Keibel et al. 2012: 54f.; vgl. Scherer ²2014: 3; vgl. Wirrer 2021: 113–115)

Datenerhebung

Glück und Rödel definieren Datenerhebung als „Gewinnung sprachl. bzw. sprachgebundener Daten“, auf denen linguistische Forschungsprozesse (Analyse, Auswertung, Beschreibung) aufbauen. Methoden zur Datenerhebung sind beispielsweise direkter Kontakt mit Informanten, Feldforschung, Testverfahren, Statistiken, evtl. Intuition der Forschenden.

(vgl. Glück und Rödel ⁵2016: 128)

Datenformat

Der Begriff Datenformat lässt sich definieren als „the way that information is encoded in a digital resource“ (Good 2011: 223) und umfasst zwei Dimensionen: einerseits das Datei- bzw. Speicherformat (File Format) und andererseits die Art der Annotation (Markup Format). Ein struktureller Datentyp (z.B. morphologisch analysierte Texte) könnte somit in verschiedene Formate implementiert werden.

(vgl. Good 2011: 223–227)

FAIR-Prinzip

FAIR steht für Findable, Accessible, Interoperable und Re-Usable und beschreibt einen wissenschaftlichen Standard, der bei der Dokumentation von empirischen Daten die Qualität sichern soll. Die Daten und Metadaten müssen also langfristig zur Verfügung stehen, nachnutzbar und auffindbar sein sowie hinsichtlich ihres Inhaltes und Methode reflektiert werden.

Das FAIR-Prinzip ist u.a. in den Leitlinien der Deutschen Forschungsgemeinschaft (2022: 19) und in denen der Universität Würzburg (2022: 12) verankert.

Korpus

(lat. Neutrum, Plural: Korpora)

Ein sprachwissenschaftliches Korpus ist eine Sammlung von sprachlichen (Text-)Daten, die auf Basis linguistischer Kriterien zusammengestellt wird. Meist liegt ein Korpus in digitaler Form vor und besteht aus Primärdaten (= den gesammelten Texten), Metadaten (= Informationen über die gesammelten Texte) und Annotationen (= angereicherte Zusatzinformationen im Text).

Korpora bestehen aus „einer möglichst hohen, notwendigerweise aber immer begrenzten Anzahl möglichst zusammenhängender sprachlicher Äußerungen“ (Glück und Rödel ⁵2016: 375) und sind eine wesentliche Analysegrundlage für sprachwissenschaftliche Forschung.

(vgl. Andresen & Zinsmeister 2019: 15; vgl. Bußmann ⁴2008: 378f.; vgl. Glück und Rödel ²2016: 375; vgl. Scherer ²2014: 3)

Korpuslinguistik

Korpuslinguistik ist ein Teilbereich der Sprachwissenschaft, der sich dem Aufbau von Korpora widmet und somit die Basis für empirische linguistische Forschung erarbeitet.

(vgl. Bußmann ⁴2008: 379; vgl. Glück und Rödel ⁵2016: 375)

Lexikologie

Lexikologie ist ein Teilbereich der Sprachwissenschaft, der sich mit dem Wortschatz auseinandersetzt und der als wissenschaftliche Grundlage für die Lexikografie gelten kann.

(vgl. Bußmann ⁴2008: 405f.; vgl. Schlaefer ²2009: 1)

Lexikografie

Die Lexikografie befasst sich mit der Erstellung von (Sprach-)Wörterbüchern (vgl. Schlaefer ²2009: 71; vgl. Engelbert und Lemnitzer 2009: 268) und „entwickelt […] für die Dokumentation des Wortschatzes einer Sprache, eines Dialekts oder Sachgebiets erforderliche Prinzipien“ (Bußmann ⁴2008: 405). Damit zusammenhängende Praktiken sind u.a. das Konzipieren, Verfassen, Redigieren, Herausgeben und Bearbeiten von Wörterbüchern (vgl. Glück und Rödel ²2016: 398).

Die wissenschaftliche Untersuchung von Wörterbüchern (= Metalexikografie) kann entweder als Teil- oder als eigenständige Disziplin zur Lexikografie gesehen werden (vgl. Herbst und Klotz 2003: 16).

Sprachwissenschaftliche Grundlage für die Lexikografie ist die Lexikologie. Gleichzeitig merkt Bußmann aber auch an, dass „die Verbindung zwischen beiden Bereichen nicht immer sehr eng ist“ (Bußmann ⁴2008: 406), was u.a. daran liegt, dass lexikografische Handlungen auch in anderen Disziplinen wie Informatik oder Pädagogik vorkommen und keine linguistische Theorie in die Praxis überführt wird (vgl. Engelberg und Lemnitzer ⁴2009: 3).

In der Forschung ist der Status der Lexikografie als Wissenschaft oder Praxis somit nicht klar definiert (vgl. Wiegand 2013: 16) und oftmals eine werkbezogene Einzelfallentscheidung (vgl. ebd.; vgl. Schlaefer ²2009: 72; vgl. Harm 2015: 134; vgl. Wiegand 2013: 16).

Metadaten

Metadaten (wörtl.: ‚Daten über Daten‘) transportieren zusätzliche Informationen zum dokumentierten Gegenstand und ordnen ihn in einen größeren Kontext ein. In der Regel liegen Metadaten in Textform vor, sodass sie maschinell verarbeitet und verbreitet werden können (vgl. Austin 2006: 93; vgl. Berez-Kroeker et al. 2023: 197; vgl. Good 2022: 41; vgl. Glück und Rödel ⁵2016: 427f.).

Es gibt verschiedene Arten von Metadaten: Keibel et al. (2012: 57f.) differenzieren bibliographische Daten, Metadaten auf Textebene (Benennung der dokumentierten Sprache(n), Entstehungszeitraum, Thema, Referenzen auf andere Texte, quantitative Angaben) und Metadaten unterhalb der Textebene (Textstruktur, Eigennamen, Annotationen, linguistische Ebenen…). Austin (2006: 93) führt als Unterscheidungskriterium auch Funktionen auf, zu denen sich Metadaten bündeln lassen (Cataloguing, Descriptive, Structural, Technical, Administrative (vgl. Austin 2006: 93).

Metadaten können dazu beitragen, die W-Fragen zu einem Korpus bzw. zu den dokumentierten Daten zu beantworten. Welche Metadaten darüber hinaus notwendig und welche fakultativ sind, hängt vom individuellen Forschungsvorhaben ab.

(vgl. Andresen und Zinsmeister 2019: 13; vgl. Austin 2006: 93; vgl. Berez-Kroeker et al. 2023: 197 vgl. Good 2011: 229; vgl. Good 2022: 41; vgl. Glück und Rödel ⁵2016: 427f.; vgl. Mattern 2022: 67)

Statistiken

Statistiken, die sprachliche Daten visuell aufbereiten und somit auf ein neues Abstraktionsniveau heben, (vgl. Bubenhofer 2020: 133), finden sich beispielsweise im Angebot des DWDS in Form von animierten Kollokationsanalysen und auch das IDS bietet online verfügbare Informationssysteme (z.B. Sprachatlanten, grammis) an.

Technische Dokumentation

Hierbei handelt es sich um das Erstellen von Entwicklungsunterlagen technischer Produkte sowie das Verfassen von Texten zu ihrer Vermarktung und Nutzung. Grundlage bildet eine Dokumentation von textlinguistischen und pragmatischen Faktoren wie Textfunktion oder Sprachhandlungen; eine herausgehobene Rolle spielt die Terminologiearbeit auf der sprachlichen Ebene der Lexik.

(vgl. Göpferich 2004: 143f.; vgl. Arntz et al. ⁷2014: 12)

Terminologiearbeit

Terminologiearbeit ist eine Praktik zur Sammlung und Aufbereitung von Termini (= Fachbegriffe) innerhalb eines bestimmten Fachbereichs. Produkte der Terminologiearbeit können etwa Terminologiedatenbanken, fachspezifische Wörterbücher o.Ä. umfassen.

Einen inhaltlichen Einstieg in die Thematik bietet etwa Kapitel 7 aus der Monografie von Arntz et al. (⁷2014).

(vgl. Arntz et al. ⁷2014; vgl. Glück und Rödel ⁵2016: 706)

Transkription

Sprachdaten, die nicht im Medium der Schrift vorhanden sind, müssen für die Analyse verschriftlicht werden. Diesen Vorgang bezeichnet man als Transkription.

Transkriptionen können als ein Typ von Annotationen gesehen werden und sind v.a. bei der Analyse von Gesprächen oder multimodalen Daten relevant.

(vgl. Bubenhofer 2018: 54; vgl. Meer und Pick 2019: 16)

Wörterbuch

Wörterbücher sind ein Produkt der Lexikographie (vgl. Engelberg und Lemnitzer ²2009: 6) und damit das Ergebnis eines linguistischen Dokumentationsprozesses. Darin wird ein „best. Zustand einer Sprache lexikografisch erfasst“ (Glück und Rödel ⁵2016: 771; vgl. auch Engelberg und Lemnitzer ⁴2009: 6).

Als präskriptive oder normative Nachschlagewerke orientieren sich Wörterbücher i.d.R. an einem bestimmten Nutzungszweck. Dieser kann sehr unterschiedlicher Natur sein und als Grundlage für eine Kategorisierung der Wörterbuchlandschaft dienen. Eine andere Perspektive, um Wörterbücher zu klassifizieren, ist ihr inhaltlich-struktureller Aufbau (vgl. Engelberg und Lemnitzer ⁴2009: 20f.)

Einzelne Wörterbuchartikel bestehen i.d.R. aus der Nennung eines Lemmas (Stichwort, d.h. sprachliche Einheiten wie Wörter oder Phrasen) und einem Explikationsteil (Beschreibung des Lemmas, z.B. Bedeutungsangabe, Beispiel, Wortklassenangabe). Daher muss ein Wörterbuch – anders als der Begriff vermuten lässt – nicht unbedingt nur Wörter auflisten! (vgl. Herbst und Klotz 2003: 32).

Magdalena Belz, Universität Würzburg

Alle zitierten Sekundärwerke sind im Literaturverzeichnis dieser Seite aufgelistet.

Angewandt Linguistisches Dokumentieren und Citizen Science

Citizen Science ist ein eigenständiger Forschungsansatz, der über die reine Wissenschaftskommunikation hinausgeht (vgl. Bonn et al. 2016: 4) und der an Universitäten oder wissenschaftlichen Institutionen verankert ist (bspw. eine Stabsstelle für Bürgerwissenschaften an der Universität Düsseldorf oder eine Forschungsgemeinschaft der Helmholtz-Institute) (vgl. ebd., 17). Er

beschreibt die aktive Beteiligung von Personen an wissenschaftlichen Prozessen, die nicht in diesem Wissenschaftsbereich institutionell gebunden sind (ebd., 12).

Kennzeichnend für Citizen Science Projekte ist vor allem ihre Alltagsnähe (vgl. Eichinger 2021: 178). Eine solche realweltliche, lösungs- und zielorientierte Perspektive, die über die Grenzen der eigenen Disziplin hinausgeht, lässt sich auch in Forschungsdefinitionen zu Angewandter Linguistik wiederfinden. (Sprachwissenschaftliche) Dokumentationsprozesse eignen sich sowohl aus Sicht der Forschung als auch aus Sicht der Bürgerschaft für eine Kollaboration zwischen Linguistik und Laien:

Die Perspektive der Sprachwissenschaft

Für die Linguistik ergibt sich das Potenzial, mithilfe von freiwilligen Teilnehmenden Daten zu erheben, die etwa besonders große Mengen darstellen, schwer zugänglich oder unterforscht sind. Quantitativ ausgerichtete linguistische Forschungen können Citizen Scientists vor allem an Linguistic Landscaping Projekten bereichern. In diesem Bereich ergibt sich die Herausforderung, enorm viele sprachlichen Zeichen zu erfassen. Je mehr Personen an der Datenerhebung mitwirken, desto vollständiger wird also auch das Bild einer Linguistic Landscape. Dies gelingt beispielsweise mithilfe von digitalen Tools wie der an der Hochschule Ludwigsburg entwickelten App Lingscape.

Die Partizipation von Bürgerinnen und Bürgern an linguistischen Dokumentationsprozessen kann auch die Erhebung von schwer erfassbaren Daten unterstützen. Hierbei handelt es sich vor allem um private, informelle Alltagsgespräche (vgl. Eichinger 2021: 182), zu denen auch Chat-Aufzeichnungen gehören. Citizen Science Projekte können die Sichtbarkeit dieser Forschungslücken erhöhen und Mitglieder einer Sprachgemeinschaft dazu motivieren, sich an ihrer Verringerung zu beteiligen. So sammelt beispielsweise das Dokumentationszentrum für deutsche Sprache am IDS sogenannte „Sprachspenden“ – also für Forschungszwecke freiwillig bereitgestellte sprachliche Äußerungen. Diese werden gegenwärtig im Rahmen von Social Media Kampagnen oder zukünftig in der Dauerausstellung des Forum Deutsche Sprache gesammelt. Bereits existierende Korpora wie etwa die Mobile Communication Database 2 (MoCoDa2), die zur Erforschung von WhatsApp-Chats dient, zeigen, dass dieser Ansatz funktionieren kann und bieten gleichzeitig Orientierung, wie mit Fragen des Datenschutzes umgegangen werden kann bzw. soll.

Die Perspektive der Bevölkerung

Die Bevölkerung profitiert von der Beteiligung, indem sie Einblicke in den Forschungsprozess erhält, ein besseres Verständnis für alltägliche sprachbezogene Phänomene entwickelt und Freude bzw. Interesse an wissenschaftlichen Prozessen gewinnt.

Teilhabe an Forschungsprozessen kann außerdem positive soziale Effekte hervorrufen und etwa Selbstwirksamkeit und gesellschaftliches Engagement oder das Vertrauen in die Wissenschaft stärken (vgl. Bonn et al. 2016: 52).

Voraussetzungen für Bürgerbeteiligung in angewandt linguistischen Dokumentationsprozessen

In welchem Rahmen Bürgerbeteiligung sinnvoll und möglich ist, hängt von Voraussetzungen und Zielen des Forschungsvorhabens ab und sollte kritisch reflektiert werden. Es besteht etwa die Gefahr, dass verzerrte Daten erhoben werden – weil möglicherweise nur bestimmte Personengruppen mitwirken oder der Fokus bei der Dokumentation zu stark auf Besonderheiten liegt (vgl. Eichinger 2021: 183).

Durch die vielseitige Vernetzung – zwischen verschiedenen wissenschaftlichen Disziplinen einerseits sowie zwischen Wissenschaft und Gesellschaft andererseits – ist außerdem ein breites Spektrum an Kollaborationsformaten erforderlich, um Daten gemeinsam sammeln, strukturieren und nachvollziehen zu können. Ermöglicht wird diese Interaktion beispielsweise durch digitale Medien (vgl. Eichinger 2021: 194), die Nutzung von Apps, virtuelle und analoge Selbstlernkurse, universitäre und bürgerwissenschaftliche Seminare, Workshops, gemeinsam bearbeitbare Datenbanken (vgl. Lasch 2023: 236) oder Gamification (vgl. Eichinger 2021: 193). Welches Vermittlungsformat in einer konkreten Situation jeweils geeignet sein könnte, ist kontextabhängig zu entscheiden.

Magdalena Belz, Universität Würzburg

Alle zitierten Sekundärwerke sind im Literaturverzeichnis dieser Seite aufgelistet.

Dokumentieren in der Praxis

Wir haben einige angewandt-linguistische Projekte zusammengetragen, in denen die Tätigkeit Dokumentieren ausgeübt wird.

Sie finden sie hier: #Dokumentieren.

Video zur Terminologie "Krapfen"

Alicia Hückmann