Ein Internetfragebogen zur Verifizierung von Lexikoneinträgen

Gregor Retti (Innsbruck)



1 Problemstellung

Einsprachige Wörterbücher der deutschen Gegenwartssprache zeigen deutliche Schwächen hinsichtlich der Art und Weise, wie in ihnen die diasystematischen Eigenschaften des Wortschatzes dargestellt werden. Die gängigen Markierungen und Markierungssysteme und deren Anwendung sind vielfach kritisiert worden (cf. Bergenholtz 1991, Käge 1982, Ludwig 1986 und 1991, Niebaum 1984, Püschel 1988 und 1990), gleichwohl scheint diese Kritik auf die lexikographische Alltagspraxis nur geringen Einfluß zu haben. Unbeschadet der aufgezeigten Mängel stellen Wörterbücher als Teil des Sprachkodex nach Ulrich Ammon (1995: 73ff.) eine der normsetzenden Instanzen einer Standardvarietät dar. Dies macht sich selbstredend bei der Untersuchung des Wortschatzes einer solchen Standardvarietät - im vorliegenden Fall der des österreichischen Deutsch - bemerkbar. In Retti (1999) konnte in unterschiedlicher Weise nachgewiesen werden, daß der Verläßlichkeit von Wörterbüchern nicht nur Grenzen gesetzt sind, sondern daß die Abweichungen der Wörterbücher gegeneinander hinsichtlich der vergebebenen Markierungen in manchen Fällen gravierend sind - jedenfalls zu gravierend, um sie etwa in konsistenter Weise mit einer spezifischen Methode der Wörterbucherstellung bzw. der zugrundliegenden Datenbasis - etwa einer Belegkartei (cf. Ebner 1995) - in Einklang bringen zu können.

Unter den dargelegten Voraussetzungen bietet sich das Instrument der Informantenbefragung als Instanz zur Verifizierungen und Korrektur dessen, was in Wörterbüchern zu finden ist, an, stellt es doch einen Rückgriff auf die Sprachkompetenz der Sprachteilnehmer an sich dar und ermöglicht so, Quellenmaterial von den Trägern der Sprachgemeinschaft den mehrfach vermittelten Informationen der Wörterbücher gegenüberzustellen. Bekanntlich ist aber gerade dieses Instrument in der Praxis mit einem beträchtlichen Zeit- und Arbeitsaufwand verbunden, sodaß die Menge des zu untersuchenden Materials oft klein gehalten, die Repräsentativität durch eine geringe Zahl an Gewährspersonen eingeschränkt und das Einzugsgebiet auf das jeweils lokale beschränkt wird. Der Einsatz moderner Informationstechnologie jedoch erlaubt es, eine große Menge von Daten einer großen Zahl von Informanten überregional vorzulegen - zumindest war dies der Grundgedanke, welcher zur Erstellung eines Internetfragebogens zur deutschen Sprache in Österreich führte.


 

2 Datenbank und Materialbasis

Im Rahmen der Arbeit an Retti (1999) wurde eine relationale Datenbank erstellt, in welcher zum überwiegenden Teil Wörterbucheinträge erfaßt wurden (cf. Retti 1999: 278ff. u. 371ff.). Bei der Erstellung der Datenbank wurde versucht, die Phänomene Synonymie, Polysemie und Homonymie durch eine geeignete Modellierung derart zu integrieren, daß die erfaßten Daten nicht nur über die ausdrucksseitige Komponente des sprachlichen Zeichens zugänglich sind, wie dies bei einer traditionellen alphabetischen Lemmatisierung der Fall ist, sondern auch über die Inhaltskomponente. In Anlehnung an die gängige sprachwissenschaftliche Terminologie wurde der ausdruckseitigen Teil als "Monem", der inhaltsseitige als "Semem" bezeichnet, beide zusammen bilden ein "Lexem". Quellen und Belegstellen dazu und insbesondere auch die im Belegmaterial begegnenden Markierungen wurden an dieses Grundmodell angeschlossen. Schließlich wurde die Struktur zur Erfassung der Umfragedaten erweitert, wobei Angaben der Informanten zur eigenen Person und zu den Lexemen erfaßt wurden. Die Struktur der Datenbank stellt sich als Entity Relationship Modell folgendermaßen dar:

Entity Relationship Modell

Entity Relationship Modell der Datenbank (Retti 1999: 371)

Der Datenbestand beläuft sich auf über 11.000 Monem und 8.500 Semem, die etwa 12.500 Lexeme ergeben. Mehr als 51.000 Belegstellen aus 238 Quellen wurden erfaßt. Das Material wurde hauptsächlich aus Wörterbüchern zusammengestellt, wobei in erster Linie Arealmarkierungen bzw. auffallende Abweichungen bei solchen Markierungen als Selektionskriterium herangezogen wurde. Daneben wurde auch das Vorkommen bzw. Fehlen von Einträgen im Wörterbuchvergleich als Indikator möglicher Varianten des österreichischen Deutsch berücksichtigt. Die Auswahl war damit breit angelegt, um im Vorfeld der Umfrage eine möglichst große Zahl von Lemmata zuzulassen.


 

3 Konzeption des Fragebogens

Natürlich wäre es ein Unding, einer Gewährsperson 12.500 Wörter in welcher Art auch immer zuzumuten. Die Anzahl der Wörter wurde also auf eine wählbare Größe zwischen 40 und 100 eingeschränkt. Zu jedem dieser Wörter werden folgende Fragen gestellt: nach Bekanntheit, nach schriftlichem Gebrauch, nach mündlichem Gebrauch, nach Einschränkungen hinsichtlich des Gebrauchs und nach etwaigen Anmerkungen, dies selbstredend nicht ohne in einem kurzen Einleitungstext die Fragen zu erläutern. Die ersten drei Fragen werden durch Anklicken beantwortet - "Ja" oder "Nein", bei den letzten zwei ist frei formulierter Text möglich:

Fragebogen Beispiel

Ausschnitt aus dem Fragebogen: Fragen zu einem Lexem

Die Art der Fragestellung fordert von der Gewährsperson eine metasprachliche Reflektion des eigenen Sprachgebrauchs und der eigenen Sprachkompetenz. Eine solche Reflektion entspricht durchaus alltäglichen Situation und ist ihrem Ergebnis nach nicht per se weniger gültig als die Beobachtung nicht-metasprachlich reflektierten Sprachgebrauchs. In einfachen Äußerungen der Art 'Diese Wort habe ich schon oft / schon einmal / irgendwo / noch nie gehört' spiegelt sich eben die Frage nach der Bekanntheit wider. Ebenso lassen sich für die restlichen Fragestellung ohne Schwierigkeiten alltägliche Paraphrasierungen finden. Trotzdem halten die beiden Fragen nach dem Gebrauch, die sich nach dem Verwendungsmedium richten, einer strengen linguistischen Prüfung nicht stand, insofern es ihre Aufgabe wäre, den Grad der Standardsprachlichkeit des gefragten Worts zu ermitteln. Mündliche wie schriftliche Kommunikationssituationen finden sich allemal entlang einer Achse von 'informell' bis 'formell'. Andererseits hätte ein feiner Raster, der diesem Umstand gerecht zu werden versucht, den Fragebogen beträchtlich verlängert, das Ausfüllen schwieriger gemacht und damit nicht zuletzt die Bereitschaft der Gewährspersonen zur Mitarbeit gedämpft. Die simplifizierende Dichotomie 'schriftlich / mündlich' unterstellt dagegen eine Trennung von Medien und Sprachgebrauch, in der Schriftlichkeit für 'formell', 'überregional', 'standardsprachlich' steht und Mündlichkeit für 'informell', 'regional' und Non-Standard. Der Einleitungstext zum Fragebogen versucht zumindest, die Antworten entsprechend zu lenken.

Jede Gewährsperson wird auf der Einstiegsseite zum Fragebogen (cf. href="http://germanistik.uibk.ac.at/germ/OeWB/west/">http://germanistik.uibk.ac.at/germ/OeWB/west/) aufgefordert, Angaben zu ihrer Herkunft, möglichen sprachlichen Einflüssen, ihrem Geschlecht, ihrem Alter und ihrem Bildungsgrad zu machen. Diese Angaben ergeben - berücksichtigt man lediglich jene Parameter mit Vorgabewerten, also solche mit Auswahllisten oder Feldern zum Ankreuzen - 696 mögliche, unterschiedliche Fälle. Eine homogene Verteilung der Gewährspersonen über diese Parameter wäre zwar wünschenswert, war aber nicht zu erwarten. Diese Erwartung hat sich bestätigt. Das Medium Internet bietet noch zu wenig Möglichkeiten, gezielt auf die Zusammensetzung von Gewährspersonen bei einer Umfrage wie dieser Einfluß zu nehmen. Die Frage, wieviele Gewährspersonen mit übereinstimmenden Angaben hinsichtlich des einen oder anderen Parameter nötig sind, um die Angaben für repräsentativ zu halten, interessiert allerdings mehr. Die Methoden der Dialektologie scheinen hier einen brauchbaren Ansatz zu liefern:

Wenn nur der geographische Parameter variiert wird und alle anderen bei nur geringem Spielraum konstant gehalten werden, genügen in der Regel die Angaben einer einzigen Person pro Ort; weichen die Auskünfte eines Informanten auf der Sprachkarte dann auffällig von der Umgebung ab, so ist dies ein Indiz, daß sie überprüft werden müssen; gliedern sie sich dagegen geographisch ein, so geht daraus ihre Zuverlässigkeit hervor (cf. Goossens 1977: 66).

Auf die Angaben aus dem Fragebogen angewandt würde das bedeuten: Je homogener die Angaben der Gewährspersonen (unter einem Parameter) zu einem bestimmten Wort sind, desto geringer kann ihre Zahl sein, je heterogener diese sind, umso mehr Gewährspersonen sind erforderlich, um ein repräsentatives Bild gewinnen zu können.


 

4 Realisierung

Ende 1997 wurde die erste Testversion des Fragebogens erstellt. Den Hauptteil bildet dabei ein CGI-Programm, daß in einen herkömmlichen WWW-Server eingebunden ist. Dieses Programm, welches in Perl (cf. http://www.perl.org/) geschrieben wurde, greift auf eine strukturierte Datei zu, die als Export aus der oben beschriebenen Datenbank erstellt wird und alle Lexeme, die Basis der Befragung sind, enthält. Die Ausgabe des Fragebogens erfolgt als HTML-Formular, das zwischen 40 und 100 Einträge enthält, die mittels einer Zufallszahl gewählt wurden. Homonyme werden dabei untereinander gelistet - Synonyme bleiben leider unberücksichtigt. Nach dem Ausfüllen wird das Ergebnis in einer anderen Datei gespeichert, welche ihrerseits wieder in die Datenbank importiert wird. Zusätzlich vergibt das Programm eine eindeutige Kennummer pro Gewährsperson, die es dieser erlaubt, zu einem späteren Zeitpunkt einen weiteren Fragebogen abzurufen, ohne erneut Angaben zur Person machen zu müssen. In diesem Zusammenhang ist auch sichergestellt, daß nicht wiederholt die gleichen Wörter im Fragebogen erscheinen.

Im März 1998 wurde der Fragebogen unter der Internetadresse http://germanistik.uibk.ac.at/germ/OeWB/west/ auf dem WWW-Server des Instituts für Germanistik der Universität Innsbruck installiert (cf. http://germanistik.uibk.ac.at/ mit ca. 150.000 Zugriffen pro Monat; Cölfen/Cölfen 1997: 156f.). Gleichzeitig wurde die Öffentlichkeit durch eine entsprechende Presseaussendung an die österreichischen Medien, welche ein positives Echo fand, informiert. Der Fragebogen findet sich zudem im thematisch passenden Umfeld einer bereits seit 1995 im Internet verfügbaren Datensammlung zum österreichischen Deutsch (cf. http://germanistik.uibk.ac.at/germ/OeWB/; Cölfen/Cölfen 1997: 72). Zusätzlich wurde und wird der Fragebogen über das "Austrian EMail Directory", ein EMail-Adressenverzeichnis, (cf. http://germ2.uibk.ac.at/email/), beworben, das ebenfalls seit 1995 im Internet als kostenloses Service zur Verfügung steht und sich großer Beliebtheit im deutschsprachigen Raum erfreut. Letzterem Umstand ist wohl auch die hohe Zahl der Gewährspersonen - auch solcher aus dem außeruniversitären Bereich - zu verdanken.

Einen Überblick über die aktuellen Zahlen von beteiligten Gewährspersonen, ihrer Verteilung nach Geschlecht, Alter, Bildungsgrad, Herkunft usw. findet sich unter der Internetadresse http://germanistik.uibk.ac.at/germ/OeWB/west/stat.html. Die Beteiligung von Gewährspersonen aus Österreich überwiegt bei weitem jene der Gewährspersonen aus dem übrigen deutschsprachigen Raum:

Verteilung der GewShrspersonen

Verteilung der Gewährspersonen nach Nation (Stand September 1999)

Damit sind der Aussagekraft des Materials wegen der fehlenden Fremdeinschätzung hinsichtlich der Bestimmung nationaler Varianten Grenzen gesetzt (cf. Retti 1999: 288ff.).


 

5 Auswertungen

Mögliche Auswertungen der gewonnenen Daten wurden bereits in Retti (1999: 301ff.) demonstriert; so etwa die Angaben zu den 23 "spezifisch österreichischen Asudrücken" des Protokolls Nr. 10, eines Teils des Beitrittsvertrags zwischen Österreichs und der Europäischen Union (cf. de Cillia 1995; Retti 1999: 304ff.). Der folgende Graph zeigt drei Wortpaare aus dem Protokoll Nr. 10, wobei der erste Begriff der österreichische und der zweite der deutsche sein sollen: Erdapfel - Kartoffel, Topfen - Quark und Vogerlsalat - Feldsalat. Dabei wird der Durchschnittswert aller verfügbaren Angaben zur Bekanntheit und dem schriftlichen wie mündlichen Gebrauch unter den entsprechenden Parametern als Zahl zwischen 0 (= "Nein") und 1 (= "Ja") angegeben.

Beispielauswertung

Drei Wortpaare aus dem Protokoll Nr. 10

Gut ist zu erkennen, daß die Wörter der drei Wortpaare keineswegs immer im gleichem Verhältnis zueinander stehen. Erdapfel ist sowohl in Österreich wie in Deutschland allgemein bekannt, hat aber in Österreich deutlich höhere Gebrauchswerte im Schriftlichen wie im Mündlichen. Bei Kartoffel sind die nationalen Unterschiede recht gering, lediglich die mündlichen Verwendung in Österreich scheint etwas schwächer zu sein. Topfen und Quark zeigen bei Bekanntheit und Gebrauch eine klare Verteilung, die beide als nationale Varianten ausweist. Interessant ist aber, daß die jeweilige Fremdvariante durchaus unterschiedlich beurteilt wird. Während Topfen in Deutschland nicht durchgehend bekannt ist, zeigt es trotzdem recht ansehnliche Gebrauchswerte. Quark dagegen ist fast allen österreichischen Gewährspersonen bekannt, wird aber nur marginal verwendet. Vogerlsalat und Feldsalat zeigen ebenfalls Merkmale nationaler Varianten. Der Blickwinkel der Fremdvariante verstärkt diesen Eindruck - allerdings zeigen die Befragungsergebnisse, daß im Unterschied zum Wortpaar Topfen - Quark die Fremdvariante Vogerlsalat in Deutschland weitgehend unbekannt ist und die Fremdvariante Feldsalat in Österreich auch nur deutlich weniger bekannt ist als Quark.

Betrachtet man allerdings die regionale Ebene innerhalb Österreichs, so ergeben sich zum Teil andere Bilder. Die Daten zu Erdapfel und Kartoffel bezogen auf die Herkunft der Gewährspersonen aus österreichischen Bundesländer ergeben folgende beiden Graphen:

Erdapfel

Erdapfel in den österreichischen Bundesländern

Kartoffel

Kartoffel in den österreichischen Bundesländern

Die beiden Darstellung lassen erkennen, daß Erdapfel nicht nur in Tirol und besonders in Vorarlberg keine oder nur wenig schriftsprachliche Verwendung findet und somit dort wohl nicht als standardsprachliche akzeptiert wird, sondern daß das Wort auch in Wien - verglichen mit den umliegenden Bundesländern - eine eher niedrige schriftliche Verwendung aufweist. Kartoffel überwiegt im Gebrauch eher hinsichtlich der schriftlichen Verwendung gegenüber der mündlichen. Besonders in Vorarlberg dominiert es. Die Werte aus Wien lassen dagegen darauf schließen, daß keines der beiden Wörter dort klar bevorzugt wird. Glaubt man den Wörterbüchern (cf. Ebner 1998), so wird Kartoffel "österr. (und bayr.) ugs. [...] oft männlich gebraucht". Die Umfragedaten allerdings bestätigen diese Behauptung eher nicht:

der Kartoffel

der Kartoffel in den österreichischen Bundesländern

Der Kartoffel scheint nicht sehr bekannt zu sein - außer in Tirol und Oberösterreich - und erreicht auch nur in diesen beiden Bundsländer mündlich Gebrauchswerte, die relevant sein könnten.

Ähnlich wie in den gezeigten Beispielen lassen sich für jedes einzelne Lexem der Befragung die Angaben der Gewährspersonen unter bestimmten Parametern zusammenfassen und darstellen. Vor allem der Vergleich mit Wörterbucheinträgen ist hiebei von Interesse. In Retti (1999: 251ff.) wurden die österreichischen Varianten aus vier in Deutschland erschienenen Wörterbüchern miteinander verglichen und untersucht. Der Liste jener 187 Lemmata, die in diesen vier Wörterbüchern als standardsprachlich österreichisch ausgewiesen werden (cf. Retti 1999: 258ff.), sollen die Angaben der österreichischen Gewährspersonen gegenübergestellt werden. Der folgende Graph zeigt die Bekanntheitswerte für diese 187 Lemmata:

Bekanntheit

Bekanntheit bei österreichischen Gewährspersonen

Deutlich ist zu erkennen, daß einige der Lemmata wenig bis kaum bekannt zu sein scheinen (tatsächlich liegen 20 unter 0,5). Fügt man die Werte für die schriftliche Verwendung hinzu, die ja den Wörterbuchquellen nach hoch sein müßten, da es sich angeblich um standardsprachliche Varianten handelt, ergibt sich folgendes Bild:

Bekanntheit, schrifliche Verwendung

Bekanntheit und schriftliche Verwendung bei österreichischen Gewährspersonen

Auch hier liegen die Umfragewerte unter dem, was die Wörterbücher versprechen - 68 Lemmate bleiben unter 0,5. Mit anderen Worten: ein Drittel der 187 Lemmata werden von der Hälfte der österreichischen Gewährspersonen für den schriftlichen Gebrauch abgelehnt. Schließlich seien noch die Angaben zur mündlichen Verwendung dargestellt:

Bekanntheit, mündliche Verwendung

Bekanntheit und mündliche Verwendung bei österreichischen Gewährspersonen

Die Werte liegen überwiegend höher als die des schriftlichen Gebrauchs, doch auch hier bleiben 46 Lemmata unter 0,5. Natürlich müßte geklärt werden, welche Schwellwerte anzusetzen sind, um eine standardsprachliche Variante des österreichischen Deutsch zu konstituieren. Trotzdem kann schon jetzt gesagt werden, daß es sich bei einem nicht unbeträchtlichen Anteil der hier untersuchten 187 Lemmata mit hoher Wahrscheinlichkeit nicht um standardsprachliche Varianten des österreichischen Deutsch handelt.

Literatur

Ammon, Ulrich (1995): Die deutsche Sprache in Deutschland, Österreich und der Schweiz. Das Problem der nationalen Varietäten. Berlin / New York.

Bergenholtz, Henning: "Rechtschreibwörterbuch, bleib bei deinen Leisten!" In: Augst, Gerhard / Schaeder, Burkhard (eds.) (1991): Wörterbücher in der Diskussion. Geschichte - Analyse - Perspektiven. Frankfurt am Main etc. (= Theorie und Vermittlung der Sprache, Bd. 13): 403-417.

Cölfen, Elisabeth / Cölfen, Hermann (1997): Linguistik im Internet. Das Buch zum Netz - mit CD-ROM. Opladen.

de Cillia, Rudolf (1995): "Erdäpfelsalat bleibt Erdäpfelsalat. Österreichisches Deutsch und EU-Beitritt". In: Muhr, Rudolf / Schrodt, Richard / Wiesinger, Peter (eds.): Österreichisches Deutsch. Linguistische, sozialpsychologische und sprachpolitische Aspekte einer nationalen Variante des Deutschen. Wien. (= Materialien und Handbücher zum österreichischen Deutsch und zu Deutsch als Fremdsprache 2): 121-131.

Ebner, Jakob (1995): "Vom Beleg zum Wörterbuchartikel - Lexikographische Probleme zum österreichischen Deutsch." In: Muhr, Rudolf / Schrodt, Richard / Wiesinger, Peter (eds.): Österreichisches Deutsch. Linguistische, sozialpsychologische und sprachpolitische Aspekte einer nationalen Variante des Deutschen. Wien. (= Materialien und Handbücher zum österreichischen Deutsch und zu Deutsch als Fremdsprache, Bd. 2): 178-196.

Ebner, Jakob (1998): Wie sagt man in Österreich? Wörterbuch des österreichischen Deutsch. Mannheim Leipzig Wien etc. (= DUDEN-Taschenbücher 8).

Goossens, Jan (1977): Deutsche Dialektologie. Berlin / New York. (= Sammlung Göschen 2205).

Käge, Otmar (1982): "Noch 'ugs.' oder doch schon 'derb'? Bemerkungen und Vorschläge zur Praxis der stilistischen Markierungen in deutschen einsprachigen Wörterbüchern." Germanistische Linguistik 3 - 6 / 80. Studien zur neuhochdeutschen Lexikographie II: 109-120.

Ludwig, Klaus-Dieter (1986): "Zu stilistischen Bewertungen in einsprachigen Wörterbüchern der deutschen Gegenwartssprache." Beiträge zur Erforschung der deutschen Sprache 6: 250-262.

Ludwig, Klaus-Dieter (1991): Markierungen im allgemeinen einsprachigen Wörterbuch des Deutschen. Ein Beitrag zur Metalexikographie. Tübingen. (= Lexicographica. Series Maior 38).

Niebaum, Hermann (1984): "Die lexikographische Behandlung des landschaftsgebundenen Wortschatzes in den Wörterbüchern der deutschen Gegenwartssprache." Germanistische Linguistik 1 - 3 / 83. Studien zur neuhochdeutschen Lexikographie IV: 309-360.

Püschel, Ulrich (1988): "Zu Status und Funktion arealer Kennzeichnungen in allgemeinen einsprachigen Wörterbüchern." In: Munske, Horst Haider / Polenz, Peter von / Reichmann, Oskar et. al. (eds.): Deutscher Wortschatz. Lexikologische Studien. Ludwig Erich Schmitt zum 80. Geburtstag von seinen Marburger Schülern. Berlin New York: 490-510.

Püschel, Ulrich (1990): "Wortstilistik im Wörterbuch. Zu "Stilfärbungen" und "Gebrauchsangaben"." Zeitschrift für germanistische Linguistik. 18 3: 273-287.

Retti, Gregor (1999): Austriazismen in Wörterbüchern. Zum Binnen- und Außenkodex des österreichischen Deutsch. Innsbruck.


Auch unter: http://germanistik.uibk.ac.at/germ/docs/retti1999/