Im zweiten Teil des Statistikblogs richtet sich der Fokus auf die Reliabilität bzw. auf die Methode der internen Konsistenz, da sie für die Bestimmung der Reliabilität häufig verwendet wird.
(Teil 1: zentrale statistische Kennwerte)
Jede empirische Messung kann mit zufälligen und systematischen Messfehlern verbunden sein. Systematisch verzerrte Messungen treten z.B. dann auf, wenn die Befragten nicht ihre tatsächliche Meinung, sondern eine „sozial erwünschte“ Antwort abgeben. Zufällige Messfehler haben dagegen zur Folge, dass dieselbe Messung bei der gleichen Untersuchungseinheit mal zu einem höheren und mal zu einem niedrigeren Wert führt, obwohl sich der tatsächliche Wert der gemessenen Eigenschaft nicht verändert hat.
So soll ein Intelligenztest möglichst fehlerfrei die Intelligenz messen und sonst nichts anderes. Dabei kann die Reliabilität, wie durch diesen Blog verdeutlicht, mit verschiedenen Methoden erfasst werden.
Die Reliabilität bezeichnet die Messgenauigkeit einer Erfassung, in unserem Fall der Umfrage zum FernUniCamp. Mit anderen Worten ermöglicht uns die Reliabiltät Einblicke in die Zuverlässigkeit unserer Messergebnisse, die wir mit bestimmten Methoden erhoben haben.
Nachfolgend werden mit der internen Konsistenz, der Retest– und der Paralleltestmethode drei Methoden vorgestellt, mit denen die Reliabilität geschätzt werden kann. Diese Methoden sind für die Schätzung der Reliabilität als gleichwertig anzusehen. Je nach Fragestellung ergeben sich für die jeweiligen Methoden verschiedene Vor- und Nachteile (siehe Abbildung 1, Hinweis: Die Abbildung wird vergrößert dargestellt, wenn sie angeklickt wird).
Interne Konsistenz
Bei dieser Methode muss ein bestimmtes Erhebungsverfahren einer Stichprobe nur einmalig durchgeführt werden. Für die Reliabilitätsprüfung wird ein Indikator in so viele Items zerlegt, wie er Fragen oder Aufgaben besitzt. In der nachfolgenden Abbildung 2 ist exemplarisch eine Herleitung vom theoretischen Begriff „Qualität“ über eine mögliche Dimension von Qualität, „Motivation“ und über einen möglichen Indikator „Relevanz“, die möglichen Items zu Relevanz dargestellt.
Ein Messinstrument, das aus mehreren „Indikatoren“ besteht, kann als eine Menge paralleler Messungen interpretiert werden, wenn diese „Indikatoren“ alle die gleiche „Dimension“ des zu messenden theoretischen Konstrukts erfassen. Diese Eigenschaft bezeichnet man als interne Konsistenz. Sie ist durch geeignete statistische Verfahren zu prüfen (z.B. durch Korrelation der Indikatoren untereinander). Können die Indikatoren in diesem Sinne als parallele Messungen aufgefaßt werden, so kann die Reliabilität des Messinstrumentes mit Hilfe eines Maßes der internen Konsistenz geschätzt werden (z.B. durch Cronbachs ).
So kann ermittelt werden, wie gut einzelne Items mit dem theoretischen Begriff übereinstimmen. Bei der Internen Konsistenz wird der Konsistenzkoeffizient häufig mit Cronbachs alpha berechnet. Der Koeffizient nimmt Werte zwischen 0 (keine Übereinstimmung) und 1 (sehr gute Übereinstimmung) ein. Je nach Fragestellung und Zweck der Testung ergeben sich unterschiedliche Beurteilungsrichtlinien für den Koeffizienten. In der Literatur wird allerdings häufig berichtet, dass ein guter Test mindestens ein Wert von 0,80 aufweisen soll (Bühner, 2006).
Beispielhaft wird die Reliabilität bzw. die interne Konsistenz durch das typische SPSS-Ausgabefenster näher erläutert (siehe Abbildung 3). Da die statistische Auswertung des FernUniCamps noch andauert, handelt es sich bei der dargestellten Abbildung um ein fiktives Ergebnis. Die Dimension „Einheit vs. Vielfalt“ wurde aber tatsächlich im Rahmen des FernUniCamps der FernUni untersucht. Für das Beispiel der Dimension beträgt Cronbachs Alpha 0,87, dieser Wert spricht für eine gute Reliabilität.
In Abbildung 3 richten wir unser Interesse auf die Spalte „Cronbachs Alpha, wenn Item weggelassen„. In dieser Spalte wird Cronbachs Alpha unter Ausschluss bestimmter Fragen berechnet. Würde beispielsweise die Frage „Die Sessions waren thematisch vielfältig“ nicht in die Reliabilitätsberechnung mit einfließen, dann würde sich die Reliabilität von 0,87 auf 0,60 verringern. Je geringer die Reliabilität bei Wegfall einer Frage ausfällt, desto essenzieller ist diese für den Gesamttest.
Bei einem hypothetischen Weglassen der Frage „Mir fiel es schwer, mich für einzelne Sessions zu entscheiden.“ verbessert sich die Reliabilität geringfügig von 0,87 auf 0,90. Wenn sich die Reliabilität beim Weglassen einer Frage (stark) positiv verändert, dann wird diese Frage auch tatsächlich weggelassen. Dies ist besonders häufig bei der Entwicklung neuer Testverfahren und eher seltener bei etablierten Verfahren, da sonst die Vergleichbarkeit der Ergebnisse gefährdet wird.
Retestmethode
Liefert eine Messwiederholung bei Konstanz der zu messenden Eigenschaft die gleichen Ergebnisse?
Mit der Retestmethode werden die zu messenden Items mindestens zweimal von ein- und derselben Stichprobe bearbeitet. Die länge des Zeitraums, also zwischen der ersten und zweiten Messung, folgt keinem objektiven Standard und ist nur im Einzelfall entscheidbar. Für die Berechnung der Reliabilität wird die Erstmessung mit der Zweitmessung, oder auch mehrere Messungen, verglichen. Hat z.B. eine Person des FernUniCamps auf der o. g. Dimension „Einheit vs. Vielfalt“ auch nach der zweiten Messung einen hohen Wert, so kann dieser Test als reliabel angesehen werden. Allerdings können sog. Übungseffekte, z.B. das Erinnern von bestimmten Fragen, die Reliabilität künstlich erhöhen.
Paralleltestmethode
Liefert ein „vergleichbares“ (paralleles) Messinstrument identische Ergebnisse?
Zwei Parallelformen einer zu messenden Eigenschaft werden ein- und derselben Stichprobe vorgelegt. Beispielsweise messen die Fragebögen A und B beide die Dimension Einheit vs. Vielfalt, allerdings verwenden sie dazu unterschiedliche Fragen. Auch bei dieser Variante werden die Ergebnisse miteinander verglichen. Die Problematik bei dieser Methode ergibt sich durch die subjektive Einschätzung der Parallelität zweier Testverfahren.
Literatur
Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2. aktual. Aufl.). München: Pearson Studium.
Mayer, H. (2004). Interview und schriftliche Befragung. Entwicklung, Durchführung und Auswertung, München-Wien, S. 6-9 (PDF)