Im folgenden Statistikblog wird die Validität thematisiert. Dabei werden wir verschiedene Facetten der Validität kennen lernen.
(Teil 1 zentrale statistische Kennwerte, Teil 2 Reliabilität)
Aber was ist die Validität eigentlich? Laut Bühner (2011) gibt die Validität an, ob ein Test wirklich das misst, was er zu messen beansprucht. Es wird also festgestellt ob bspw. ein Sprachtest tatsächlich sprachliche Fähigkeiten misst und nicht räumliches Denken.
In der Forschungsliteratur wird die Validität häufig in drei Validitätsarten (siehe Abbildung 1) unterteilt: Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität. Nachfolgend werden diese Arten näher erläutert, zudem werden Gründe für eine mangelnde Validität genannt und es wird kurz auf den Zusammenhang zwischen der Reliabilität und der Validität eingegangen. Beispielhaft wird das Vorgehen zur Validitätsbestimmung der drei Validitätsfacetten, anhand der bereits bekannten Skala „Einheit und Vielfalt“ des Konnektivismus (Blog Reliabilität), beschrieben.
Inhaltsvalidität
Ein Test, der sich aus verschiedenen Indikatoren bzw. Items zusammensetzt, wird als inhaltsvalide bezeichnet, wenn jedes einzelne Item das zu messende Konstrukt hinreichend abbildet. Für die im FernUnicamp erhobene Skala „Einheit und Vielfalt“ des Konnektivismus würde das beispielsweise bedeuten, dass die Wissenschaftlerin sich im Vorfeld darüber Gedanken machen muss, ob einzelne Fragen, die die Skala bilden, die theoretischen Annahmen zu dieser Skala auch tatsächlich repräsentieren.
Die Inhaltsvalidität wird nicht anhand eines numerischen Kennwerts festgestellt, sondern durch logische und fachliche Überlegungen (Bühner, 2011). Diese subjektive Bewertung ist oftmals ein schwieriges Unterfangen, da es für bestimmte Eigenschaften unzählige Indikatoren gibt. Es sollte also gut begründet werden, warum für die o. g. Skala (Blog Reliabilität) genau diese Fragen bzw. Items formuliert wurden.
Ein konkretes Vorgehen, zur Bestimmung der Inhaltsvalidität, stammt von Murphy und Davidshofer (2001): 1. Zuerst sollte die inhaltliche Ebene des Konstrukts beschrieben werden. 2. Anschließend muss festgelegt werden, welche Items welchen Inhaltsbereich abbilden. 3. Zuletzt wird die Textstruktur mit der Struktur des Konstrukts verglichen.
FernUniCamp-Beispiel: Angewendet auf die Skala „Einheit und Vielfalt“ lassen sich folgende Schritte beschreiben: 1. Was ist mit „Einheit und Vielfalt“, als eine Dimension des Konnektivismus, gemeint? An dieser Stelle sind Arbeitsdefinitionen, d.h. ein theoretisches Verständnis eines Konstrukts, das der Forschungsarbeit zugrunde liegt, ratsam. Ebenso ist die Untersuchung bestimmter Teile eines umfangreichen Konstrukt sinnvoll, da es sonst denn Umfang einer Arbeit möglicherweise sprengen würde. 2. Welche Items bilden diese Skala am treffendsten ab? Hier spiele theoretische, empirische und logische Überlegungen eine wichtige Rolle. 3. Wenn auf theoretischer Ebene bestimmte Items „zusammengehören“, da sie eine Dimension abbilden, dann sollte eine Faktorenanalyse ein eindimensionales Resultat ergeben (demnächst gibt es dazu einen Blog zur Faktorenanalyse).
Kriteriumsvalidität
Bei der Kriteriumsvalidität werden die Resultate eines Tests in Verbindung mit anderen Kriterien gebracht. Kurze Anmerkung zum Begriff Test: Im Alltag wird der Begriff Test oft als Synonym für Leistungstests (z.B. einen Mathematik-, oder einen Sprachtest) gebraucht, im wissenschaftlichen Kontext wird aber auch jede Art von Fragebögen als Test verstanden, die ein theoretisches Konstrukt untersuchen. Je nach Zeitpunkt ergeben sich dabei unterschiedliche Arten der Kriteriumsvalidität (Bühner, 2011): – prognostische Validität: Testleistungen sollten mit Kriterien, die später erhoben werden, z.B. einen Mathematiktest vor dem Studium und als Kriterium die Abschlussnote des Mathematikstudiums, miteinander in Beziehung stehen. Dieses „miteinander in Beziehung stehen“ wird auch als Korrelation bezeichnet. Eine hohe Korrelation bedeutet, dass es eine enge Beziehung gibt. – konkurrente Validität: Hier wird der Test zeitgleich mit dem Kriterium erhoben. Bei einer Deutschklausur könnte beispielsweise kurz vorher ein Sprachtest durchgeführt werden, sodass anschließend die Korrelation zwischen der Deutschnote und der Testleistung ermittelt werden kann. –retrospektive Validität: Bei diesem Vorgehen werden Korrelationen mit zeitlich länger zurückliegenden Kriterien betrachtet.
Bei der inkrementellen Validität spielt der Zeitaspekt keine Rolle. Bei dieser Validitätsart interessiert, ob ein Test einen zusätzlichen Beitrag zur Verbesserung der Vorhersage eines Konstrukt leisten kann und das im Vergleich zu bestehenden Testverfahren. Zum Beispiel können Intelligenztests gut den Berufserfolg prognostizieren. Würde ein neues Testverfahren, das neben der Intelligenz auch das Sprachverständnis prüft, den Berufserfolg genauer vorhersagen, dann gäbe es einen zusätzlichen (Zuwachs = Inkrement) Beitrag zur Validität.
FernUniCamp-Beispiel: Wenn ein hoher Wert auf der Dimension „Einheit und Vielfalt“ dafür steht, dass im Rahmen des Konnektivismus vielfältige Gegebenheiten bevorzugt werden, dann sollten diese Personen z.B. auf zukünftigen FernUniCamps beobachtet werden können, wie sie sich mit Personen aus verschiedenen Bereichen unterhalten, zudem sollten diese Personen das vielfältige Angebot der Sessions nutzen. Allerdings handelt es sich um ein ideales Beispiel, da es u.a. aus Datenschutzgründen schwierig ist Daten von Personen bei einem FernUniCamp zu sammeln (die Person müsste z.B. damit einverstanden sein, dass sie beobachtet wird und das ihre Leistungen aus einem vorigen Test zu ihrer Person zugeordnet werden dürfte).
Konstruktvalidität
Einige Autoren subsumieren unter der Konstruktvalidität alle Arten der Validität zusammen. Nach diesem Verständnis ist ein Test konstruktvalide, wenn ein Test die Eigenschaft oder Fähigkeit misst, die er beansprucht zu messen (Moosbrugger & Kelava, 2012). Bei einem engen Begriffsverständnis der Konstruktvalidität fallen darunter nur die konvergente, diskriminante und faktorielle Validität. Bei der konvergenten Validität geht es darum, dass ein Test eine hohe Korrelation zu anderen Tests aufweisen sollte, die ein ähnliches theoretisches Konstrukt untersuchen. Dies steht im diametralen Verhältnis zur diskriminanten Validität. Hier geht es um den Vergleich von einem Test mit anderen Tests, die aber ein anderes theoretisches Konstrukt untersuchen. Test die verschiedene Konstrukte erfassen sollten nicht bzw. gering miteinander korrelieren. Wenn es um die konstruktnahe Zusammenfassung von Items geht und wenn es um die Trennung von kosntruktfremden Bereichen geht, dann spielt die faktorielle Validität eine wichtige Rolle (geplanter Blog zur Faktorenanalyse).
FernUniCamp-Beispiel: Würde die Skala „Einheit und Vielfalt“ niedrige Korrelationen zu Skalen aufweisen, die ebenfalls von sich beanspruchen dieses Dimension des Konnektivismus zu erfassen, dann müsste die bestehende Skala bearbeitet werden. Sofern es sich bei der Bezugsskala um eine reliable und valide Skala handelt. Im Idealfall sollte ein
Gründe für mangelnde Validität
An dieser Stelle werden die Kriteriumskontamination und –defizienz (siehe Abbildung 2), als Gründe genannt, die die Validität negativ beeinflussen können (Bühner, 2011). Bei der Kriteriumskontamination misst das eingesetzt Messinstrument nicht das beabsichtige Konstrukt. Ein Test der Intelligenz erfassen soll, kann u.U. durch mangelnde Motivation, oder Unbehagen während der ungewohnt Testsituation, kontaminiert sein. Das Messinstrument erfasst diese Aspekte mit, obwohl sie nichts mit Intelligenz zu tun haben. Bei der Kriteriumsdefizienz fehlen wichtige Aspekte eines Konstrukts. Wenn der Umsatz eines Unternehmens ausschließlich durch die örtliche Lage erfasst werden würde, dann würden wichtige Faktoren nicht einbezogen werden bzw. die örtliche Lage als alleiniger Faktor für den Umsatz wäre defizient. Der Umsatz kann ebenfalls von dem Teamklima, der Arbeitszufriedenheit und auch der Führung der Vorgesetzten abhängen.
Reliabilität und Validität
Eine geringe Reliabilität (Blog Reliabilität) deutet auf eine geringe Messgenauigkeit hin. Ein Test mit einer einer geringen Messgenauigkeit kann auch nicht vollumfänglich das messen, was er zu messen beansprucht. Ein solcher Test hat deshalb eine geringere Validität. Ein Testverfahren kann also nicht den Anspruch erheben ein sehr valides Messinstrument zu sein, wenn die Reliabilität mangelhaft ist.
Literatur
Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion (3. aktual. Aufl.). München: Pearson Studium.
Moosbrugger, H., & Kelava A. (2012). Testtheorie und Fragebogenkonstruktion (2. aktuell. Aufl.). Berlin: Springer-Verlag. doi: 10.1007/978-3-642-20072-4
Murphy, K. R., & Davidshofer, C.O. (2001). Psychological testing principles and applications (5th edition). Upper Saddle River, NJ: Prentice Hall.