Testtheorie

Description

Flashcards on Testtheorie, created by Al Trä on 03/02/2018.
Al Trä
Flashcards by Al Trä, updated more than 1 year ago
Al Trä
Created by Al Trä about 6 years ago
541
2

Resource summary

Question Answer
Was ist ein Test? Ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrer empirisch, abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.
Testtheorie? Erklärung Testtheorie beschäftigt sich mit dem Zusamenhang von testverhalten und dem zu erfassenden Merkmal daraus leitet man Annahmen darüber ab, wie ein test beschaffen sein muss, um ein psychisches merkmal gut zu erfassen (gütekriterien). die tt ist daher logische basis für Testkonstruktion.
Was ist Testtheorie noch? TT ist formale Rahmentheorie die annahmen über den zusammenhang zwischen psy. Merkmal und einem dahinter liegenden Konstrukt formuliert. sie gliedert sich in formale modelle. Durch anwendung von formalen Modellen auf einen test, stichprobe oder merkmal werden diese zu einer Theorie
Was ist die klassische Testtheorie? Was für ein Modell? Für was Grundlage? Die Klassische Testtheorie ist ein formales Modell, das seit seiner Entwicklung (1950er) eine wichtige Grundlage für die Konstruktion psychologischer Testverfahren zur Erfassung von Merkmalsunterschieden zwischen Personen darstellt.
was ist die wesentliche Annahme der KTT ? Wesentliche Annahme der KTT ist, dass sich die mit einem Test ermittelt Merkmalsausprägung eines Individuums aus einem „wahren Wert“ dieses Individuums und einem Messfehler zusammensetzt.
Warum gilt die KTT auch als Messfehlertheorie? weil ihre Methoden darauf abzielen, den Anteil des Messfehlers an den ermittelten Messwerten zu bestimmen. Die KTT macht keine Aussagen über die Zusammenhänge zwischen psychischen Merkmalen und dem Verhalten in einem Test.
Was ist ein Axiom? und wie heißen die drei der KTT? Ein Axiom ist eine theoretische Grundannahme, die beweislos vorausgesetzt wird. Die KTT und die IRT (und viele andere Theorien) basieren auf solchen Axiomen. Die wesentlichen Axiome der KTT sind das Existenzaxiom, Verknüpfungsaxiom und das Unabhängigkeitsaxiom.
Was ist das E(x)istenzaxiom? Es existiert ein wahrer Testwert als Erwartungswert einer Messung xvi.
Was ist das Verknüpfungsaxiom? Jede Messung Xi setzt sich aus dem wahren Wert und einem zufälligen Messfehler zusammen. Xi = Tvi + Evi
Was folgt aus Axiom 1 und 2? Der Mittelwert der beobachteten Werte bei vielen Messungen einer Person nährt sich immer stärker dem wahren wert. Die Fehlerwerte bei unendlich vielen Messungen ist gleich Null. D.H., der Erwartungswert der Fehler hat Wert Null.
Was ist das unabhängigkeitsaxiom? Es besteht kein zusammenhang r zwischen dem messfehler e und dem wahren wert t
Zusatzannahme 1 paarweise Unkorreliertheit der Messfehler. Bedeutet? Es besteht kein Zusammenhang zwischen dem Messfehler eines Items und dem eines anderen Items der gleichen Person
Zusatzannahme 2: paarweise Unkorreliertheit der Messfehler? Es besteht kein Zusammenhang zwischem dem messfehler einer Person 1 und einer Person 2. Die Messfehler sind unabhängig voneinander.
Was ist die Reliabilität? Was bedeutet ein Wert von 1 und 0? Die Reliabilität gibt den Grad der Genauigkeit an, mit dem ein Verfahren ein bestimmtes Merkmal misst. Die Reliabilität wird durch den Reliabilitätskoeffizienten angegeben, wobei O Reliabilität = 1; kein Messfehler, Test misst maximal genau O Reliabilität = 0; Testergebnis kommt nur durch Messfehler zustande, Test misst maximal ungenau
Die Reliabilität ist welcher Anteil? Varianz an der beobachteten Varianz. = wichtigste Ableitung aus den Axiomen der KTT!
Was ist der Standardmessfehler? S(et) Der Standardmessfehler s(et) ist derjenige Anteil an der Gesamtstreuung eines Tests, der auf die Unzuverlässigkeit bzw. Ungenauigkeit des Tests zurückgeht.
Was hat der Standardmessfehler für eine praktische bedeutung? Was ist wenn er groß oder klein ist? Was ist dann mit der reliabilität? Der Standardmessfehler ist quasi die Streuung der beobachteten Werte um den wahren Wert. Ist er groß, dann schwanken die beobachteten Werte stark um den wahren Wert; der Test misst sehr ungenau / ist unreliabel. Ist er klein, dann schwanken die beobachteten Werte kaum um den wahren Wert; Test ist sehr reliabel.
Was sind die STufen der Testentwicklung? (1) Anforderungsanalyse und Problemstellung (2) Planung und Literatursuche (3) Eingrenzung des Merkmals und Arbeitsdefinition (4) Testentwurf (5) Überprüfung des Testentwurfs durch eine geeignete und ausreichend große Stichprobe (Mindestgrenze N= 100) a. Itemanalyse b. Kontrolle der Gütekriterien c. Itemselektion (6) Revision des Tests (7) Eichung (Normierung)
Wozu dienen die Gütekriterien? und wie heißen sie? Die Hauptgütekriterien dienen als Instrumente der Qualitätsbeurteilung psychologischer Tests und sind daher für Praktiker von immenser (!) Bedeutung. Die drei Hauptgütekriterien lauten: 1. Objektivität 2. Reliabilität 3. Validität
Was sind Nebengütekriterien? O Normierung O Skalierung O Ökonomie O Nützlichkeit O Zumutbarkeit O Unverfälschbarkeit O Fairness O Vergleichbarkeit O Transparenz
Erläutern sie Objektivität. Objektivität besteht bei einem Test dann, wenn das Testergebnis unabhängig ist: O vom Untersuchungsleiter und der Untersuchungssituation (Durchführungsobjektivität), O vom Testauswerter (Auswertungsobjektivität), O und von der Ergebnisinterpretation (Interpretationsobjektivität)
Was ist die Durchführungsobjektivität? Diese soll sicherstellen, dass das Testergebnis eines Probanden nicht vom Untersuchungsleiter oder der Situation abhängig ist. Dies kann durch standardisierung der Durchführung gelingen.
Was ist die Auswertungsobjektivität? Die Auswertung soll unabhängig von der Person sein, die den Test auswertet. Durch genaue Auswertungsvorgaben kann dies sichergestellt werden.
was ist die Interpretationsobjektivität? Es muss sichergestellt werden, dass Schlussfolgerungen aus Testergebnissen unabhängig vom Testanwender erfolgen. Verschiedene Testanwender sollten bei gleichen Testergebnissen auch zu den gleichen Interpretationen kommen. Dies kann zum Beispiel durch genaue Interpretationsrichtlinien geschehen. Häufigwird dies über die Normierung vorgenommen.
Was bedeutet Validität? Was gibt sie an? Die Validität gibt an, ob zwischen dem, was gemessen wird, und dem, was gemessen werden soll, wirklich Übereinstimmung besteht. Die Validität bezieht sich auf die Frage, ob mit einem Test wirklich das gemessen wird, was der Test zu messen vorgibt.
Die Validität gilt als das wichtigste der Hauptgütekriterien. Sie ist jedoch abhängig von der Objektivität und der Reliabilität. Warum? Ist ein Test nicht objektiv, können seine Ergebnisse zu einem Großteil auf Fehler, also auf Unterschiede bei Durchführung, Auswertung und Interpretation zurückgeführt werden. Die Reliabilität wird dadurch verringert. Ist ein Test wiederum nicht reliabel, so wird kein einheitliches Konstrukt gemessen. Dadurch kann auch nicht klar bestimmt werden, ob das gewünschte Konstrukt überhaupt gemessen wird (Validität). Objektivität und Reliabilität sind notwendige, aber nicht hinreichende Bedingungen für Validität.
Die Varianz der wahren Werte (Reliabilität) wird mit Hilfe von „parallelen Messungen“ geschätzt: Was sind ihre Methoden? Methoden: O wiederholte Durchführung des gleichen Tests O Paralleltests O äquivalente Testhälften O jede Aufgabe ist ein „Paralleltest“
Mit „paralleler Messung“ ist also nicht notwendigerweise gemeint, dass etwas gleichzeitig parallel gemessen wird. Gemeint ist nur, dass (vermeintlich) parallele Aufgaben an derselben Stichprobe durchgeführt werden. Hierfür haben sich 4 Ansätze eingebürgert.... Welche sind das? KTPP 1. Testwiederholungsmethode O Test A zeitlicher Abstand Test A 2. Paralleltestmethode O Test A Test B 3. Testhalbierungsmethoden O Test A/1 Test A/2 4. Konsistenzanalyse O jedes Item eines Tests stellt einen „Paralleltest“ dar
Was ist die Testwiederholungsmethode? Wie werden die Ergebnisse verglichen? Ein Test wird bei einer Stichprobe von Personen nach einem angemessenen Zeitabstand wiederholt. Die Rohwertepaare aus Test und Testwiederholung werden korreliert. Der Korrelationskoeffizient ist eine Schätzung der Reliabilität. „Retest“- Reliabilität: rtt = r12 Achtung: Bei vielen psychologischen Messungen wird das zu messende Merkmal durch den Vorgang der Messung verändert! Beispiel: Übungsfortschritte bei IQ-Tests
Was ist das große Problem an der Testwiederholungsmethode? Wie wird daher die Retestreliabilität ebenfalls bezeichnet und genutzt? Großes Problem bei dieser Methode: Wie groß ist der „angemessene Zeitabstand“? Kurzer Zeitabstand: Übungsfortschritt? Langer Zeitabstand: Veränderung des Merkmals selbst? DILEMMA! Die Retestreliabilität kann daher auch als „Stabilitätskoeffizient“ (Cronbach, 1947) bezeichnet und genutzt werden.
Problem der „Scheinreliabilität“: überschätzte Reliabilität aufgrund von Gedächtniseffekten. Die Scheinreliabilität wird umso größer je.....? O je leichter die Testaufgaben behalten werden; O je interessanter sie sind; O je kürzer der Zeitabstand zwischen Test und Testwiederholung ausfällt; O je weniger Aufgaben ein Test enthält. Daher eher bei Fragebögen und Schnbelligkeittests jedoch nicht bei IQ Tests
Was ist die Paralleltestmethode? Gilt als beste Methode der Reliabilitätsbestimmung. Zwei Parallelformen des Tests werden an ein und derselben Stichprobe durchgeführt. Voraussetzung: Zwei Parallelformen existieren und wurden zuvor auf Äquivalenz überprüft. Schwierig, wenn O die Testaufgaben einen Einmaligkeitscharakter haben (z.B. logische Denkprobleme) O Lösungskonzepte übertragen werden können O ein Lernfortschritt zu erwarten ist.
Was ist die Testhalbierungsmethode? Kann genutzt werden bei homogenen Niveautests falls Testwiederholung nicht sinnvoll und keine Parallelformen vorliegen: Test wird in zwei gleichwertige Testhälften zerlegt („split-half“). Quasi zwei Parallelformen von halber Länge. Wird sehr häufig eingesetzt, denn sie benötigt keinen zusätzlichen Aufwand!
Der gebräuchlichste sog. Halbierungskoeffizient wird anhand der Spearman-Brown-Formel berechnet: Wie ist sie? wie ist die allgemeine Formel? Rtt = 2 * r12 / 1+r12
Was ist die Konsistenzanalyse? Was ist der Berechungskoeffizient? Ein Test wird nicht in zwei Hälften, sondern in drei, vier oder noch viel mehr äquivalente Teile aufgeilt. Im Extremfall in so viele, wie der Test Items hat. Geläufigster Berechnungskoeffizient ist Cronbachs-α:
Was kann man tun wenn Reliabilität zu gering ausfällt? Die Reliabilität kann verhältnismäßig leicht erhöht werden, z.B. durch eine Testverlängerung: Je häufiger das gleiche Merkmal auf die gleiche Art gemessen wird, desto präziser kann der wahre Wert bestimmt werden.
Wozu führt eine Testverdoppelung? Was passiert mit Varianz und was mit Fehlervarianz? Was mit Reliabilität und durch welche Berechnung herleitbar? Das heißt bei Testverdopplung wächst die Varianz der wahren Werte stärker an als die Varianz der Fehlerwerte. Erinnere: Reliabilität ist der Anteil der wahren Varianz an der Gesamtvarianz (wahre Varianz + Fehlervarianz) Eine Testverdopplung führt zu einer Vervierfachung der wahren Varianz! lediglich zu einer Verdopplung der Fehlervarianz! + Erhöhung der Reliabilität. Herleitbar durch corrRtt= (korrigierte Spearman brown formel)
Welches Dilemma entsteht durch Testverlängerung? hohe Reliabilität Durchführbarkeit reliabler, angewendet.
Nebengütekriterien: Normierung und Skalierung erklären: Normierung ist erfüllt wenn Bezugssystem von Vergleichswerten bereitgestellt wird, von Personen die gestester VPN ähnlich ist. Skalierung: Merkmalsunterschiede zwischen Personen sollen auch in entsprechenden Unterschieden bei Punktwerten abgebildet werden.
Nebengütekriterien Ökonomie und Nützlichkeit Ökonomie: Test soll akzeptabel sein finanziell und zeitlich Nützlichkeit: Inhalte sollen praktische Relevanz haben.
Nebengütekriterien Unverfälschbarkeit und Fairness, Transparenz: Unverfälschbarkeit: VPN sollte gezieltes Antwortverhalten unterlassen Fairness: Keine systematische Benachteiligung von bestimmten Personen. Transparenz: Instruktionen verständlich, VPN ausreichend aufklären
Was ist eine Normorientierte Testwertinterpretation? Testleistung eines Probanden wird verglichen mit einer Gruppe von Probanden, denen er soziologisch angehört. Vergleichsmaßstäbe sind Kennwerte der Merkmalsverteilung von Vergleichsgruppen (vgl. soziale Bezugsnorm) O Beispiel: WISC (IQ-Test), DISYPS-ADHS: FBB
Was ist die Kriteriumsorientierte Testwertinterpretation? Kriteriumsorientierte Testwertinterpretation: Testleistung eines Probanden wird verglichen mit einem Kriterium, z.B. mit einem Mindest-, Schwellen- oder Höchstwert mit psychologisch-inhaltlicher Beschreibung, welcher die Testwertausprägung genau charakterisiert O Beispiel: viele klinische Tests und Fragebögen, z.B. BDI, DISYPS-ADHS: Checklist
Wie funktioniert die normorientierte Testwertinterpretation? Die normorientierte Testwertinterpretation besteht darin, dass zu jedem individuellen Testwert ein Normwert bestimmt wird, mit dem die relative Lage der Testperson hinsichtlich der erfassten Merkmalsausprägung innerhalb der Bezugs- bzw. Referenzgruppe (Eichstichprobe) angegeben wird. Die Rohwerte der Eichstichprobe werden von den Testautoren in Normwerte transformiert. Diese Skala ist der Vergleichsmaßstab. Der Anwender ordnet dann den individuellen Wert seines Patienten/Klienten einem Normwert zu.
Normorientierte Testwertinterpretation: Je nach Datenmaterial der Eichstichprobe sind unterschiedliche Transformationen zulässig: Welche sind das? O Lineare Transformationen des Rohwertes: z-Transformation und darauf aufbauende weitere Transformationen. O Nichtlineare Transformationen des Rohwertes: Bestimmung von Prozenträngen und darauf aufbauende Transformationen.
Prozentrangtransformation: Die gebräuchlichste nicht-lineare Testwerttransformation ist die Transformation des Testwertes in einen Prozentrang (PR). Was gibt ein Prozentrang an? Ein Prozentrang gibt an, wie viel Prozent der Bezugsgruppe bzw. Eichstichprobe einen Testwert erzielten, der niedriger oder maximal ebenso hoch ist, wie der Testwert des Probanden. Der Prozentrang entspricht somit dem prozentualen Flächenanteil unter der Häufigkeitsverteilung. Dieser kann (kompliziert) berechnet oder (einfach) in Tabellen nachgeschlagen werden.
Prozentrangnormen können nicht als intervallskaliert aufgefasst werden, da ....?durch die ____________ die Differenzen zwischen je ______ ____________im Bereich geringer _____________(Häufigkeit gering) _____________, im Bereich hoher Testwertdichte (Häufigkeit groß) _________________ werden. Prozentränge lassen im Bereich ______Testwertdichte Unterschiede zwischen ______________ g_______ erscheinen als sie tatsächlich bestehen. Tatsächlich bestehende Unterschiede im Bereich geringer Testwertdichte werden durch Prozentränge nivelliert. durch die Flächentranformation die Differenzen zwischen zwei Testwerten im Bereich geringer Testwertdichte (Häufigkeit gering)kleiner, und im Bereich hoher Testwertdichte (Häufigkeit groß) größer werden. Prozentränge lassen im Bereich hoher Testwertdichte Unterschiede zwischen Merkmalsausprägungen größer erscheinen als sie tatsächlich bestehen. Tatsächlich bestehende Unterschiede im Bereich geringer Testwertdichte werden durch Prozentränge nivelliert.
Da Prozentränge nicht intervallskaliert sind dürfen????? Deshalb darf man was nicht tun? Prozentränge und ihre Differenzen nicht interpretiert werden! (Prozentrangdifferenzen)
Was ist das Vertrauens- oder Konfidenzintervall? Bereich indem der wahre Wert anzufinden ist. Psychologische Tests sind nicht perfekt messgenau, daher können die Ergebnisse einzelner Probanden nicht ohne weiteres verglichen werden. Vielmehr wird versucht die mangelnde Messgenauigkeit bei der Interpretation von Testwerten zu berücksichtigen. Dazu wird ein Bereich angegeben, in dem der wahre Wert eines Probanden mit einer gewissen Wahrscheinlichkeit liegt.
Wovon gehen Äquivalenzhypothese und Regressionshypothese aus? Äquivalenzhypothese gute Annäherung Regressionshypothese Regressionsrechnung Formeln Vertrauens- oder Konfidenzintervalle
Was gibt das Konfidenzintervall an? Mit was gibt es das Gesuchte an? Was bedeutet das Konfidenzintervall nicht? Was wird bei der Berechnung neben dem beobachteten Wert einer Person noch berücksichtigt? Was passiert bei hoher Relibailität? Konfidenzintervalle geben einen Bereich an, in dem sich der wahre Wert der Person mit einer festgelegten Wahrscheinlichkeit befindet. Das heißt nicht, dass er in diesem Bereich liegt, sondern nur dass er in diesem Bereich mit einer gewissen Wahrscheinlichkeit auftritt. Bei der Berechnung dieses Vertrauensbereiches wird neben dem beobachteten Wert der Person auch die Messgenauigkeit des Tests berücksichtigt. Bei hohen Reliabilitäten führen beide Methoden zu ähnlichen Ergebnissen.
Welche Formel bestimmt das Konfidenzintervall? Das Konfidenzintervall lässt sich nun über folgende Formel bestimmen: wobei KI = Konfidenzintervall u = untere Grenze, o = obere Grenze xi = beobachteter Wert α = Sicherheitsbereich
Reliabilität und Einzelfallentscheidungen Merke: Der Verzicht auf ______________bei der _____und _________ von Testergebnissen, wie es in der Praxis zum Teil ___ ____________ ist, stellt einen groben ________dar und ist nicht entschuldbar! Durch das ________ wird dem Umstand Rechnung getragen, dass die Werte, die wir durch Tests erhalten, nicht perfekt gemessen werden und unter wiederholten Bedingungen nicht ___________ ausfallen würden. Konfidenzintervalle Angabe Interpretation weit verbreitet Fehler Konfidenzintervall identisch
Was ist die Regression zur Mitte? Weil bei den beobachteten Werten immer der Messfehler hinzukommt, der die Streuung erhöht und die Verteilung verbreitert. -> Die wahren Werte tendieren daher immer zur Mitte. Dieses Phänomen nennt man Regression zur Mitte.
was ist die kritische differenz in Worten? Die krit. Differenz ist die? Die kritische Differenz ist die Differenz zwischen zwei Testergebnissen, die empirisch übertroffen sein muss, um unter Berücksichtigung der Messungenauigkeit als signifikant zu gelten.
Was ist die Formel für die kritische Differenz? Hierzu berechnet man die sog. interindividuelle kritische Differenz: Dabei ist: Dkrit = kritische Differenz zα/2 = Sicherheitsbereich bei zweiseitiger Testung sx = Standardabweichung des Tests rtt = Reliabilität des Tests
Nenne die verschiedenen Validitätsarten! 1. Kriterienbezogene Validität 2. Inhaltliche Validität 3. Konstruktvalidität
Was ist die Kriterienbezogene Validität? Kriterienbezogene Validität liegt vor, wenn das Testergebnis mit anderen, praktisch relevanten Kriterien (sogenannten Außenkriterien) übereinstimmt, die das zu messende Persönlichkeitsmerkmal ebenfalls erfassen. Beispielsweise sollte ein Test zur Prüfung auf Studierfähigkeit für das Fach Psychologie mit dem späteren Studienerfolg in diesem Fach übereinstimmen. In diesem Fall läge kriterienbezogene Validität vor, die man auch als empirische Validität bezeichnet. O Festlegung eines Validitätskriteriums O für den ZVT zum Beispiel: WISC Intelligenztest O Bezug der Testpunktwerte zu Kriterienpunktwerten mit Hilfe von Korrelationen (= Validitätskoeffizient) O Beispiel: rWISC-ZVT = .60
Kriterienbezogene Validität: Häufig wird ein Test an mehreren __________ und/oder mit Hilfe von mehreren _______________validiert. Dadurch entstehen eine ganze Reihe von ___________________, die unterschiedlich hoch sein können. Unter der Annahme, dass es sich bei den Kriterien um ______ Kriterien handelt, nähert man sich Stück für Stück der Validität des ________ an. Kriterien Stichproben Validitätskoeffizienten, valide Tests
Was ist die Innere kriterienbezogene Validität? Innere V.: Korrelation von Test A mit Test B - zB Korrelation von ZVT und WISC O Problem: Tests können natürlich auch aufgrund einer Drittvariable hoch korrelieren (im Beispiel zB Konzentrationsfähigkeit) O Weiteres Problem: Es müssen bereits valide Tests vorhanden sein, die etwas ähnliches messen.
Was ist die Äußere kriterienbezogene Validität? Äußere: Korrelation zwischen äußerem Kriterium und Testpunktwert O zB Korrelation von ZVT und Lehrerurteil
Kriterienbezogene Validität: Was ist die Vorhersagevalidität? und was ist die Übereinstimmungsvalidität? Vorhersagevalidität: Kriterienwerte fallen zeitlich später an O Sehr bedeutsam bei Eignungsdiagnostik! Übereinstimmungsvalidität: Kriterienwerte werden zeitlich simultan erhoben
Was ist die inhaltliche Validität? Wie wird sie erfragt? Sachlogische Annahme, dass die Testaufgabe das bestmögliche Kriterium für das zu erfassende Merkmal sei. Beruht auf Einsicht. auch „logische Validität“ genannt Wird in der Regel über Expertenratings erfragt (≠ äußere kriterienbezogene Validität: kein numerischer Kennwert!) z.B. bei Schulleistungstest: „Die Aufgaben sind repräsentativ für den vermittelten Lehrstoff.“
Was ist die Konstruktvalidität? Was gibt sie an? Die Konstruktvalidität gibt an, inwieweit ein Test oder Erhebungsverfahren ein interessierendes Merkmal so misst, dass es mit bestehenden Konstruktdefinitionen und Theorien übereinstimmt.
Was sind die ersten drei der sieben Gesichtspunkte der Konstruktvalidität? 1. Korrelation des Tests mit mehreren Außenkriterien 2. Korrelationen des Tests mit Tests ähnlichen Validitätsanspruches 3. Korrelationen mit Tests, die andere Persönlichkeitsmerkmale/Fähigkeiten erfassen
Gesichtspunkte 1-3 der Konstruktvalidität: Vermitteln uns ein Bild über den ________ eines Tests im Vergleich zu __________und anderen _________(kriterienbezogene Validität): O Mit welchen Variablen _________der Test, und – hier NEU – mit welchen nicht? O konvergente Validität: liegt vor, wenn der zu validierende Test erwartungsgemäß ________mit anderen ____ _________, die vorgeben, etwas ähnliches zu messen Standort Kriterien Tests korreliert positiv Tests korreliert
Innerhalb der Konstruktvalidität unterscheidt man noch die diskrimante Validität: Wann ist sie gegeben? diskriminante oder divergente Valididtät ist gegeben wenn Nullkorrelationen oder zumindest deutlich niedrigere Korrelationen mit Tests vorliegen, die vorgeben etwas anderes zu messen.
Was sind die kriterien 5 und 6? 5. Analyse interindividueller Unterschiede in den Testresultaten 6. Analyse intraindividueller Veränderungen bei wiederholter Durchführung
Was sind die Kriterien 4 und 7 ? (Kriterien der Konstruktvalidität?) 4. Faktorenanalyse des zu validierenden Tests gemeinsam mit Außenkriterien, validitätsverwandten und validitätsdivergenten Tests 7. Inhaltlich-logische Analyse der Testelemente
Was ist eine Faktorenanalyse? Die Extraktion von Faktoren aus einer Korrelationsmatrix
Was ist eine Faktorenanalyse? Der Begriff Faktorenanalyse umfasst eine ______multivariater___________mit denen untersucht wird, ob sich ___________ auf gemeinsame _________(Faktoren) _______ lassen. Die Faktorenanalyse führt zu einer ____________: die Varianz einer Vielzahl von ___________wird auf eine ___________ Zahl von gemeinsamen Faktoren zurückgeführt. Gruppe Analyseverfahren, Variablen Dimensionen (Faktoren) zurückführen Datenreduktion: Variablen geringere
Faktorenanalyse: Die Extraktion von Faktoren aus einer Korrelationsmatrix der beobachteten Variablen erfolgt mit den Zielen...? (3) 1. möglichst wenig Informationen über die Beziehung der gemessenen Variablen untereinander zu verlieren 2. Faktoren so zu strukturieren, dass sich eine möglichst einfache, sinnvolle & interpretierbare Struktur ergibt 3. Faktoren bezüglich der gemeinsamen Anteile der Ausgangsvariablen zu identifizieren und benennen
Faktorenanalyse: welche beiden methoden werden dabei unterschieden? und as machen sie mit Hypothesen? O Die exploratorische Faktorenanalyse, ein Hypothesen generierendes Verfahren (EFA). O Die konfirmatorische Faktorenanalyse, ein Hypothesen prüfendes Verfahren (CFA). Im Rahmen von Konstruktvalidierungen wird meist die EFA genutzt.
Exkurs: Faktorenanalyse (EFA) Verfahrensschritte (Überblick) (5) 1. Prüfung der Korrelationsmatrix auf Eignung für die EFA 2. Faktorenextraktion und Ermittlung der Eigenwerte 3. Entscheidung über die Anzahl relevanter Faktoren 4. Entscheidung für ein Rotationsverfahren und Rotation der als relevant betrachteten Faktoren 5. Interpretation des „rotierten“ Ladungsmusters unter Berücksichtigung der Signifikanz von Ladungsmustern
Was ist der Eigenwert eines Faktors und wie wird er berechnet?
Was ist die Kommunalität einer Variablen?
Entscheidung über die Anzahl relevanter Faktoren: Kaiser-Kriterium: Was ist das Kaiser guttmann Kriterium? Beim Kaiser-Guttman-Kriterium werden alle Faktoren als relevant betrachtet, die einen Eigenwert größer 1 haben. Die Logik hierbei ist, dass diese Faktoren mehr Varianz erklären als eine einzelne Variable. Das Kaiser-Guttman-Kriterium führt i.d.R. zu einer großen Faktorenzahl und damit zu kaum interpretierbaren Ladungsmustern.
Gesichtspunkt 4: Faktorenanalyse des zu validierenden Tests gemeinsam mit Außenkriterien, validitätsverwandten und validitätsdivergenten Tests. Was sollte der Test den wir validieren wollen tun? (Erinnere Faktorenrotation) Der Test, den wir validieren wollen, sollte gemeinsam mit allen konstruktnahen Tests auf einem Faktor (= dem gesuchten Konstrukt) hoch laden. Die Faktorladungen konstruktferner Tests auf diesem Faktor sollten möglichst niedrig sein. = Faktorielle Validität
Entscheidung über die Anzahl relevanter Faktoren: Scree-Test: Was ist der Scree-Test? Für den Scree-Test wird der Eigenwerteverlauf grafisch dargestellt („Scree-Plot“). Anhand dieses Verlaufs wird nach dem Punkt gesucht, ab dem die Faktoren nur noch unbedeutende Restvarianz erklären. Dieser Punkt stellt im Idealfall einen deutlichen Knick im Eigenwerteverlauf dar. Alle Faktoren vor diesem Knick werden als bedeutsam betrachtet. Der Scree-Test ist ein subjektives Verfahren, welches nicht immer eine eindeutige Entscheidung ermöglicht.
Was ist eine Faktorenrotation? Die Faktoren werden zunächst nach dem Kriterium extrahiert, so viel Varianz wie möglich zu erklären. Die entstandenen Ladungsmuster sind i.d.R. inhaltlich schwer zu erklären: Auf dem ersten Faktor finden sich über alle Variablen hinweg die höchsten Ladungen, auf dem zweiten die zweithöchsten usw.Um die Faktoren inhaltlich leichter interpretieren zu können, wird eine Faktorenrotation vorgenommen. Ziel ist es, dass auf jedem Faktor einige Variablen hoch und die übrigen Variablen möglichst niedrig laden. Jede Variable sollte möglichst nur auf einem einzelnen Faktor hoch und auf den übrigen Faktoren niedrig laden. Ein solches Ladungsmuster bezeichnet man als Einfachstruktur. Faktoren können orthogonal oder oblique rotiert werden.
Was ist eine Orthogonale Faktorenrotation? Bei der orthogonalen Rotation wird die Unkorreliertheit der eingangs extrahiertenn Faktoren beibehalten. Dies erleichtert die Interpretation. Das bekannteste orthogonale Rotationsverfahren ist die Varimax-Rotation. Dabei werden innerhalb der einzelnen Faktoren die quadrierten Faktorladungen der Items maximiert. Dies führt dazu dass jedes Item nur auf einem Faktor hoch lädt und auf allen anderen Faktoren niedrig.
Konstruktvalidität Gesichtspunkt 5: Analyse interindividueller Unterschiede in den Testresultaten. Wie kann man dies überprüfen? Analyse der Verteilung der Testresultate sowie der Nachweis von Testwertunterschieden zwischen verschiedenen Gruppen. Gruppen werden auf Grundlage von bestimmten, logisch aus dem Konstrukt abgeleiteten Annahmen gebildet. Beispiel: Gruppe Hauptschüler und Gruppe Gymnasiasten im WISC Erwartung: IQHauptschüler < IQGymnasiasten
Konstruktvalidität Gesichtspunkt 6: Analyse intraindividueller Veränderungen bei wiederholter Durchführung über was kann man dies überprüfen? Testwertdifferenzen, wenn der Test mehrmals an denselben Personen durchgeführt wird, geben Hinweise zur Konstruktvalidität Beispiel: Intelligenz = stabiles Merkmal, darf nur innerhalb gewisser Grenzen schwanken, wenn angenommen wird, dass der Test tatsächlich Intelligenz misst
Konstruktvalidität Gesichtspunkt 7: Inhaltlich-logische Analyse der Testelemente. Was kann man machen? und wie sollten die Testaufgaben korrelieren? z.B. Analyse von einzelnen Testaufgaben (sollten hoch korrelieren, wenn sie homogen konstruktnah konstruiert wurden). Hierbei kann auch die interne Konsistenz berücksichtigt werden oder: faktorielle Struktur innerhalb des Tests bestimmen; Zuordnung von Items zu Skalen /Untertests (= Faktoren) überprüfen
Praktische Bedeutung der Minderungskorrektur? Was liefert sie? Und was erhöht sich dadurch? vgl. kriterienbezogene Validität: wenn zur Validierung eines Tests bestimmte Kriteriumswerte herangezogen werden, kann durch Minderungskorrekturen die Fehlerhaftigkeit beider Messungen einberechnet werden. Meist sind beim ersten Validierungsversuch die Korrelationen zwischen Tests und Kriterien gering. Durch Minderungskorrekturen erhöht sich (numerisch) die Validität. Sie liefern eine Schätzung der wahren Validität.
Was ist eine Minderungskorrektur? Die beobachteten Werte ___________ meist ______als die ________Werte, da sie _________ sind. Dadurch wird die ___________ unterschätzt. Diese __________ (durch fehlerbehaftetes Messen) wird durch ___________________ korrigiert, indem man die ___________berücksichtigt. Eine ________ liefert eine ______für die Korrelation der ________Werte zweier ________, wenn deren ________und die Korrelation der beobachteten Werte dieser Variablen bekannt sind. Die beobachteten Werte korrelieren meist niedriger als die wahren Werte, da sie fehlerbehaftet sind. Dadurch wird die Validität unterschätzt. Diese Minderung (durch fehlerbehaftetes Messen) wird durch Minderungskorrekturen korrigiert, indem man die Reliabilitäten berücksichtigt. Eine Minderungskorrektur liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren Reliabilitätskoeffizienten und die Korrelation der beobachteten Werte dieser Variablen bekannt sind.
KTT: Was ist die doppelte und die einfache Minderungskorrektur? Bei der Minderungskorrekturen wird dem Umstand Rechnung getragen, dass die Validität durch eine ungenügende Reliabilität vermindert werden kann. Mit dem Verfahren wird berechnet, wie die Korrelation des Test mit dem Kriterium wäre, wenn die Reliabilität perfekt (r=1) wäre. Bei der doppelten Minderungskorrektur werden dabei beide Reliabilitäten (die des Tests und die des Kriteriums) auf 1 gesetzt.
Testkonstruktion: Die Minderungskorrektur hilft uns bei der Entscheidung, ob es sich lohnt, die Reliabilität des konstruierten Tests zu erhöhen. Wie? Sie gibt an wie hoch die Validität sein könnte, wenn die Reliabilitäten von Test und Kriterium perfekt (=1) wären.
Effekt von Minderungskorrekturen: Die Messfehler von Test und ______ verringern die _____. Bei der Minderungskorrektur stehen die _________jeweils im ____. Deshalb fällt die Korrektur umso drastischer aus, je _____die Reliabilitätskoeffizienten sind. Umgekehrt bedeutet dies: Wenn die Reliabilitäten bereits sehr ____ sind, ändert sich durch die Minderungskorrektur ____. Die Messfehler von Test und Kriterium verringern die Validität. Bei der Minderungskorrektur stehen die Reliabilitätskoeffizienten jeweils im Nenner. Deshalb fällt die Korrektur umso drastischer aus, je niedriger die Reliabilitätskoeffizienten sind. Umgekehrt bedeutet dies: Wenn die Reliabilitäten bereits sehr hoch sind, ändert sich durch die Minderungskorrektur wenig.
Welche Faktoren bestimmen die Validität? und was meint die partielle Inkompatibilität der beiden Kardinalkriterien? Die Validität wächst generell in der Regel mit der Reliabilität, aber langsamer dennoch: O Homogene Tests erhöhen die Reliabilität O Heterogene Tests erhöhen die Validität = Reliabilitäts-Validitäts-Dilemma „Partielle Inkompatibilität der beiden Kardinalkriterien“ O Häufigste Lösung: Testbatterie Es werden mehrere in sich homogene Tests zu einer Gesamttest zusammengestellt, der dann insgesamt heterogen ist (Bsp: mehrdimensionale IQ-Tests, zB WISC)
Was ist eine Itemanalyse? Die Itemanalyse untersucht die Eigenschaften der einzelnen Items eines Tests.
Linkssteil – eher schwer: nur wenige Menschen erzielen hohe Werte = Bodeneffekt (auch rechtsschief genannt) Rechtssteil – eher leicht: viele Menschen erzielen hohe Werte = Deckeneffekt (auch linksschief genannt)
Wie wird die Verteilungsform (Schiefe) berechnet? Sch = Was ist Sch < 0? Was ist Sch > 0? Was ist Sch = 0 ? M - Mo / S Mittelwert minus Modalwert durch Streuung Sch < 0 rechtssteile Verteilung (M < Mo) Sch > 0 linkssteile Verteilung (M > Mo) Sch = 0 symmetrische Verteilung
Was erkennt man anhand der Schiefe einer Verteilung? Anhand der Schiefe erhält man einen ersten Eindruck von der Schwierigkeit eines Items.
Was bedeutet die Verteilungsform Kurtosis? Kurtosis ist ein Maß für die Wölbung / Steilheit einer Verteilung. Sie gibt einen Hinweis darauf, wie unterschiedlich die Probanden antworten.
Was gibt die Verteilunsgform Exzess an? Der Exzess gibt an, wie schmalgipflig eine Verteilung ist verglichen mit der Normalverteilung: je größer, desto schmalgipfliger. Der Exzess wird also als Abweichung von der Wölbung der Normalverteilung angegeben:
Was bedeutet ein Exzess von 0? Eszess > 0? Exzess < 0? (Wie sieht die Verteilung dann aus?) Exzess = 0 normalgipflig Exzess > 0 steilgipflig (im Vergleich zur NV spitzere Vert.) Exzess < 0 flachgipflig
Wie wird eine Normalverteilung also eine Nullhypothese; Normalverteilung liegt vor, getestet? Über welchen test? Worauf hofft man? Wie muss die Wahrscheinlichkeit (p) sein um die Nullhypothese anzunehmen? Man hofft also auf Nicht-Signifikanz! Die Wahrscheinlichkeit, dass die Daten aus einer Normalverteilung stammen, wird über das Kolmogorov- Smirnov-Z bestimmt und gegen das gewählte Alpha-Niveau geprüft. Ist diese Wahrscheinlichkeit (p) kleiner als Alpha, ist die Nullhypothese zu verwerfen.
Was bedeutet eine Signifikanz des Kolmogorov-Smirnov-Tests? Eine Signifikanz des Kolmogorov-Smirnov-Tests bedeutet also, dass eine signifikante Abweichung der Verteilung von der Normalverteilung vorliegt.
Was bedeutet Schwierigkeit P eines Items? Die Schwierigkeit P einer Aufgabe ist gleich dem prozentualen Anteil richtiger Antworten für das Item i in einer Analysestichprobe von der Größe N. Problem: Was sind „richtige“ Antworten? Beispiel: „Erröten Sie leicht?“ – „ja – nein“
Auf einer Skala von 0 bis 4 (0 = keine Zustimmung) sollen 100 Probanden einschätzen, ob sie „grundsätzlich ein optimistischer Mensch“ sind. Es ergibt sich ein Mittelwert von 3,7. Dieses Item ist also eher ? Auf einer Skala von 0 bis 4 (0 = keine Zustimmung) sollen 100 Probanden einschätzen, ob sie „immer in jeder noch so schlimmen Lage das Positive entdecken können“. Es ergibt sich ein Mittelwert von 1,2. Dieses Item ist also eher ? Daher.....? „leicht“. „schwer“. Schwierigkeitsindex ist oft ein „Popularitätsindex“
Bei welchen Items spricht man von leichten Items und bei welchen Items spricht man von schwierigen Items? Items, die von allen oder fast allen Probanden gelöst/bejaht werden, gelten als „leicht“ = P ist hoch Items, die von keinem oder fast keinen Probanden gelöst/bejaht werden, gelten als „schwer“ = P ist gering P ist eigentlich ein „Leichtigkeitsindex“: hohes P („Prozentsatz“) steht für leichte Aufgabe
Welche Schwierigkeit ist „gut“? Was können mittlere Schwierigkeiten? Mittlere Schwierigkeiten (P-Werte ≈ 50) erhöhen die Wahrscheinlichkeit für hohe Streuungen der Itembeantwortung und damit eine gute Differenzierung zwischen den Probanden. Hohe Streuungen sind die Voraussetzung für hohe Korrelationen.
Welche Schwierigkeit ist „gut“? Was können extreme Schwierigkeiten? Wozu führen sie allerdings? Extreme Schwierigkeiten ermöglichen eine Differenzierung zwischen Personen in den Randbereichen (sehr geringe oder sehr hohe Merkmalsausprägung), führen aber meist zu reduzierter Homogenität und zu reduzierten Trennschärfen.
Die meisten Testkonstrukteure versuchen, möglichst viele ____________ zu generieren! Die meisten Tests differenzieren in den _________ der Merkmalsverteilung _________ mittelschwere Items Randbereichen nicht gut.
Definiton von trennschärfe? Trennschärfe, auch: Trennschärfeindex, Trennschärfekoeffizient = die Korrelation eines Items mit der Summe aller anderen Items; gibt an, wie gut ein einzelnes Item das Gesamtergebnis eines Tests repräsentiert.
Inhaltliche Definition der Trennschärfe? Die Trennschärfe drückt aus, wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, widerspiegelt, bzw. wie prototypisch das Item für „seine“ Skala ist. ⇒Die Trennschärfe gibt an, wie gut das Gesamtergebnis einer Skala allein aus der Beantwortung des Einzelitems vorhersagbar ist.
Trennschärfe Mathematisch: Eine Trennschärfe ist eine korrigierte Item-Test-Korrelation (part-whole Korrektur) einer Aufgabe mit einer Skala.
Was bedeutet eine Trennschärfe von 0 ? Trennschärfe von 0: Item wird von Probanden mit hoher Merkmalsausprägung genauso häufig „gelöst“ wie von Probanden mit geringer Merkmalsausprägung = unbrauchbar
Was bedeutet eine Trennschärfe von 1 ? Trennschärfe von +1: Item wird ausschließlich von Probanden mit hoher Merkmalsausprägung „gelöst“ = wünschenswert!
Eine ____ Trennschärfe bedeutet also, dass das Item schon für sich genommen ___ zwischen Probanden mit ___________ Merkmalsausprägung ______ kann. Eine hohe Trennschärfe bedeutet also, dass das Item schon für sich genommen gut zwischen Probanden mit unterschiedlicher Merkmalsausprägung differenzieren kann.
_____ part-whole-Korrektur kommt es zu einer _______ der Trennschärfe, da das betreffende Item _____ Bestandteil der ______ ist, mit der man es _____. Man rechnet mittels part-whole Korrekturen den______ des Einzelitems raus. Je größer die Itemanzahl einer Skala ist, desto _______ sind die Auswirkungen der Korrektur auf die Trennschärfe.., Je _______ eine Skala ist, desto ______ ändern sich die Trennschärfen durch eine part-whole- Korrektur. Ohne part-whole-Korrektur kommt es zu einer Überschätzung der Trennschärfe, da das betreffende Item selbst Bestandteil der Skala ist, mit der man es korreliert. Man rechnet mittels part-whole Korrekturen den Einfluss des Einzelitems raus. Je größer die Itemanzahl einer Skala ist, desto geringer sind die Auswirkungen der Korrektur auf die Trennschärfe.., Je homogener eine Skala ist, desto weniger ändern sich die Trennschärfen durch eine part-whole- Korrektur.
Einflussfaktoren auf die Trennschärfe Trennschärfen hängen von der Reliabilität der Skala ab. O Eine hohe Itemvarianz begünstigt eine hohe Trennschärfe, garantiert sie aber nicht. O Die Trennschärfe ist von der Schwierigkeit abhängig:
Warum hängen Trennschärfen von der Reliabilität ab? und wann können hohe Trennschärfen erzielt werden? Wenn eine Skala eine Eigenschaft nur sehr ungenau erfasst, können keine hohen Trennschärfen erwartet werden. Nur bei hohen Iteminterkorrelationen (Homogenität) können hohe Trennschärfen erzielt werden.
Empirisch zeigt sich eine umgekehrt ________Beziehung zwischen Schwierigkeit und ________wobei mit __________ Schwierigkeit die höchste Trennschärfe einhergeht. Die Höhe der Trennschärfe hängt ab von der _______ der möglichen interindividuellen _______________ die eine Aufgabe treffen kann. Diese Anzahl ist durch die ________bestimmt (siehe nächste Folie). Die ________ von Itemschwierigkeiten in einer Skala führt zu einer _______ der Interkorrelationen zwischen den Items, damit zu einer Abnahme der ________ und zu einer Abnahme der __________ der einzelnen Items. Empirisch zeigt sich eine umgekehrt u-förmige Beziehung zwischen Schwierigkeit und Trennschärfe, wobei mit mittlerer Schwierigkeit die höchste Trennschärfe einhergeht. Die Höhe der Trennschärfe hängt ab von der Anzahl der möglichen interindividuellen Differenzierungen, die eine Aufgabe treffen kann. Diese Anzahl ist durch die Schwierigkeit bestimmt (siehe nächste Folie). Die Variation von Itemschwierigkeiten in einer Skala führt zu einer Abnahme der Interkorrelationen zwischen den Items, damit zu einer Abnahme der Homogenität und zu einer Abnahme der Trennschärfe der einzelnen Items.
Beispiel für dichotome Items (richtig – falsch): O Wenn 50 von 100 Leuten ein Item richtig lösen, dann kann man anhand dieses Items jede der 50 Personen, die das Item gelöst haben, von jeder der 50 Personen, die das Item nicht gelöst haben, unterscheiden  Mit diesem Item können 50 · 50 = 2500 Unterscheidungen getroffen werden  das Item ist hoch _______ O Wenn nur 5 von 100 Leuten ein Item richtig lösen, dann sind nur noch 5 · 95 = 475 Unterscheidungen möglich  Item ist ___________________ Beispiel für dichotome Items (richtig – falsch): O Wenn 50 von 100 Leuten ein Item richtig lösen, dann kann man anhand dieses Items jede der 50 Personen, die das Item gelöst haben, von jeder der 50 Personen, die das Item nicht gelöst haben, unterscheiden  Mit diesem Item können 50 · 50 = 2500 Unterscheidungen getroffen werden  das Item ist hoch trennscharf. O Wenn nur 5 von 100 Leuten ein Item richtig lösen, dann sind nur noch 5 · 95 = 475 Unterscheidungen möglich, Item ist nicht sehr trennscharf.
Items einer mittleren Schwierigkeit haben also eine größere Chance ? als Items mit??? Was bedeutet mittlere Schwierigkeit aber nicht automtatisch? Items mit mittlerer Schwierigkeit haben eine größere Chance, hoch trennscharf zu sein, als Items mit hoher oder niedriger Schwierigkeit. Aber: mittlere Schwierigkeit bedeutet nicht automatisch hohe Trennschärfe
Kritik an KTT: Welche Kritik gibt es an den Axiomen? (2) Die Axiome der KTT sind empirisch nicht überprüfbar. „wahrer Wert“ und „Fehler“ sind theoretische Größen – vielleicht gibt es sie gar nicht!? Einige Axiome sind gegenintuitiv. O z.B. die Annahme einer Nullkorrelation zwischen dem wahren Wert und dem Fehlerwert: empirisch nicht prüfbar und nicht immer haltbar Beispiel: Messungen von Menschen mit extremen wahren Werten sind fehlerbehafteter  es kann keine Nullkorrelation geben
Was spricht gegen das Argument von der Kritik gegen die Axiome? O Axiome sind nie überprüfbar. O Auch die IRT macht unüberprüfbare Annahmen. O Die Annahme der Nullkorrelation zwischen wahrem Wert und Fehlerwert basiert auf der Annahme, dass der Fehler ausschließlich unsystematisch ist.
Kritik: Die Annahme, dass sich der wahre Wert einer Person nicht verändert, ist nur vertretbar innerhalb relativ kurzer Zeiträume und auch nur für bestimmte Merkmalsbereiche. Wieso? O Leistungs- und Persönlichkeitsmerkmale können sich verändern O beispielsweise mit dem Alter, durch Training, Psychotherapie o.ä. O ganz zu schweigen von tageszeit-, müdigkeitsund stimmungsabhängigen Variablen…
Kritik: Die allermeisten Berechnungen der KTT setzen voraus, dass die Datengrundlage Intervallskalenniveau hat. Was ist aber eigentlich der Fall? O Häufig liegt bei Tests nur Nominalskalenniveau vor. O Intervallskalenniveau ist nicht eindeutig prüfbar und daher bei vielen Tests fraglich.
Kritik: Die Parameter bzw. Gütekriterien der KTT sind populations- und stichprobenabhängig. Was ist damit gemeint? Die Stichprobe und deren Merkmale bestimmen in hohem Ausmaß die Gütekriterien. Besonders das Auftreten oder Fehlen extremer Werte hat einen erheblichen Einfluss auf korrelative Beziehungen. Dies macht die Generalisierbarkeit der Resultate problematisch. außerdem: die Bestimmung der Parameter ist durch viele verschiedene Verfahren möglich: Was ist denn nun wirklich „die“ Reliabilität?
Kritik: Die Fehlerschätzungen gelten hauptsächlich für eine „Metastichprobe“. Was bedeutet das? O In Wahrheit gibt es innerhalb größerer Stichproben aber immer Subgruppen mit unterschiedlicher Reliabilität und Validität, die meist nicht untersucht werden. O Je nach Gruppenzugehörigkeit einer Person wären für den Einzelfall ganz unterschiedliche Schätzungen von wahren und Prädiktionswerten vorzunehmen.
Beispiel von Grawe (1991): Echte und unechte Nullkorrelationen. Was ist die echte Nullkorrelation? Echte Nullkorrelation: Die untersuchten Merkmale haben auch in Teilgruppen nichts miteinander zu tun.
Beispiel von Grawe (1991): Echte und unechte Nullkorrelationen. Was ist die unechte Nullkorrelation? Unechte Nullkorrelation: Es gibt Gruppen von Personen, für die unterschiedliche Zusammenhänge zwischen zwei Variablen gelten. Die wechselseitige Überlagerung einer positiven und einer negativen Korrelation bei Subgruppen (hier: 3) ergibt eine Nullkorrelation.
Ab wann erlaubt ein Korrelationskoeffizient die Übertragung auf einen Einzelfall? Dennoch kann eine Nullkorrelation entstehen die gar keine ist wieso? Einzelfalldiagnostik: Ein Korrelationskoeffizient erlaubt nur dann eine Übertragbarkeit auf Einzelfälle, wenn die Korrelation r= ±1 beträgt, denn nur dann ist die Interpretation des Zusammenhangs zwischen zwei Variablen eindeutig. Eine Korrelation r = 0 hingegen erlaubt verschiedene Interpretation für das Zustandekommen: Eine wechselseitige Überlagerung positiver und negativer Korrelationen (unechte Nullkorrelation) oder einen rein zufälligen Zusammenhang zwischen Variablen (echte Nullkorrelation). Somit sagt ein an einer Gesamtgruppe ermittelter Koeffizient unterhalb der Extremwerte nichts über etwaige Subgruppen oder sogar Einzelfälle aus
Was bedeutet das jetzt? Jede Korrelation kleiner 1 kann aufgrund von Einflüssen von Substichproben zustande kommen. Was ist demnach unzulässig? jede Schlussfolgerung von gruppenbezogenen Aussagen (z.B. Reliabilität, Validität,…) auf den Einzelfall ist unzulässig!
Von Gruppenstatistiken kann grundsätzlich nicht auf den Einzelfall geschlossen werden, wenn die entsprechende Validität und/oder Reliabilität unter 1 liegt – also nie. Beispiel: nur bei einer perfekten Korrelation zwischen IQ und Mathenote (= kriterienbezogene Validität) führt ein IQ von 120 auf jeden Fall zu einer 1 in Mathe. O Perfekte Reliabilitäten/Validitäten gibt es nicht. Reliabilitäten /Validitäten < 1 sind lediglich Wahrscheinlichkeitsaussagen für eine Gruppe.
Kritik: Nach Rost (1996): Die TT beschäftigt sich mit dem _____________ von Testverhalten und dem zu erfassenden psychischen ___________ Diesen Zusammenhang thematisiert die ______nicht ausreichend! • betrifft das Hauptgütekriterium der Validität! • Aussagen zur Validität sind jedoch abhängig von den Validitätskriterien, der Validierungsmethode und - stichprobe. Die KTT ist eine _______________ keine _______________ Zusammenhang Merkmal KTT „Messfehlertheorie“, keine „Testtheorie“!
ABER: Die Erfahrung zeigt, dass auf Basis der _____ entwickelte Tests eine _______, objektive und _______ Beschreibung von intra- und ______________ Unterschieden erlauben. Entscheidungen auf Basis von Verfahren, deren _______ und psychometrische ___________ keinerlei wissenschaftlichen ___________ standhalten, können daher keine vernünftige Alternative sein. ABER: Die Erfahrung zeigt, dass auf Basis der KTT entwickelte Tests eine differenzierte, objektive und reliable Beschreibung von intra- und interindividuellen Unterschieden erlauben. Entscheidungen auf Basis von Verfahren, deren Konstruktion und psychometrische Gütekriterien keinerlei wissenschaftlichen Ansprüchen standhalten, können daher keine vernünftige Alternative sein.
Alternative IRT: Item-Response-Theorie: Was formuliert diese? Die IRT formuliert Modelle zu den Zusammenhängen zwischen Persönlichkeitsmerkmalen und Antworten in Tests (Item-Response-Theorie).
Ausgangsfrage: Welche ______________können auf interessierende Einstellungs- oder ________________ gezogen werden, wenn von den Probanden lediglich __________(responses) auf diverse Items vorliegen? ⇒ Item-Response-Theorie Diese Frage soll in der IRT mit Hilfe von bestimmten formalen mathematischen ___________beantwortet werden. Welche Rückschlüsse können auf interessierende Einstellungs- oder Fähigkeitsmerkmale gezogen werden, wenn von den Probanden lediglich Antworten (responses) auf diverse Items vorliegen? ⇒ Item-Response-Theorie Diese Frage soll in der IRT mit Hilfe von bestimmten formalen mathematischen Modellen beantwortet werden.
Was sind latente und manifeste Variablen wie sie in der IRT bezeichnet werden? Die uns verborgenen Persönlichkeitsmerkmale als latente Variablen bezeichnet. Sie sind per Definition nicht direkt erfassbar, sondern werden über beobachtbare Variablen erschlossen. Diese beobachtbaren Variablen heißen manifeste Variablen und ergeben sich aus dem Antwortverhalten des Probanden auf spezifische Testitems. Beispiel: Rechenfähigkeit = latente Variable Lösen bzw. Nichtlösen einer Aufgabe = manifeste Variable
Unterschied KTT vs. IRT bei Testwerterfassung? O Klassische Testtheorie (KTT): Bei der Testwertbildung wird die Antwort des Probanden auf die Items des Tests gleichgesetzt mit der Messung des im Test erfassten Konstrukts. O Item-Response-Theorie (IRT): Das im Test gezeigte Verhalten (also die Antworten auf die Items) werden auf ein Merkmal zurückgeführt, das das Testverhalten verursacht.
Vorteil der IRT? Oder wieso nennt man sie auch probalistische Testtheorie? Die IRT macht explizite Annahmen über die Zusammenhänge zwischen der latenten Variablen (= dem individuellen „wahren Wert“) und der Wkt. für das Auftreten bestimmter Antworten.
Wenn man davon ausgeht, dass eine latente Variable ein bestimmtes Antwortverhalten (also manifeste Variablen) verursacht, dann muss es zwingend zu....... hohen Korrelationen zwischen den manifesten Variablen kommen: Die latente Variable ξ (sprich: „ksi“) O verursacht Verhaltensvariation mehrerer manifester Variablen (Testitems) O und damit eine beobachtbare Korrelation zwischen den Testitems
Umkehrung dieses Gedankens: Wenn man von den ________Variablen auf eine dahinterliegende _________ Variable schließen will, dann müssen einige _________Variablen __________________ ________ Variablen sind jedoch nur die notwendige, nicht aber eine hinreichende Bedingung, um von _______ Variablen auf _______Variablen schließen zu dürfen! Umkehrung dieses Gedankens: Wenn man von den manifesten Variablen auf eine dahinterliegende latente Variable schließen will, dann müssen – als notwendige Bedingung – einige manifeste Variablen korrelieren. Korrelierende Variablen sind jedoch nur die notwendige, nicht aber eine hinreichende Bedingung, um von manifesten Variablen auf latente Variablen schließen zu dürfen!
Beispiel: Man geht davon aus, dass eine hohe allgemeine Intelligenz (latente Variable ξ) zu _____ Ausprägungen auf allen Subskalen des WISC (manifeste Variablen) und eine _____ Intelligenz zu ________ Ausprägungen führt. Die Subskalen des WISC korrelieren dann _____ miteinander (notwendige Bedingung). Umgekehrt bedeutet eine _____ Korrelation zwischen den Subskalen des WISC aber noch nicht, dass tatsächlich Intelligenz gemessen wurde. Eine hohe Korrelation ist zwar eine notwendige, aber keineswegs eine hinreichende Bedingung dafür, dass Intelligenz die______ für die _____ist. Beispiel: Man geht davon aus, dass eine hohe allgemeine Intelligenz (latente Variable ξ) zu hohen Ausprägungen auf allen Subskalen des WISC (manifeste Variablen) und eine niedrige Intelligenz zu geringen Ausprägungen führt. Die Subskalen des WISC korrelieren dann hoch miteinander (notwendige Bedingung). Umgekehrt bedeutet eine hohe Korrelation zwischen den Subskalen des WISC aber noch nicht, dass tatsächlich Intelligenz gemessen wurde. Eine hohe Korrelation ist zwar eine notwendige, aber keineswegs eine hinreichende Bedingung dafür, dass Intelligenz die Ursache für die Korrelation ist.
Aber wann kann man nun eine latente Variable als ursächlich ansehen? IRT: Wenn die manifesten Variablen Indikatoren der latenten Variable sind.
Wann ist dies der Fall? IRT: Wenn Itemhomogenität vorliegt.
Und wann kann man von Itemhomogenität ausgehen? IRT: Items sind homogen bezüglich latenter Variablen, wenn das Kriterium der lokalen stochastischen Unabhängigkeit vorliegt.
Wann liegt lokale stochastische Unabhängigkeit vor? Hält man die latente Variable auf einem bestimmten Wert oder einer Stufe ξv konstant, dann verschwinden die Korrelationen zwischen den manifesten Variablen.
Lokale stochastische Unabhängigkeit Wie kann man das prüfen? 1. Die latente Variable wird auf einem bestimmten Wert ξv konstant gehalten. 2. Es werden die Korrelationen der Antwortvariablen an den Personen mit dieser Ausprägung in der latenten Variable ξv berechnet. 3. Liegt Itemhomogenität vor, finden sich keine signifikanten Korrelationen zwischen den Antwortvariablen.
am Beispiel: Es wird eine Stichprobe von Personen gewählt, die hinsichtlich der latente Variable „Depressivität“ alle die gleiche Ausprägung aufweisen („lokal“). Betrachtet wird das Antwortverhalten auf zwei beliebige Items aus einem Depressionsfragebogen. O Wenn die Items homogen sind, also nur der systematische Einfluss der latenten Variable wirkt, müssten diese Personen alle (theoretisch) exakt die gleichen Werte auf den beiden Items erreichen (zB Item 1: 3; Item 2: 5). Selbst bei zusätzlichen unsystematischen Messfehlern ergäbe sich so eine Nullkorrelation der Items (stochastische Unabhängigkeit). O Wäre die Korrelation von Null verschieden, wären die Items bzgl. des Merkmals nicht homogen, die Items würden also neben der einen latenten Variable noch etwas anderes messen.
Lokale stochastische Unabhängigkeit O Über eine unausgelesene Stichprobe besteht zwar eine ____ Korrelation im Antwortverhalten auf die Items, aber diese ist „lokal“ nicht mehr _____ weil die Ursache (lat. Variable) für diese Korrelation nicht ______ O Tritt dieses Phänomen auf, nennt man die Items _____ und bezeichnet sie als Indikatoren für die _____ Variable. hohe Korrelation im erkennbar, nicht variiert. homogen latente Variable.
Zentrale Idee der IRT: Lokale stochastische Unabhängigkeit. Was bedeutet diese noch einmal? Lokale stochastische Unabhängigkeit bedeutet, dass die Wahrscheinlichkeit, ein bestimmtes Item (Aufgabe in einem Test) zu lösen unabhängig davon sein soll, vorher irgendein anderes Item gelöst oder nicht gelöst zu haben. Es geht also darum, dass die Wahrscheinlichkeit, ein Item zu lösen nur von den bekannten Personenparametern (der Fähigkeit der Person) und einem Itemparameter (der Schwierigkeit des Items) abhängen soll.
Lokale stochastische Unabhängigkeit (LSU) Wie überprüft man nun, ob LSU vorliegt? Zwei Wege: 1. Man schaut, ob die Korrelationen verschwinden, wenn die latente Variable konstant gehalten wird. 2. Man nutzt das Multiplikationstheorem für unabhängige Ereignisse.
Multiplikationstheorem für unabhängige Ereignisse: Die __________für das gemeinsame Auftreten zweier Ereignisse entspricht dem ______ihrer _______________ (Bortz, 1993) Die Wahrscheinlichkeit für das gemeinsame Auftreten zweier Ereignisse entspricht dem Produkt ihrer Einzelwahrscheinlichkeiten. (Bortz, 1993)
Multiplikationstheorem für unabhängige Ereignisse in anderen Worten: Die Wahrscheinlichkeit, dass Item a und Item b beide positiv angekreuzt werden (unter der Bedingung, dass das latente Merkmal ursächlich anzusehen ist), ergibt sich aus der Multiplikation der Randwahrscheinlichkeiten, dass je eins positiv angekreuzt wird.
Welche Tes-Modelle bietet die IRT? L-C-M L-T-M O Latent-Class-Modelle (LCM): verwenden kategoriale latente Klassen zur Charakterisierung von Personenunterschieden. O Latent-Trait-Modelle (LTM): verwenden quantitative kontinuierliche latente Variablen.
Was hat das Latent-Trait Modell für eine Annahme? Latent-trait-Modelle, auch: probabilistische Modelle, Testmodelle, die von der Annahme ausgehen, daß vom beobachteten Verhalten einer Person nur mit einer gewissen Wahrscheinlichkeit (Probabilität) auf die zugrundeliegenden, selbst nicht beobachtbaren, interessierenden Merkmale (Fähigkeiten, Persönlichkeitseigenschaften) geschlossen werden kann. Bekanntestes ist das Raschmodell
Latent-Trait-Modelle Welche 3 Modellparameter gibt es? Itemparameter σi („sigma“): Itemdiskriminationsparameter λi („lambda“): Personenparameter ξv („ksi“): „
Itemparameter σi („sigma“): Schwierigkeit oder Anforderung eines Items i hinsichtlich der latenten Eigenschaft
Itemdiskriminationsparameter λi („lambda“): Trennschärfe eines Items i
Personenparameter ξv („ksi“): Fähigkeit eines Probanden v hinsichtlich der latenten Eigenschaft (auch als θ („theta“) bezeichnet)
In allen Latent-Trait-Modellen werden Itemcharakteristische Funktionen (ICF) angenommen. Was definieren sie? Diese definieren den numerischen Zusammenhang zwischen den Parametern über mathematische Gleichungen. Man unterscheidet hierbei grundsätzlich zwischen deterministischen und probabilistischen Modellen
Deterministische Modelle: Das Antwortverhalten wird durch die Item- und Personenparameter vollständig bestimmt/determiniert
Probabilistische Modelle: Zwischen dem Antwortverhalten des Probanden und den Personen- und Itemparametern besteht eine stochastische/Wahrscheinlichkeits-Beziehung.
Deterministische Modelle: Das Antwortverhalten ist vollständig durch die Item- und Personenparameter bestimmt. Ein Beispiel für ein solches deterministisches Modell ist das....? Skalogramm- bzw. Guttman-Modell (Guttman, 1950). Annahme: Für jedes dichotom beantwortete Item gibt es einen Wert auf der ξ- Skala, ab dem es gelöst wird. „Treppenfunktion“
Probleme mit dem Skalogramm-/ Guttman-Modell: Zuviele _______________ bei der Beantwortung der Items (= leichtes Items falsch, aber schwereres Item richtig beantwortet) sprechen gegen die __________ und damit gegen die Annahme der _____________. Das deterministische Guttman-Modell ist in der Regel viel zu _____. Man findet nur selten Daten, die diesen Anforderungen ______. Die meisten IRT-Modelle arbeiten deshalb mit __________ IC-Funktionen, d.h. mit Antwortwahrscheinlichkeiten zwischen null und eins. Zuviele Rangvertauschungen bei der Beantwortung der Items (= leichtes Items falsch, aber schwereres Item richtig beantwortet) sprechen gegen die Modellkonformität und damit gegen die Annahme der Itemhomogenität. Das deterministische Guttman-Modell ist in der Regel viel zu streng. Man findet nur selten Daten, die diesen Anforderungen genügen. Die meisten IRT-Modelle arbeiten deshalb mit probabilistischen IC-Funktionen, d.h. mit Antwortwahrscheinlichkeiten zwischen null und eins.
Probabilistische Modelle Zwischen dem Antwortverhalten des Probanden und den Personen- und Itemparametern besteht eine stochastische Beziehung. Drei bekannte Modelle: 1. Lord & Novick (1968): Normal-Ogiven-Modell (= Summenfunktion der Normalverteilung) 2. Birnbaum (1968): Logistische Funktion 3. Rasch (1960): Logistische Funktion
Das Birnbaum-Modell Das Birnbaum-Modell enthält die drei schon bekannten Parameter: 1. Personenparameter ξ oder θ 2. Schwierigkeitsparameter σ 3. Diskriminationsparameter λ
Personenparameter ξ oder θ Jeder Person wird eine individuelle Ausprägung des latenten Merkmals zugeordnet
Schwierigkeitsparameter σ (Lokation des Items) Jedes Item hat eine Schwierigkeit:
Diskriminationsparameter λ Jedem Item wird ein Diskriminationsparameter λ zu geordnet (Trennschärfe – Steigung der ICF)
Das dichotome Raschmodell enthält nur zwei Parameter: 1. Jeder Person wird eine individuelle Ausprägung des latenten Merkmals zugeordnet: Personenparameter ξ oder Θ 2. Jedes Item hat eine Schwierigkeit: Schwierigkeitsparameter σ
Wie viele Itemparameter hat das Raschmodell? Wie heißt er? Was bedeutet das für die Steigung und Trennschärfe der Items? Wie müssten die Graphen der Itemfunktionen verlaufen? Wie sind die Items wenn sie sich lediglich in ihrer Schwierigkeit unterscheiden? Das Rasch Modell hat also nur einen Itemparameter, nämlich den Schwierigkeitsparameter σ. Dies bedeutet, dass unter Gültigkeit des Rasch-Modells alle Itemfunktionen die gleiche Steigung/Trennschärfe haben und somit parallel entlang der x-Achse verschoben sind. Unterscheiden sich Items lediglich in ihrer Schwierigkeit, wird von Rasch-homogenen Items gesprochen.
Unterschied Rasch und Birnenbaum: Dichotomes Rasch-Modell: λ wird konstant gehalten auf _. Birnbaum-Modell: Verschiedene ________ für die Items durch unterschiedliche λ möglich. Rasch-Modelle sind eine ganze Gruppe von Latent-Trait- Modellen (nicht nur dichotom) und haben eine Reihe von Vorteilen: 1. LSU 2. erschöpfende _____ 3. Stichprobenunabhängigkeit der ______________________ 4. Spezifische ________ der Vergleiche Unterschied Rasch und Birnenbaum: Dichotomes Rasch-Modell: λ wird konstant gehalten auf 1 Birnbaum-Modell: Verschiedene Steigungen für die Items durch unterschiedliche λ möglich. Rasch-Modelle sind eine ganze Gruppe von Latent-Trait- Modellen (nicht nur dichotom) und haben eine Reihe von Vorteilen: 1. LSU 2. erschöpfende Statistiken 3. Stichprobenunabhängigkeit der Parameterschätzungen 4. Spezifische Objektivität der Vergleiche
Was ist lokale stochastische Unabhängigkeit? Gilt die Voraussetzung der lokalen stochastischen Unabhängigkeit, so verschwinden vorherige Korrelationen zwischen manifesten Variablen, wenn man die Ausprägung der latenten Variable in der Stichprobe konstant hält.
Was versteht man unter Rasch-homogenen Items? Items, die alle dieselbe latente Variable erfassen und sich lediglich in ihrer Schwierigkeit unterscheiden. Für sie können die IC-Funktionen als einzelne Funktionen auf einer gemeinsamen Skala (joint scale) dargestellt werden.
Wie werden grundsätzlich Modellparameter für eine Modellprüfung geschätzt? Modellparameter werden, aus dem empirischen Datensatz geschätzt und anschließend geprüft , wie wahrscheinlich die empirische Datenstruktur ist, wenn genau diese Modellparameter angenommen werden (Parameterschätzung).
Wonach erfolgt die Schätzung im Rasch-Modell ? (Personen- und Aufgabenparameter) nach dem Maximum-Likelihood-Prinzip
Parameterschätzung: Wie berechnet man θv (ξv) und σi? Die Likelihoodfunktion (LF) beschreibt die Wahrscheinlichkeit der beobachteten Daten in Abhängigkeit von den geschätzten Modellparametern, unter der Annahme, dass das Modell gilt. Je höher der Wert der Likelihoodfunktion, desto besser passt das Modell auf die Daten.
Erschöpfende Statistiken: Durch Umformung der Likelihoodfunktion kann gezeigt werden: , dass die Eigenschaften des Rasch-Modells eine Schätzung der Personen- und Itemparameter allein auf der Basis der Zeilen- oder Spaltensummen erlauben. Diese Randsummen sind suffiziente Statistiken, d.h. sie schöpfen die in den Daten enthaltene Information vollständig aus.
Erschöpfende Statistik: Bei _________________ hängt also die Wahrscheinlichkeit der Daten nicht davon ab, welche Items von welchen Personen gelöst wurden, entscheidend ist nur die ______ . Die Schwierigkeit eines Items ist nur davon abhängig, von wie vielen Personen es gelöst wurde aber nicht von welchen Personen (mit hoher oder geringer Fähigkeit). Die Fähigkeit einer Person ist nur davon abhängig, wie viele Items sie gelöst hat aber nicht welche Items (leichte oder schwere). = implizite, nicht geprüfte Annahme der KTT! Modellkonformität Anzahl
Vorteile von Rasch-Modellen 1. Lok. 2. Ersch 3. Stich. 4. Spez 1. Lokale stochastische Unabhängigkeit 2. erschöpfende Statistiken 3. Stichprobenunabhängigkeit der Parameterschätzungen 4. Spezifische Objektivität der Vergleiche
Stichprobenunabhängigkeit der (Item-)Parameterschätzung: In der Praxis werden die Parameter mit Hilfe der C-M-L-M________________________ geschätzt. Dabei können die Itemparameter nämlich ohne Berücksichtigung der _________________________ geschätzt werden. ksi entfällt also aus Formel. Conditional-Maximum-Likelihood-Methode Personenparameter
Was überprüft die Conditional-Maximum-Likelihood-Methode Die CML-Methode prüft die Wahrscheinlichkeit der Daten bei den gegebenen Zeilenrandsummen / Summenscores. Im Anschluss werden dann die Personenparameter bestimmt. Man spricht von der Separierbarkeit der Parameter.
Stichprobenunabhängigkeit der (Item-)Parameterschätzung: Was ermöglicht die Kalibrierung von Items an repräsentativen Stichproben? Dass die Itemparameter geschätzt werden können ohne dass man die Personenparameter berücksichtig.
Was ist der Vorteil der Kalibrierung von Items? Dass die Itemparameter für andere Studien bereits bekannt sind. DIe Separierbarkeit der Parameter wird auch als Stichprobenunabhängigkeit bezeichnet. SIe ermöglicht es die spez. Objektivität zu vergleichen.
Spezifische Objektivität Itemschwierigkeit Gleiche Trennschärfe ermöglicht die spezifische Objektivität der Vergleiche hinsichtlich der Itemschwierigkeit: Der Schwierigkeitsunterschied zwischen zwei Items ist unabhängig davon feststellbar, ob Personen mit hoher oder niedriger Fähigkeit untersucht worden sind. und auch unabhängig davon welche items ausgewählt worden sind.
Spezifische Objektivität Personenfähigkeit: Auch Vergleiche zwischen Peronen sind spezifisch objektiv denn, ....................? Die Unterschiede zwischen den Personenparametern können unabhängig von der Schwierigkeit der verwendeten Items festgestellt werden.
Wie entscheide ich nun, ob das Rasch-Modell auf meine Daten passt und damit die vielen gewünschten Eigenschaften aufweist? Modellgeltungstests: Dafür teilt man die Gesamtprobandenstichprobe einfach nach einem Kriterium in zwei Substichproben. z.B Kinder aus Deutschland und Österreich Für jede der Substichproben nimmt man getrennte Itemparameterschätzungen vor. Dadurch erhält man für jedes Item zwei Werte für σ. Diese sollten bei Modellkonformität möglichst nicht voneinander abweichen bzw. nur zufällig variieren.
Was ist der grafische Modelltest? Was wird dabei im Streudiagramm gegeneinander abgetragen? Was ist wenn die Itemparameter an der Hauptdiagonalen sehr nah liegen? Was ist wenn es systematische Abweichungen von der Hauptdiagonalen gibt? Die beiden Itemparameterschätzungen werden in einem Streudiagramm gegeneinander abgetragen. Je näher die Itemparameter an der Hauptdiagonalen zu liegen kommen, desto größer ist die Stichprobenunabhängigkeit und desto eindeutiger die Rasch-Homogenität. Systematische Abweichungen von der Hauptdiagonalen sprechen dafür, dass modellinkonforme Wechselwirkungen zwischen der Itemschwierigkeit und dem Kriterium, nach dem man die Stichprobe aufgeteilt hat, aufgetreten sind.
Wenn man die Modellkonformität numerisch erfassen möchte kann man den L-Q-T.____________________________ Testt von Andersen machen. Dieser prüft, ob ? Likelihood-Quotienten-Test von Andersen. Dieser prüft, ob sich die Parameterschätzungen von Substichproben signifikant unterscheiden. Das Beibehalten der Nullhypothese (= Test wird nicht signifikant) spricht für Modellkonformität. Wenn nur bei einzelnen Items signifikante Differenzen auftreten, kann man diese entfernen (= Itemselektion).
Was besagt die Iteminformationsfunktion? Es tragen nur solche Items, wesentlich zur Informationsgewinnung über die Merksmalsausprägung einer Person bei, deren Schwierigkeit mit der Fähigkeit des Probanden hinreichend übereinstimmt.
Was folgt aus der Iteminformationsfunktion und ist gleichzeitig die Idee des adaptivemn Testens ? Daraus folgt: alle Items, die für den Probanden zu leicht oder zu schwer sind, nur wenig Information über die Fähigkeit des Probanden liefern - könnten daher schlicht weggelassen werden. = Idee des adaptiven Testens
Was versteht man unter adaptiver Testung? spezielles Vorgehen bei der Messung individueller Ausprägungen von Persönlichkeitsmerkmalen, bei dem sich die Auswahl der Items am Antwortverhalten des untersuchten Probanden orientiert.
Beim adaptiven Testen wird aus einem rasch-homogenen Itempool nur welche Items vorgegeben? die zur Fähigkeit der Person passen. Die Fähigkeit (Personenparameter) wird immer wieder anhand des vorhergehenden Antwortverhalten geschätzt und entsprechend passende Items ausgewählt.
Was sind die Vorteile des adpativen Testen? Steigerung der Messeffizienz positive Wirkung auf Validität
Was sind die Nachteile des adpativen Testens? +Entw. Sehr aufwendig Erstellung und Kalibrierung eines großen Itemspools und Entwicklung eines adaptiven Testalgorithmus
Vergleich KTT – IRT Zusammenhang zwischen Messwert und Merkmal: d p KTT: deterministisch: Der Testwert einer Vp wird als Realisation einer Zufallsvariablen mit dem „wahren Wert“ als Erwartungswert des Merkmals betrachtet. IRT: (überwiegend) probabilistisch: Aussagen über die Wahrscheinlichkeit eines Testwertes bei einer gegebenen Merkmalsausprägung in Abhängigkeit von der Itemschwierigkeit.
Latent-Trait Modelle: Was ist die latente Variable? Was hängt von ihr ab? Wie wird die Beziehung zwischen manifesten Antworten und der Ausprägung der latenten Variablen beschrieben? Die latente Variable ist ein nicht begrenzte, stetig veränderliche Variable, von deren Ausprägung die Wahrscheinlichkeit eines manifesten Verhaltens der getesteten Person abhängt. Trait als Erklärung für Verhaltensunterschiede.. Die Beziehung zwischen den manifesten Antworten und der Ausprägung der latenten Variablen wird als Itemcharakteristische Funktion beschrieben.
Warum werden Schwierigkeit und Fähigkeit auf gemeinsamer Skala gemessen? Die Schwierigkeit definiert die Beziehung von Lösungswahrscheinlichkeit und Personenparameter. Als Konvention definiert der Abszissenwert der Lösungswahrscheinlichkeit 0,5 die Lage des Items und somit seine Schwierigkeit.
Wie sieht eine Itemcharakeristische FUnktion aus? Wo liest man die Schwierigkeit der Funktion ab?
Was zeigt innerhalb der ICF die Trennschärfe?
Show full summary Hide full summary

Similar

Hauptgütekriterien
Dynah
Modelle aus der KTT zur Reliabilität
Dynah
Erstellung eines Testentwurfs
Dynah
Vorlesung 5
christina1988
All the Countries of the World and their Capital Cities
PatrickNoonan
Statistics Equations & Graphs
Andrea Leyden
Psychology flashcards memory
eharveyhudl
GCSE AQA Chemistry Atomic Structure and Bonding
mustafizk
Physics 1A - Energy
Zaki Rizvi
2_PSBD HIDDEN QUS By amajad ali
Ps Test
Salesforce Admin 201 Exam Chunk 3 (66-90)
Brianne Wright