| Question | Answer |
| Ziel der deskriptiven und explorativen Datenanalyse | wichtigste Aussagen der Rohdaten beschreiben und grafisch darstellen |
| Schritte der statistischen Auswertung | - deskriptive Statistik - explorative Statistik - Inferenzstatistik |
| deskriptive Statistik | = alle Methoden zur zusammenfassenden Darstellung und Beschreibung von empirischen Daten - dazu dienen Kennwerte, Grafiken und Tabellen |
| explorative Statistik | = Durchsuchen der Daten nach bestimmten Mustern oder Zusammenhängen - bietet sich für komplexe Daten an |
| statistische Kennwerte | = grundlegendste & häufigste Möglichkeit zur Beschreibung von Daten - Anteile - Häufigkeiten - Lagemaße - Streuungsmaße |
| demografischen Daten | wird in fast allen Studien erfragt, z.B. Alter, Geschlecht, Familienstand... |
| Anteile und Häufigkeiten | = Daten in Nominalskala werden in Kategorien dargestellt (z.B. männlich, weiblich) --> dadurch entsteht die Häufigkeit (z.B. 30 von 50 etc.) Häufigkeit = nominal; Anteil = prozentual |
| Ratings | = differenzierte Darstellung der Kategorien (Intervallskala) = Erstellen von Reihenfolge der Werte |
| mögliche Darstellung von Anteilen und Häufigkeiten | - Zahlenwerte - Tabellen - Abbildungen (Diagramme) |
| N (kursiv) | Anzahl von Personen, die an der Studie teilgenommen haben / Stichprobengröße |
| Merkmalachse | X-Achse bei der Darstellung von Häufigkeitsverteilungen - dort steht das gemessene Merkmal = kategoriale Variable, gemessen auf Nominalskala |
| Häufigkeitsverteilungen | = Darstellung der Anzahl / Anteil von Personen, die bestimmten Messwert erzielt haben |
| Charakterisierung der Häufigkeitsverteilung | - Lagemaß (Mittelwert alleine ist nicht aussagekräftig genug!) - Streuungsmaß |
| Lage der Verteilung | = Wert, um den sich die Verteilung konzentriert |
| Kennwerte für die Lage der Verteilung | = Lagemaße, stehen für Häufigkeitsverteilung - abhängig vom Skalenniveau: - Modalwert - Median Mittelwert |
| Modalwert / Modus einer Verteilung | = häufigste Merkmalsausprägung |
| Median | = welcher Wert liegt in der Mitte (Anzahl der Werten!) der Verteilung - robust gegenüber Ausreißern - erst ab Ordinalskala möglich - häufige Anwendung bei explorativer Datenanalyse |
| Modalwert ist nicht gleich Median | bei einer unsymmetrische Häufigkeits-verteilung |
| Mittelwert | - wird auf eine Nachkommastelle gerundet - häufigstes Lagemaß - Ausreißer beeinflussen M - notwendig für weitere statistische Berechnungen - steht stellvertretend für Verteilung |
| x (kursiv) | einzelner Messwert |
| i (kursiv) | Index |
| Unterschied der grafischen Darstellung des Mittelwerts vs. Häufigkeitsverteilung | Bei grafischer Darstellung des Mittelwertes: - Merkmal auf Y-Achse - Keine Häufigkeitsverteilung / Personen --> Mittelwerte entstehen aus Häufigkeitsverteilungen |
| Mittelwerte auf Ordinalskala | sollte vermieden werden. Differenz zwischen Stufen der Ordinalskala ist nicht ersichtlich, deswegen ist Mittelwert nicht dafür geeignet |
| Lagemaße bei unterschiedlichen Skalenniveaus | |
| Streuungsmaße | - Spannweite (Range) - Interquartilsabstand - Varianz - Standardabweichung - |
| Spannweite | = Differenz zwischen größten und kleinsten gewählten Wert der Daten - schlechte Differenzierung zwischen unterschiedlichen Verteilungen - anfällig gegenüber Ausreißern - seltene Anwendung |
| Interquartilsabstand | FOST S. 20 |
| Varianz (s²) | = durchschnittliche quadrierte Abweichung aller Werte vom gemeinsamen Mittelwert |
| Standardabweichung (s oder SD) | = Wurzel aus Varianz |
| bestes Streuungsmaß um die durchschnittliche Abweichung vom Mittelwert zu bestimmen | Varianz und Standardabweichung (sehr genaue Differenzierung zwischen den unterschiedlichen Verteilungen) |
| Kennwerte | = Angaben über Stichproben (z.B. Mittelwerte, SD) - lateinische Buchstaben |
| Parameter | = Angaben über Populationen - Schätzwerte - griechische Buchstaben |
| Varianzaufklärung | = wichtigstes Ziel der Statistik = welchen Anteil der Varianz der AV kann die UV aufklären |
| Fehlervarianz | = Teil der Varianz, der aufgrund der natürlichen Streuung entsteht |
| durch UV hervorgerufene Varianz | = Effekt der UV = sollte möglichst groß |
| Gesetz der großen Zahlen (Jakob Bernoulli) | = Je größer die Stichprobe desto eher entspricht die Häufigkeitsverteilung der Populationsverteilung --> wir vertrauen großen Stichproben mehr als kleinen (ab 30 Personen zuverlässige Werte) |
| unsichtbare Populationsverteilung | die Populationsverteilung ist unbekannt, deswegen: große Stichprobe --> Schätzung der entsprechenden Werte in der Population |
| Formen der Verteilung | - symmetrische Verteilung - schiefe Verteilung -unimodale Verteilung - bimodale Verteilung |
| schiefe Verteilung | = Verteilung ist in eine Richtung eingeschränkt -> z.B. Deckeneffekt (weiter nach oben ist nicht möglich) --> Mittelwert ist ebenfalls verzerrt |
| unimodale Verteilung | = ein "Gipfel"/Hochwert in der Verteilung |
| bimodale Verteilung | = Variable hat zwei Merkmalsausprägungen (Gipfel/Höchstwerte) --> Mittelwert wenig informativ |
| Normalverteilung | = symmetrische und unimodale Verteilung in einer Glockenform (Gauss'sche Glockenform) |
| Vorteil der Normalverteilung | + Wissen: Merkmale sind normalverteilt --> Form der Verteilung klar --> nur noch Mittelwert und Streuung notwendig ABER: immer Normalverteilung prüfen! |
| z-Transformation / z-Standardisierung | = unterschiedliche Skalen auf eine Skala transformieren und so umrechnen und vergleichbar machen |
| Besondere an z-Transformation | = standardisierte Skala Mittelwert = 0 SD = 1 muss für jeden Wert einzeln berechnet werden |
| z-Verteilung / Standardnormalverteilung | = stellt dar wie viel Prozent über / unter dem Mittelwert sind |
| grafische Datenanalyse bei der explorativen Datenanalyse | - Boxplot - Stamm- & Blatt-Diagramm - Streudiagramm (Scatterplot) - Sonnenblumendiagramm - Bubble Plot - Streudiagrammmatrix (Scatterplotmatrix) |
| Boxplot | = grafische Darstellung des Median (Strich im Kasten) und Interquartilsabstand (graue Box) |
| Informationen, die man aus der Boxplot zieht | - Median -> deutet auch die Verteilung an - Interquartilsabstand - Ausreißer (mit Stern und Nummer versehen) - Whiskers |
| Whiskers (Barthaare) | = kleinen Querstriche oben und unten des Boxplot Interquartilsabstand * 1,5 (oben und unten der Boxplot) Nur die Werte die außerhalb den Whiskers sind, sind Ausreißer |
| Vorteile von Boxplot | + unverzerrte Darstellung der Rohdaten + Ausreißer identifizieren --> werden meist aus Daten entfernt |
| Stamm- und Blatt-Diagramm (Stem & Leaf Plot) | kein Informationsverlust; jede Zahl bei Leaf = 1 Person * zwischen 0-4 und . 5-9 -> liegt aber im eigenen Ermessen |
| Streudiagramm (Scatterplot) | Darstellung von zwei Variablen in einem Diagramm; 1 Person = 1 Punkt |
| Sonnenblummendiagramm | übereinstimmende Daten werden als Sonnenblumen dargestellt; ansonsten wären identische Werte nicht ersichtlich |
| Bubble-Plot | 3 Variablen, dritte wird in der Größe des Punktes dargestellt |
| Streudiagramm-Matrix (Scatterplot-Matrix) | Darstellung mehrerer Variablen durch jeweilige Streudiagramme von 2 Variablen |
| (bivariaten) Korrelation | = Ausmaß des linearen Zusammenhangs zweier Variablen |
| positiv korrelierte Daten | linearer Zusammenhang aber perfekte Datenzusammen-hänge kommen in der Forschung eher nicht vor |
| negativ korrelierte Daten | linearer Zusammenhang aber perfekte Datenzusammen-hänge kommen in der Forschung eher nicht vor |
| unkorrelierende Daten | Es besteht kein Zusammenhang |
| nicht lineare Zusammenhänge | - werden nicht weiter berechnet - kurvilinearen Zusammenhänge sind nicht selten |
| Kovarianz | = zwei Variablen sind in der Ausprägung abhängig voneinander - gleiche Skala notwendig --> unterschiedliche Skala: Korrelation |
| Korrelationskoeffizient | Kovarianz unabhängig der Skala zu machen Anwendung der Streuung --> Kovarianz / Streuung beider Variablen = Korrelation (r) (Werte zwischen -1 und 1) |
| Regression | = Vorhersageanalyse - nutzt Korrelation, um Werte der Variable1 (Kriterium) aus den Werten der Variable 2 (Prädiktor) hervorzusagen |
| Korrelationskoeffizient | = Varianzaufklärung Alle Werte auf einer Geraden -> beide Variablen voneinander abhängig |
| Gründe für keine vollständige Gesamtvarianz | - Messfehler - Varianz korreliert nicht nur mit einer Variable sondern mit mehreren |
| Interpretation von Korrelation nach Cohen (Faustregel) | |
| Voraussetzungen für Korrelationsberechnung | - intervallskalierte Daten oder dichotome Variablen - linearer Zusammenhang (Streudiagramm nutzen!) |
| Korrelation vs. Kausalität | Korrelation lässt keine Rückschlüsse auf inhaltliche Kausalität zu |
| mögliche Zusammenhänge zwischen Variablen | - X ruft Y hervor - Y ruft X hervor - Zusammenhang zwischen X und Y wird durch Z bedingt (=Scheinkorrelation) |
| Wichtigkeit von Experimenten für die Forschung | = aus experimentell gewonnene Daten berechnete Korrelation lassen Kausalschlüsse zu |
| dichotome Variablen | = Variable hat zwei Ausprägungen |
| Regressionsgerade | Bestimmung der Gerade: - Gerade beliebig in Punktewolke legen - Abweichungsquadrat bestimmen (Abstand der Punkte zur Geraden vertikal messen & quadrieren) - Quadratsumme bilden (Abweichungsquadrat aller Punkte) - Gerade anpassen bis die Quadratsumme so gering wie möglich ist |
| Vorhersagefehler / Residuum / Residualwert | = Differenz zwischen Schätzung und wahrem Wert in der Population; = Abweichungen auf Y von der Regressionsgerade --> ist nicht erklärbar --> Y-Wert ist nur eine Schätzung! |
| Anwendungsfelder der Regression | - konkrete Werte eine Variable vorherzusagen - Enge des Zusammenhangs & Güte der Vorhersage |
| Determinationskoeffizient r² | = Ausmaß der Varianzerklärung von Variable Y zu Variable X = Korrelationskoeffizient ² |
| einfache lineare Regression | = schätzt den Wert einer Person mithilfe der Ausprägung einer Prädiktorvariable auf einer Kriteriumsvariable - beruhen auf bivariater Korrelation |
| Werte der Regression | - β (Beta-Gewicht) = r (bei bivariater Korrelation) - r² (Determinations-Koeffizient) |
Want to create your own Flashcards for free with GoConqr? Learn more.