FOST 2 Deskriptive und explorative Datenanalyse

Description

FOST (FOST 1 -4) Flashcards on FOST 2 Deskriptive und explorative Datenanalyse, created by Kathy H on 02/08/2016.
Kathy H
Flashcards by Kathy H, updated more than 1 year ago
Kathy H
Created by Kathy H over 7 years ago
331
52

Resource summary

Question Answer
Ziel der deskriptiven und explorativen Datenanalyse wichtigste Aussagen der Rohdaten beschreiben und grafisch darstellen
Schritte der statistischen Auswertung - deskriptive Statistik - explorative Statistik - Inferenzstatistik
deskriptive Statistik = alle Methoden zur zusammenfassenden Darstellung und Beschreibung von empirischen Daten - dazu dienen Kennwerte, Grafiken und Tabellen
explorative Statistik = Durchsuchen der Daten nach bestimmten Mustern oder Zusammenhängen - bietet sich für komplexe Daten an
statistische Kennwerte = grundlegendste & häufigste Möglichkeit zur Beschreibung von Daten - Anteile - Häufigkeiten - Lagemaße - Streuungsmaße
demografischen Daten wird in fast allen Studien erfragt, z.B. Alter, Geschlecht, Familienstand...
Anteile und Häufigkeiten = Daten in Nominalskala werden in Kategorien dargestellt (z.B. männlich, weiblich) --> dadurch entsteht die Häufigkeit (z.B. 30 von 50 etc.) Häufigkeit = nominal; Anteil = prozentual
Ratings = differenzierte Darstellung der Kategorien (Intervallskala) = Erstellen von Reihenfolge der Werte
mögliche Darstellung von Anteilen und Häufigkeiten - Zahlenwerte - Tabellen - Abbildungen (Diagramme)
N (kursiv) Anzahl von Personen, die an der Studie teilgenommen haben / Stichprobengröße
Merkmalachse X-Achse bei der Darstellung von Häufigkeitsverteilungen - dort steht das gemessene Merkmal = kategoriale Variable, gemessen auf Nominalskala
Häufigkeitsverteilungen = Darstellung der Anzahl / Anteil von Personen, die bestimmten Messwert erzielt haben
Charakterisierung der Häufigkeitsverteilung - Lagemaß (Mittelwert alleine ist nicht aussagekräftig genug!) - Streuungsmaß
Lage der Verteilung = Wert, um den sich die Verteilung konzentriert
Kennwerte für die Lage der Verteilung = Lagemaße, stehen für Häufigkeitsverteilung - abhängig vom Skalenniveau: - Modalwert - Median Mittelwert
Modalwert / Modus einer Verteilung = häufigste Merkmalsausprägung
Median = welcher Wert liegt in der Mitte (Anzahl der Werten!) der Verteilung - robust gegenüber Ausreißern - erst ab Ordinalskala möglich - häufige Anwendung bei explorativer Datenanalyse
Modalwert ist nicht gleich Median bei einer unsymmetrische Häufigkeits-verteilung
Mittelwert - wird auf eine Nachkommastelle gerundet - häufigstes Lagemaß - Ausreißer beeinflussen M - notwendig für weitere statistische Berechnungen - steht stellvertretend für Verteilung
x (kursiv) einzelner Messwert
i (kursiv) Index
Unterschied der grafischen Darstellung des Mittelwerts vs. Häufigkeitsverteilung Bei grafischer Darstellung des Mittelwertes: - Merkmal auf Y-Achse - Keine Häufigkeitsverteilung / Personen --> Mittelwerte entstehen aus Häufigkeitsverteilungen
Mittelwerte auf Ordinalskala sollte vermieden werden. Differenz zwischen Stufen der Ordinalskala ist nicht ersichtlich, deswegen ist Mittelwert nicht dafür geeignet
Lagemaße bei unterschiedlichen Skalenniveaus
Streuungsmaße - Spannweite (Range) - Interquartilsabstand - Varianz - Standardabweichung -
Spannweite = Differenz zwischen größten und kleinsten gewählten Wert der Daten - schlechte Differenzierung zwischen unterschiedlichen Verteilungen - anfällig gegenüber Ausreißern - seltene Anwendung
Interquartilsabstand FOST S. 20
Varianz (s²) = durchschnittliche quadrierte Abweichung aller Werte vom gemeinsamen Mittelwert
Standardabweichung (s oder SD) = Wurzel aus Varianz
bestes Streuungsmaß um die durchschnittliche Abweichung vom Mittelwert zu bestimmen Varianz und Standardabweichung (sehr genaue Differenzierung zwischen den unterschiedlichen Verteilungen)
Kennwerte = Angaben über Stichproben (z.B. Mittelwerte, SD) - lateinische Buchstaben
Parameter = Angaben über Populationen - Schätzwerte - griechische Buchstaben
Varianzaufklärung = wichtigstes Ziel der Statistik = welchen Anteil der Varianz der AV kann die UV aufklären
Fehlervarianz = Teil der Varianz, der aufgrund der natürlichen Streuung entsteht
durch UV hervorgerufene Varianz = Effekt der UV = sollte möglichst groß
Gesetz der großen Zahlen (Jakob Bernoulli) = Je größer die Stichprobe desto eher entspricht die Häufigkeitsverteilung der Populationsverteilung --> wir vertrauen großen Stichproben mehr als kleinen (ab 30 Personen zuverlässige Werte)
unsichtbare Populationsverteilung die Populationsverteilung ist unbekannt, deswegen: große Stichprobe --> Schätzung der entsprechenden Werte in der Population
Formen der Verteilung - symmetrische Verteilung - schiefe Verteilung -unimodale Verteilung - bimodale Verteilung
schiefe Verteilung = Verteilung ist in eine Richtung eingeschränkt -> z.B. Deckeneffekt (weiter nach oben ist nicht möglich) --> Mittelwert ist ebenfalls verzerrt
unimodale Verteilung = ein "Gipfel"/Hochwert in der Verteilung
bimodale Verteilung = Variable hat zwei Merkmalsausprägungen (Gipfel/Höchstwerte) --> Mittelwert wenig informativ
Normalverteilung = symmetrische und unimodale Verteilung in einer Glockenform (Gauss'sche Glockenform)
Vorteil der Normalverteilung + Wissen: Merkmale sind normalverteilt --> Form der Verteilung klar --> nur noch Mittelwert und Streuung notwendig ABER: immer Normalverteilung prüfen!
z-Transformation / z-Standardisierung = unterschiedliche Skalen auf eine Skala transformieren und so umrechnen und vergleichbar machen
Besondere an z-Transformation = standardisierte Skala Mittelwert = 0 SD = 1 muss für jeden Wert einzeln berechnet werden
z-Verteilung / Standardnormalverteilung = stellt dar wie viel Prozent über / unter dem Mittelwert sind
grafische Datenanalyse bei der explorativen Datenanalyse - Boxplot - Stamm- & Blatt-Diagramm - Streudiagramm (Scatterplot) - Sonnenblumendiagramm - Bubble Plot - Streudiagrammmatrix (Scatterplotmatrix)
Boxplot = grafische Darstellung des Median (Strich im Kasten) und Interquartilsabstand (graue Box)
Informationen, die man aus der Boxplot zieht - Median -> deutet auch die Verteilung an - Interquartilsabstand - Ausreißer (mit Stern und Nummer versehen) - Whiskers
Whiskers (Barthaare) = kleinen Querstriche oben und unten des Boxplot Interquartilsabstand * 1,5 (oben und unten der Boxplot) Nur die Werte die außerhalb den Whiskers sind, sind Ausreißer
Vorteile von Boxplot + unverzerrte Darstellung der Rohdaten + Ausreißer identifizieren --> werden meist aus Daten entfernt
Stamm- und Blatt-Diagramm (Stem & Leaf Plot) kein Informationsverlust; jede Zahl bei Leaf = 1 Person * zwischen 0-4 und . 5-9 -> liegt aber im eigenen Ermessen
Streudiagramm (Scatterplot) Darstellung von zwei Variablen in einem Diagramm; 1 Person = 1 Punkt
Sonnenblummendiagramm übereinstimmende Daten werden als Sonnenblumen dargestellt; ansonsten wären identische Werte nicht ersichtlich
Bubble-Plot 3 Variablen, dritte wird in der Größe des Punktes dargestellt
Streudiagramm-Matrix (Scatterplot-Matrix) Darstellung mehrerer Variablen durch jeweilige Streudiagramme von 2 Variablen
(bivariaten) Korrelation = Ausmaß des linearen Zusammenhangs zweier Variablen
positiv korrelierte Daten linearer Zusammenhang aber perfekte Datenzusammen-hänge kommen in der Forschung eher nicht vor
negativ korrelierte Daten linearer Zusammenhang aber perfekte Datenzusammen-hänge kommen in der Forschung eher nicht vor
unkorrelierende Daten Es besteht kein Zusammenhang
nicht lineare Zusammenhänge - werden nicht weiter berechnet - kurvilinearen Zusammenhänge sind nicht selten
Kovarianz = zwei Variablen sind in der Ausprägung abhängig voneinander - gleiche Skala notwendig --> unterschiedliche Skala: Korrelation
Korrelationskoeffizient Kovarianz unabhängig der Skala zu machen Anwendung der Streuung --> Kovarianz / Streuung beider Variablen = Korrelation (r) (Werte zwischen -1 und 1)
Regression = Vorhersageanalyse - nutzt Korrelation, um Werte der Variable1 (Kriterium) aus den Werten der Variable 2 (Prädiktor) hervorzusagen
Korrelationskoeffizient = Varianzaufklärung Alle Werte auf einer Geraden -> beide Variablen voneinander abhängig
Gründe für keine vollständige Gesamtvarianz - Messfehler - Varianz korreliert nicht nur mit einer Variable sondern mit mehreren
Interpretation von Korrelation nach Cohen (Faustregel)
Voraussetzungen für Korrelationsberechnung - intervallskalierte Daten oder dichotome Variablen - linearer Zusammenhang (Streudiagramm nutzen!)
Korrelation vs. Kausalität Korrelation lässt keine Rückschlüsse auf inhaltliche Kausalität zu
mögliche Zusammenhänge zwischen Variablen - X ruft Y hervor - Y ruft X hervor - Zusammenhang zwischen X und Y wird durch Z bedingt (=Scheinkorrelation)
Wichtigkeit von Experimenten für die Forschung = aus experimentell gewonnene Daten berechnete Korrelation lassen Kausalschlüsse zu
dichotome Variablen = Variable hat zwei Ausprägungen
Regressionsgerade Bestimmung der Gerade: - Gerade beliebig in Punktewolke legen - Abweichungsquadrat bestimmen (Abstand der Punkte zur Geraden vertikal messen & quadrieren) - Quadratsumme bilden (Abweichungsquadrat aller Punkte) - Gerade anpassen bis die Quadratsumme so gering wie möglich ist
Vorhersagefehler / Residuum / Residualwert = Differenz zwischen Schätzung und wahrem Wert in der Population; = Abweichungen auf Y von der Regressionsgerade --> ist nicht erklärbar --> Y-Wert ist nur eine Schätzung!
Anwendungsfelder der Regression - konkrete Werte eine Variable vorherzusagen - Enge des Zusammenhangs & Güte der Vorhersage
Determinationskoeffizient r² = Ausmaß der Varianzerklärung von Variable Y zu Variable X = Korrelationskoeffizient ²
einfache lineare Regression = schätzt den Wert einer Person mithilfe der Ausprägung einer Prädiktorvariable auf einer Kriteriumsvariable - beruhen auf bivariater Korrelation
Werte der Regression - β (Beta-Gewicht) = r (bei bivariater Korrelation) - r² (Determinations-Koeffizient)
Show full summary Hide full summary

Similar

FOST 4 - Inferenzstatistik 2 und qualitative Methoden
Kathy H
FOST 4 - Inferenzstatistik 2 und qualitative Methoden
Vanesssa Porth
FOST 1 - Erkenntnisgewinnung und Datenerhebung in der Psychologie
Kathy H
FOST 3 - Inferenzstatistik
Kathy H
FOST 3 - Inferenzstatistik
Valen Tina
FOST 4 - Inferenzstatistik 2 und qualitative Methoden
Valen Tina
GPSY ALPS
Simon Wirsching
GPSY SOPS
Simon Wirsching
Einführung in die Forschungsmethoden Kompakt
Angelina Idt
GPSY ALPS
hf.meyer
GPSY ALPS
jennifertittmann