1.Datenqualität und Datenaufbereitung

Description

Statistik Statistik (Regressionsanalytische Verfahren) Flashcards on 1.Datenqualität und Datenaufbereitung, created by Stephanie Klupp on 15/12/2015.
Stephanie Klupp
Flashcards by Stephanie Klupp, updated more than 1 year ago
Stephanie Klupp
Created by Stephanie Klupp over 8 years ago
15
2

Resource summary

Question Answer
Def.: Inferenzstatistik = wenn man von der Stichprobe auf die Population schliesst = Wahrscheinlichkeitsaussagen über Populationswerte
Welche Voraussetzungen haben multivariate Verfahren? - korrekt eingegebene Daten - keine fehlenden Werte - Normalverteilung - gibt es Ausreisser? - keine Multikollinearität (redundante Variablen)
Wie überprüft man die Voraussetzung der Normalverteilung? - Normalverteilung einzelner Variablen (Histogramm, Q-Q-Plot, Schiefe, Exzess) - Normalverteilung bivariat (Streudiagramme, Residuenplot)
Was ist ein Ausreisser? Wie kann man sie identifizieren? (Erkennung) = Ausreisser sind extreme Werte - univariat: z-Wert (grösser Betrag 3 Standardabweichungen) -univariat: Boxplot (mehr wie 1.5 Kastenhöhe ab 25/75%) - multivariat: Mahalanobis Distanz (MD2 > X2)
Wie kommen Ausreisser zustande? (Ursachen) - natürliche Extreme Werte - Fehler bei der Dateneingabe - falsches Spezifizieren fehlender Werte - Pbn nicht zur Zielpopulation gehören - unkonzentrierte Pbn & Motivation
Welche Problematik haben Ausreisser? (Folgen) Welche Lösung gibt es? - Verfälschung der Parameterschätzwerte - Vergrösserung/Verkleinerung der alpha & beta Fehler - Transformation z.B. Z oder Logarithmische
Was ist/sind Multikollinearität/redundanten Variablen? = Variabeln die das selbe messen = Aussmass der linearen Abhängigkeit zweier Variablen -> Zusammenhänge führen zu ungenauen, schlechten, verzerrten Schätzwerten - Kollinearität = r > .9 in Korrelationsmatrix
Was ist Sigularität? = eine perfekte Multikollinearität - der Zusammenhang = 1 -> Folgen: darf keine multivariate Statistik rechnen
Wie eliminiert man redundante Variabeln? Was ist das Ziel der Elimination? - eine Varibale weglassen - Standardisierung: z-Werte - Faktorenanalyse: als Faktoren zusammenfassen (-> besser unabhängig vom Mittelwert) - Ziel: Steigerung Reliabilität & Validität
Wieso kommen fehlende Werte zustande? (Ursache) - Ausscheiden von Probanden - Pbn gibt keine Antwort - Übertragungsfehler
Welche Auswirkung haben fehlende Werte? (Folge) SPSS schliesst alle Pbn mit fehlenden Werten aus => erheblicher Datenverlust
Welche Arten von fehlenden Werten gibt es? Welche sind gut/schlecht? MCAR = Missing completely at random - Fehlen hängt weder von beobachteten noch von fehlenden Werten ab (sehr gut) MAR = Missing at random - Fehlen hängt von beobachteten aber nicht von fehlenden Werten ab (gut) MNAR = Missing not at random - Fehlen hängt von beobachteten und fehlenden Werten ab (schlecht)
Wie ersetze/schätze ich fehlende Werte? - Ersetzen setzt MCAR oder MAR voraus - keine systematischen Verzerrungen 1. Ersetzen durch den Mittelwert 2. Ersetzen durch regressionsgeschätzten Mittelwert (Zusammenhang & Residuen) 3. Maximum Likelihood Schätzwerte 4. Mehrfaches Schätzen
Show full summary Hide full summary

Similar

Statistik Theorie
Clara Vanessa
Sachversicherungen
Christine Zehnder
METH STADA SS 2019
Caroline Hannah
Haftpflichtversicherungen
Christine Zehnder
Unfallversicherung
Christine Zehnder
Statistik und Differenzialgleichungen
barbara91
Statistik
vemi1994
beschreibende Statistik
birburlue
Statistik
Lily Lightman
Erfassung von Zusammenhängen: 4-Felder Tafeln
menes
Karteikarten Quantitative Forschungsmethoden
goconqr5396