deskriptive Statistik und Wahrscheinlichkeitstheorie, Psychologie, 1. Semester

Question	Answer
Typen wissenschaftlicher Studien	1. Beobachtungsstudie (Observational Research) 2. Experiment
Variablentypen	Unanbhängige Variable (vermutliche Ursache) Abhängige Variable (vermutliche Wirkung) konfundierte Variable (im Experiment zu kontrollieren)
Fehlertypen	1. Messfehler (Diskrepanz zwischen tatsächlichem und gemessenem Wert) 2. Validität (inwieweit Instrument das misst, was es messen soll) 3. Reliabilität (inwieweit Instrument unter gleichen Umständen die gleichen Messergebnisse erzielen kann)
Grundgesamtheit	Gesamtheit aller Einheiten, die statistisch untersucht werden sollen (N= Anzahl dieser Gesamtheit)
Merkmal	Eigenschaft der Merkmalsträger, die statistisch untersucht werden soll (verschiedene Merkamlsausprägungen vorhanden)
Merkmalstypen	1. qualitativ (Ausprägung in verbaler Form) 2. quantitativ (Ausprägung in Zahlen) quantitativ und disrekt (abzählbar) quantitativ und stetig (reelle Zahlen)
Messen	Zuordnung von Zahlen zu Messobjekten nach Regeln, die gewährleisten, dass die Relation der Messobjekte innerhalb der Menge der Zahlen erhalten bleibt
empirisches Relativ numerisches Relativ Homomorphismus	e.R.= Menge der Messobjekte mit Relationen n.R.= Menge der Zahlen mit Relationen Homomoprhismus ist eine Abbildung, be der Objekten der Menge A Objekte der Menge B derart zugeordnet werden, dass die Relation erhalten bleibt
Skaleneinteilung	Nominalskala Ordinalskala Intervallskala Verhätlnisskala
Nominalskala	- Merkmalswerte haben nur einen Bezeichnungspunkt - nur Identitätsvergleiche möglich - ist oder nicht nicht Bsp: Religionszugehörigkeit
Ordinalskala	- natrüliche Ordnung der Merkmalswerte - Größe der Abstände ist irrelevant - nur Größenvergleiche möglich Bsp: Windstärke
Intervallskala	- Differenzen von 2 Merkmalswerten können sinnvoll miteinander verglichen werden - Maßstab frei wählbar - kein natürlicher Nullpunkt Bsp: Temperatur in Celsius
Verhältnisskala	- natürlicher Nullpunkt - keine natürliche Messeinheit Bsp: Temperatur in Kelvin
Datenexploration	1. Erste Visualisierung (dot plot geeignet, so nah wie möglich an Daten bleiben) 2. Stem- and Leaf- Plot 3. Häufigkeiten in Wertebereich- intervallen 4. Histogram
Maße der zentralen Tendenz	Modus Median Mittelwert (je größer die Streuung desto schlechter beschreiben Maße der zentralen Tendenz die Daten)
Modus	- ab Nominalskala definiert - Wert, der am häufigsten vorkommt - anfällig für kleine Änderungen - bimodal oder unimodal
Median	- ab Ordinalskala definiert - teilt Wahrscheinlichkeitsverteilung auf (50% der Daten oberhalb und 50% der Daten unterhalb) - Daten werden als Element berücksichtigt - robust gegenüber Ausreißern
Mittelwert	- ab Intervallskala definiert - gebräuchlichstes Maß - anfällig für Ausreißer (beschreibt Daten dann nicht gut)
Maße der Streuung	Variationsbreite/ Range MAD (Median Absolut Deviation) Inter- Quartil- Range Varianz Standardabweichung Kurtosis Assymetrie
Variationsbreite/ Range	- Differenz zwischen Maximum und Minimum - anfällig für Ausreißer - gibt keine Information über Art der Verteilung
MAD (Median Absolut Deviation)	- Median der Abständer der Daten zum Median - MAD= median(x-median(x)) - robustes Streuungsmaß für alle quantitativen Daten - Aletrnative für Standardabweichung
Inter- Quartil- Range	- definiert durch Gesamtmedian und Mediane der anderen beiden Hälften - für Visualisierung ist Box- Plot geeignet
Varianz	- mittlerer Abstand der quadrierten Abweichungen aller Messwerte vom Mittelwert - ab intervallskalierten Daten - anfällig für Ausreißer (große Abweichungen fallen quadriert ins Gewicht)
Standardabweichung	- Wurzel aus der Varianz - gleiche Eigenschaften wie Varianz - besser interpretierbar wegen gleicher Einheiten
Kurtosis	- Wölbung der Verteilung - schmal oder breit
Asymmetrie	- rechts- schief -symmetrisch - links- schief
Modelle Definition	vereinfachte Darstellung der Realität durch Erfassen der wichtigsten Untersuchungsgegenstände
Zweck von Modellen	1. Untersuchung von Eigenschaften von Gegenständen (Original zu teuer/ sperrig) 2. Untersuchung von Zusammenhängen (Wettervorhersage)
Eigenschaften von Modellen	- Abbildung der wichtigsten Aspekte - trifft Vorhersagen - so kompakt und komplex wie nötig
Fehler und Vorhersagen	Beobachtung= Modellvorhersage + Fehler Bsp. Mittelwertsmodell: y= x + Abweichung vom Mittelwert
Quantifizierung der Modellgüte	1. Varianz 2. Fehlerquadratsummen (Bestandteil der Varianz)
Goodness of fit (Modellfehler)	- Varianz gibt Auskunft darüber, wie gut ein Modell ist (ob es viele Fehler erklärt oder nicht) - kleine Varianz = gutes Modell
Fehlerquadratsummen (SS)	- quadrierte Abweichungen der Werte vom Mittelwert - Ausreißer in beide Richtungen gehen in Gesamtfehler ein (große Abweichungen haben großen Einfluss) - v= s²= Wurzel (SS/N)
Von der Stichprobe auf die Grundgesamtheit schließen	- Populationsmittelwert soll bekannt werden Problem: Beschreibt mein Modell die Stichprobe? Beschreibt meine Stichprobe die Population? Idee: Stichprobenverteilung
Stichprobenverteilung	= Verteilung der Stichprobenmittelwerte - von allen Stichproben den Mittelwert bilden und daraus erneut den Mittelwert ziehen (soll Populationsmittelwert entsprechen) Problem: Um den Mittelwert alles Stichproben zu bilden, braucht man alle Stichproben
Lösung für Problem der Stichprobenverteilung	- Wahrscheinlichkeitsverteilung - Gaußsche Normalverteilung - zentraler Grenzwertsatz
zentraler Grenzwertsatz	Wenn - eine Folge von Zufallsvariablen unabhängig voneinander ist und die gleiche Wahrscheinlichkeitsverteilung hat - der Erwartungswert und Standardabweichung existieren dann konvergiert die Verteilungsfunktion gegen Standardnormalverteilung - Bedingung für Normalverteilung
Wahrscheinlichkeitsverteilung	- Verteilungen geben Informationen für Wahrscheinlichkeit der Realisierung einer Zufallsvariable = prior probability (Wahrscheinlichkeit einer Beobachtung bevor sie stattfindet) - nötig, um Aussage von konkreter Stichprobe zu machen - Hintergrund= ZGS - Verteilungsfunktion= Integral der Dichtefunktion (Wert oder größer kann direkt abgelesen werden, Wendepunkt=MW)
Gaußsche Normalverteilung	- tritt auf, bei der Summer von zufälligen Ereignissen (Bsp: Verteilung der Augenzahl, wenn man mit 2 Würfeln spielt - sagt aus, wie wahrscheinlich es ist, ein Ereigniss zu beobachten - Verteilung der Mittelwerte vieler Stichprobe ist normalverteilt
Standardfehler des Mittelwerts	= s/ Wurzel aus N - gilt für N>30
Konfidenzintervalle	- Verteilungsfunktion= Wahrscheinlichkeitsdichtefunktion (Fläche unter Verteilung steht für p) - bei der Standardnormalverteilung liegen 95% der Daten im Intervall von -1,96 bis 1,96 Problem: Verteilungen sind meist nicht standardnormalverteilt (anderer MW und s)
Z- Standardisierung	- Lösung für Problem der Konfidenzintervalle - Zentrierung durch Substarktion des MW - Normalisierung durch Division mit s - Standardabweichung wird Einheit - Variablen werden vergleichbar gemacht x=z*s + MW
Schlusslogik/ Modus Tollens	- es gibt Hypothese H und Zustand Z - wenn Z nicht beobachtet werden kann, ist H falsch - wenn Z beobachtet werden kann ist H NICHT automatisch richtig (kann durch andere Umstände herbeigeführt werden) Bsp: Wenn es regnet ist die Straße nass
Falsifikationsprobleme in der Psychologie	- beim Modus Tollens gibt es nur wahr oder falsch - empirische Daten sind oft unsiceher und haben Messfehler - es entstehen Interpretations-/ Glaubensfragen Problem: nur Modell kann als falsch bezeichnte werden, Glaubensfragen/ Hypothese nicht Deswegen: Konzept der Wahrscheinlichkeit zur Qauntifizierung der Wirklichkeit
Frequentisten vs. Bayesianer	Unterschied liegt in der Zuweisung von Unsicherheiten in der Welt
Frequentisten	- Welt an sich ist unsicher - Unsicherheit von Modellvorhersagen entsteht durch Variabilität der Stichproben -p ist die Häufigkeit, mit der ein Ereigniss beobachtet werden kann
Bayesianer	- Modell/ Konzepte sind unsicher - im Modell werden Wahrscheinlichkeitsannahmen gemacht, die nicht Bestandteil der Welt sind Bsp: Münzen verhalten sich beim Werfen nicht zufällig, wir wissen nur nicht genug über den Zustand
Entscheidung unter Unsicherheit	- Plausibilität der Daten wird durch Wahrscheinlichkeitstheorie bestimmt - Zustand= Konsequenz einer Ereigniskette - mehrere Zustände sind möglich - jede Beobachtung schließt einige Zustände aus - Plausibilität entspricht Wahrscheinlichkeit
statistische Zusammenhänge	Kovarianz Pearson- Korrelazions- Koeffizient Fisher- Z- Transformation Rangkorrelation nach Spearman Kontingenztabelle/ Randsummenhäufigkeit
Kovarianz	= ob und wie stark Werte in selbe Richtung und Stärke um MW abweichen - positiv (Variation in gleiche Richtung) - negativ (Variation in gegenteilige Richtung) - Null (keine konstante gemeinsame Variation Problem: abhängig von Skalierung der Daten
Pearson - Korrelations- Koeffizient/ Produkt- Moment- Korrelation	- standardisierte Kovarianz (Einheiten entfallen) - Wertebereich von -1 bis 1 (einfacher interpretierbar Problem: haben nicht die gleichen Abstände, nicht intervallskaliert und normalverteilt (keine Vergleiche möglich)
Fisher- Z- Transformation	- Korrelation durch Fisher-Z-Transformation normalverteilt - Transformation in den WB +unendlich und -unendlich - Wahrscheinlichkeit ist normalverteilt
Problem der Korrelation	- ungeeignet für nicht-lineare Verteilungen (Abwesenheit Korrelation ungleich Abwesenheit von Zusammenhang) - Selektionsfehler (ungeeignte Stichprobe) - Ausreißerempfindlich (erbt alle Probleme des MW- Modells, Varianz enthält summierte Abweichungen vom MW)
Rangkorrelation nach Spearman	- analog zur Pearson- Produkt- Moment- Korrelation - statt tatsächlichen Werten werden Ränge in Gleichung eingesetzt (keine Rohwerte) -ab Ordinalskala definiert
Kontingenztabelle	- ab Nominalskala definiert Nullhypothese: Wie müsste die Tabelle aussehen, wenn es keinen Zusammenhang gäbe? Wie sieht meine Tabelle aus? Wie warhrscheinlich ist es, dass sie so aussieht?
Lineare Regression	-Modellierung eines linearen Zusammenhangs von 2 Variablen - basierend auf Beobachung einer Variable, soll eine Vorhersahe für die andere gemacht werden können Bsp: Blutdruck und Lebenserwarung y= a+b*x+error
einfach lineare Regression	- y soll durch lineares Modell von x möglichst gut beschrieben werden - Minimierung der Fehlerquadratsummen (und somit der Varianz)
Lage der Regressionsgeraden	-b beschreibt Stärke des linearen Zusammenhangs (je größer b, desto mehr weicht lineares Regressionsmodell vom MW-Modell ab)
Goodness of fit durch Varianzzerlegung	Zerlegung der Varianz in 1. Kriteriumsvarianz (gesamte zu erklärende Varianz SSt) 2. Modellvarianz (Varianz, die zustätzlich zum MW-Modell erklärt wird SSm) 3. Fehlervarianz (Varianz, die immer noch nicht erklärt werden kann SSe) SSt=SSm+SSe
Determinationskoeffizient R²	- Bestimmtheitsmaß für erklärte Varianz Wie viel prozentuale Varianz erklärt mein Regressionsmodell mehr, als mein MW-Modell) R²= SSm/SSt -Wertebereich von 0 bis 1
Regressionsrichtung	- Anteil der erklärten gemeinsamen Varianz ist unabhängig von der Regressionsrichtung - Modellparameter unterscheiden sich
Datenpräsentation (geometrische Betrachtungsweise)	1. Variablenraum (Achen entsprechen Variablen 2. Personenraum (Achsen entsprechen Personen)
zentrierte Daten	-durch kleine Buchstaben dargestellt -MW wird abgezogen (Varianz und Korrelation bleiben gleich) Warum? Nur Unterschiede sollen betrachtet werden. Gemeinsamkeiten (MW) interessieren nicht
Personenraum	- Vektorlänge entspricht Standardabweichung - Winkel zwischen Vektoren entspricht Korrelation (-1 bis 1)
Vektorraum V	- Raum, der durch die Vektoren aufgespannt wird - Basis: minimaler Satz von Vektoren, die V aufspannen -orthogonale Basis: Basisvektoren im rechten Winkel -otrhonormale Basis: orthogonale Basis hat Einheitslänge von 1
Dimensionalität/ Freiheitsgrade	- Anzahl der Basisvektoren, die V aufspannen -Freiheitsgrade von der Anzahl der Vp abhängig - F(1,98): 100 VP, 1 Prädiktordimension, 98 Fehlerdimensionen (100 VP=1 MW-Dimension+ 98 Fehlerdimension+ 1 Prädiktordimension)
Projektion (=geometrische Regression)	- Zerlegung des Beobachtungsvektors x in 2 orthogonale Komponenten (inner- und außerhalb des Unterraums, sind nicht korreliert) - Aufteilung von V in Unterraum V´und V orthogonal zu V´ y=b*x (a entfällt, da Daten im Personenraum zentriert sind)
multiple Regression	- Modellerweiterung mit mehreren Prädiktoren - Modellvorhersage entspricht Ebene - je mehr Variablen, desto mehr Fehlervarianz wird aufgeklärt (mehr Punkte können durch Linearkombination erreicht werden), Modellfehler geringer ABER: je mehr Variablen, desto komplizeirter und schlechter interpretierbar - bei nicht- zentrierten Daten ist MW-Modell ebenfalls multiple (MW+ Abweichung vom MW)
absolute Größe von Regressionsgewichten	- nicht ohne Kontext interpretierbar - nur mit anderen Regressionsgewichten vergleichbar - Regressionsgewicht =0 heißt nicht, dass die Variable nicht mit y korreliert
Ladungen	- Korrelation der Präditkoren x mit Regressionsvorhersage y - hohe Ladung= kleiner Winkel, ähnliche Konzepte, große gemeinsame Varianz - geringe Ladung= nahezu orthogonal, unterschiedliche Konzepte
Multikollinearität von Regressoren untereinander	- p Vektoren spannen einen Raum mit weniger als p Dimensionen auf (mehr Vektoren vorhanden als notwendig um Raum aufzuspannen) Praxis: eine Variable ergibt sich aus anderen Variablen (Bsp: generelle Zustimmungsrate in Fragebögen wird ermittelt) - unendliche viele Linearkombinationen führen zu y Dach (nicht interpretierbar)
Multikollinearität (lineare Abhängigkeit) verhindern	- Anzahl der Prädiktoren ändern, ohne V zu beeinflussen (Entfernen, Kombinieren von variablen) - was man entfernt hängt vom Kontext ab
nahezu multikollineare Regressoren	-schwerer zu identifizieren - Potential für Fehlinterpretationen groß - kleine Änderungen bei Messungen führen zu Lageveränderung von Vx
Vermeidung nahezu multikollinearer Regressoren	- Strategien zur Vermeidung linearer Abhängigkeit - Hauptkomponentenanalyse (Korrelation vorher testen)
Supressoren	- Variable, die nicht mit Datenvektor korreliert (orthogonal zueinander) - kann Modellgüte deutlich verbessern - vergrößern Vektorraum und erlauben bessere Modellanpassung - korreliert mit Prädiktoren (Bsp: kalte Finger korrelieren nicht mit Lungenkrebs ABER: Rauchen korreliert mit Lungenkrebs und mit kalten Fingern)

Next up

deskriptive Statistik und Wahrscheinlichkeitstheorie, Psychologie, 1. Semester

Description

Resource summary

Similar

	Created by Shirin S. about 5 years ago