Advanced Statistics

Description

bla
Geht euch nix an
Flashcards by Geht euch nix an, updated more than 1 year ago
Geht euch nix an
Created by Geht euch nix an over 7 years ago
53
1

Resource summary

Question Answer
Einfache Regression a sagt b voraus nur eine Variable. Ablesbar an R²
Methode der kleinsten Quadrate Für einen Datensatz (eine Punktewolke) werden a und b so gewählt, dass der quadrierte Vorhersagefehler über alle Probanden minimal ist: Für die Ermittlung der Regressionsgleichung wird die Differenz der tatsächlichen von den vorhergesagten y-Werten also quadriert. Das hat 2 Vorteile: (1) Abweichungswerte sind immer positiv. (2) Große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.
Multiple Regression: a b c sagen d voraus, selbe Methode wie bei Regression.
Partialkorrelationen: Bei einer Partialkorrelation wird der Einfluss einer Drittvariable aus dem Zusammenhang zwischen zwei Variablen herauspartialisiert bzw. konstant gehalten. • Konkret wird Frage gestellt, wie hoch Intelligenz und Problemlösen miteinander korrelieren würden, wenn man eine Stichprobe hätte, in der sich die Personen in der Arbeitsgedächtniswert nicht mehr unterscheiden (alle denselben Arbeitsgedächtniswert aufweisen).
Gütemaße der Regressionsfunktion (Gesamtmodell) Bestimmtheitsmaß (R²) = Anteil an der durch die Funktion erklärter Varianz an der Gesamtstreuung. Angepasstes R²: Zur Beurteilung der Güte von linearen Regressionsmodellen bietet es sich an, das korrigierte R² zu betrachten. Es ist zwar nicht direkt wie das normale R² als Prozentsatz an erklärter Varianz der abhängigen Variablen zu interpretieren, berücksichtigt und bestraft aber die Anzahl unabhängiger Variablen im Modell. Prinzipiell gilt: Je höher das korrigierte R², desto besser passt das Modell auf die Daten. F-Statistik Standardfehler
t-Wert Prüft, ob der Regressionskoeffizient verschieden von Null ist.
BETA-Wert = Standardisierter Regressionskoeffizient. Zeigt Steigung des Prädiktors an
Konfidenzintervall des Beta-Werts Wenn das Konfidenzintervall 0 nicht schneidet (Untergrenze – Obergrenze), dann sind die Ergebnisse signifikant. Je größter das Konfidentintervall, desto „unsicherer“ sind die Ergebnisse.
Modellprämissen bei Regression Nicht-Linearität: (Häufig werden Zusammenhänge linear angenommen, obwohl sie kurvilinear sind) Normalverteilte Residuen Homoskedastizität Multikollinearität
Residuen bei der Regression - Annahmen Erwartungswert der Residuen = 0; dementsprechend Über- und Unterschätzung gleichhäufig; nur bei normalverteilten Residuen sind die Signifikanzwerte von Beta-Gewichten und R² korrekt. Ab 100 weniger problematisch. ACHTUNG: Ausreißer an den Enden sind trotzdem problematisch. Homoskedastizätät: Verteilung der Ausreißer GLEICHMÄßIG um Regressionsgerade herum. Heteroskedastizität: Systematische Verzerrung der Ausreißer.
Multikollinearität: Prädiktoren korrelieren stark. Mit zunehmender Multikollinearität wird das Verfahren zur Schätung der Regressionskoeffizienten instabil und Aussagen zur Schätzung der Regressionskoeffizienten zunehmend ungenau
Verschiedene Varianten von Regression Einschluss (Alle Variabeeln auf einmal rein) Hierarchisch(Theoriegeleitete, blockweise Aufnahme in die Gleichung) Nur sinnvoll, wenn Ein Einbau solcher Interaktionseffekte ist nur dann sinnvoll, wenn diese sachlogisch begründet sind, d.h. es wird davon ausgegangen, dass die Wechselwirkung zweier Variablen einen Einfluss auf die abhängige Variable besitzt, also die eine unabhängige Variable den Einfluss der anderen verändert Vorwärtsselektion: UVs nacheinander in das Modell einschließen; startend bei besterklärendster Variable. Rückwärtsselektion: Variablen nach und nach aus dem Modell genommen, startend bei schlechtest erklärender Variablen. Schrittweise selektion: Passend machen, so dass beste Anpassung erreicht wird.
Drittvariableneffekte Scheinkorreltation Konfundierung Supressoreneffekt
Scheinkorreltation X korreliert mit Y; Korrelation verschwindet, wenn Z kontrolliert wird. Beispiele: Größe korreliert mit IQ (NUR ohne Kontrolle des Alters)
Konfundierung X Korreliert mit Y; Korrelation wird schwächer, wenn Z kontrolliert wird. Beispiel: Einkommensunterschiede von Männern und Frauen, WENN NICHT nach Branche gesiebt wird.
Interaktion: Korrelation von X mit Y ist NICHT 0. Stärke des Zusammenhangs ist abhängig von Z; Beispiel: – Beispiel: Umfragedaten zeigen, dass Personen mit niedrigen Einkommen dafür stimmen Einkommensunterschiede zwischen Arm und Reich abzubauen. Dieser Zusammenhang tritt in Ostdeutschland deutlicher hervor als in Westdeutschland. Der Einkommenseffekt interagiert mit der regionalen Herkunft.
Suppressoreffekt Die Korrelation von x mit y ist von 0 verschieden; Wenn die Drittvariable z kontrolliert wird, wird der Zusammenhang stärker. – Eine Untersuchung zeigt, dass sich der Anteil der Ledigen bei Männern und Frauen einer bestimmten Altersstufe kaum unterscheidet. Kontrolliert man allerdings das Ausbildungsniveau, dann zeigt sich bei gering qualifizierten Personen ein hoher Anteil lediger Männer und ein geringer Anteil lediger Frauen.
Explorative FA Auffinden von Faktoren
Konfirmatorische FA Überprüfen empirisch, ob bestehende Daten ein theoretisches Modell bestätigen oder verwerden. Alternativ kann explorative FA an anderer Stichprobe „kreuzvalidiert“ werden.
Faktorenanalyse umfasst Gruppe multivariater Analyseverfahren, mit denen zugrundeliegende gemeinsame Dimensionen von Variablenmengen (Fragebogenitems) untersucht werden.
Explorative Faktorenanalyse findet... Findet Strukturen in Variablensets; es werden sich einige Variablen überlappen (Korrelation). Variablengruppen, die hoch korrelieren nennt man Faktoren. Theoretisch möglich: 1 bis K Lösungen; wobei K die Anzahl der Variablen darstellt. Im Idealfall: Keine Annahme über Zusammensetzung und Anzahl der Faktoren, aber praktisch fast nie der Fall.
Voraussetzungen der FA: Intervallskalierte Variablen Multivariat-normalverteilte Variablen N pro variable mind 3. Substantielle Korrelation im Datensatz (Dichotome Variablen mit Einschränkung verwendbar)
Faktor (Definition) Theoretische Variable oder Konstrukt, das allen wechselseitig hoch korrelierenden Variablen zugrunde liegt.
Faktorladung: Korrelation einer Variablen mit einem Faktor. Von -1 - +1 ..Über Faktorladungen wird definiert, welche Variable zu welchem Faktor „gehört“ und damit auch, was jeder Faktor bedeutet.
Kommunalität gibt an.. Die Kommunalität einer Variablen gibt an, in welchem Ausmaß die Varianz dieser Variablen durch die Faktoren erfasst / erklärt / aufgeklärt wird.
Kommunalität (Ladungen) Summe der quadrierten Ladungen einer Variablen über alle Faktoren • Maximum: 1 (da die Gesamtvarianz jeder Variablen auf 1 normiert ist) Kommunalität 1: Variable teilt Varianz vollständig mit dem Faktor, keine spezifische Varianz Kommunalität 0: Variable besteht komplett aus Unique Variance und Error Variance
Faktorwert: Kennzeichnet Position einer Variable auf einem Faktor - Wie sehr weist eine Variable die Eigenschaften des Faktors auf? Wertebereich (standardisiert) M=0, s=1 (Pro Faktor)
Eigenwert: Gibt an, wie viel der Gesamzvarianz aller Variablen durch einen Faktor erklärt wird. Summe der quadrierten Ladungen aller Variablen auf diesem Faktor 0 bis K (Anzahl an Variablen)
Faktorenextraktion: Erfolgt nach Kriterium, dass jeder Faktor sukzessiv so viel Varianz in den untersuchten Variablen erklärt wie möglich. Jeder neue Faktor erklärt dabei nur Varianz, die NICHT von zuvor extrahierten Faktoren erklärt wurde.
Bestimmung der Faktorenzahl: Kaiser-Guttman-Regel (Eigenwertkriterium) Alle Faktoren mit Eigenwert größer 1 werden aufgenommen. Somit erklärt ein Faktor immer mehr Varianz als eine urprüngliche Variable. Kriterium der extrahierten Varianz Durch Vorüberlegungen kann festgelegt werden, wie groß der Anteil der extrahierten Varianz durch die aufgenommenenFaktoren sein soll. Screeplott Ellbow-Kriterium.
Rotationsproblem: Rotation um den Ursprung ohne Informationsverlust möglich; Position der Faktoren ist zunächst nach Maximierung der Varianzaufklärung gewählt. Ziel: Einfachstruktur (hohe Ladung der Faktoren auf einigen Variablen, niedrige auf den anderen. Die Variablen sind nur schwer zuzuordnen.)
Gebräuchliche orthogonale Rotationstechniken: Varimax: Maximiert die Varianz der quadrierten Faktorladungen innerhalb der Faktoren. Varimax ist der am häufigsten verwendete orthogonale Rotationsalgorithmus.
Gebräuchliche oblique Rotationstechniken Promax, Direct Oblimin
Promax-Rotation Dieser Algorithmus startet mit einer orthogonalen Rotation und transformiert die Faktoren anschließend in eine oblique Lösung mit dem Ziel, die absoluten Werte der Primärladungen zu maximieren und die Sekundärladungen gegen Null gehen zu lassen (OBLIQUE)
Direct Oblimin Ein Rotationsalgorithmus, der die simultane Optimierung eines orthogonalen und eines obliquen Rotationskriteriums anstrebt. • Bei beiden obliquen Rotationsverfahren kann die Höhe der maximalen Faktorinterkorrelationen vom Benutzer beeinflusst werden.
Eignet sich die Korrelationsmatrix für eine EFA? (Test) Barlett-Test: Überprüft die Hypothese, dass die Stichprobe aus einer Grundgesamtheit stammt, in der die Variablen unkorreliert sind.
Barlett-Test: Überprüft die Hypothese, dass die Stichprobe aus einer Grundgesamtheit stammt, in der die Variablen unkorreliert sind. ..Test, ob sich die Korrelationsmatrix für eine EFA eignet.
Barlett-Test Voraussetzung Normalverteilung Prüfgröße annähernd Chi-Quadrat verteilt (Anfällig gegenüber Stichprobengröße)
Kaiser-Meyer-Olkin-Kriterium: Zeigt Ausmaß, in dem Variablen zusammengehören. Alles über .5 ist akzeptabel.
Kommunalitäten: Summe der quadrierten Korrelationen einer Variable mit allen Faktoren; Prozentsatz der durch alle Faktoren beschriebenen Varianz einer Variablen
• Faktorladungen Korrelation einer Variablen mit einem Faktor
Faktorwerte Kennzeichnet die Ausprägung eines Faktors für eine Person
• Eigenwert: Gesamtvarianz aller Variablen, die durch den Faktor aufgeklärt wird
Konfirmatorische Faktorenanalyse Sonderfall eines Strukturgleichungssystems: Strukturbestätigendes Verfahren; Theoretisches Modell A Priori Festlegung der Faktorenzahl Faktoren werden a Priori korreliert bzw nicht korreliert. Zuordnung manifester Variablen und Faktoren durch a priori-Restriktionen. Ziel: Überprüfung der Beziehung zwischen manifesten und latenten Variablen. Lässt keine Mehrfachladung zu. Abbildung latenter Variablen und deren kausale Abhängigkeit von einzelnen Items Es MÜSSEN weniger freie als bekannte Parameter existieren – Freiheitsgrade
Voraussetzungen KFA Theoretisches Vorwissen über zu testendes Modell Skalenniveau: Maximum-Likelihood-Schätzung: Intervallskaliert Asymptotically Distribution Free-Method: Ordinalskaliert
Maximum-Likelihood-Schätzung (Skalenniveau Daten) INtervall
Asymptotically Distribution Free-Method (Voraussetzungen Daten) Ordinal
Anwendungsfelder und Ziele: KFA Modellierung von Zusammenhängen zwischen mehreren manifesten/beobachteten und latenten Variablen (Konstrukte) Testen des Gesamtmodells auf Gültigkeit in der Population Testen einzelner Modellparameter Vergleich alternativer/konkurrierender Modelle
Vorgehen KFA Theoriebildung (Beschreibung der Beziehung zwischen manifesten und latenten Variablen und der Beziehung der Konstrukte untereinander. Berechnung der Modellparameter: Schätzung der nicht explizit vorgegebenen Ladungen/Pfadkoeffizienten, Varianzen und Kovarianzen Testung des Modells: Frage nach Übereinstimmung der vom Modell vorgegebenen Datenstruktur mit den beobachteten Daten Messmodell setzt sich zusammen aus: Latenter Variable (Konstrukt) + Indikator / manifeste Variable (Item) + Fehler
Axiome der klassischen Testtheorie: 1.) Existenzaxiom 2.) Verknüpfungsaxiom 3.) Unabhängigkeitsaxiom:
1.) Existenzaxiom Der wahre Wert existiert als Erwartungswert der Messungen eines Probanden. (Der Erwartungswert einer Zufallsvariablen beschreibt die Zahl, die die Zufallsvariable im Mittel annimmt.)
2.) Verknüpfungsaxiom Jede Messung ist aus wahrem Wert + Zufälligem Messfehler zuammengesetzt
3.) Unabhängigkeitsaxiom: Die Korrelation zwischen Messfehlern und wahren Werten =0
FIT INDICES: KFA X²-Anpassungstest: CFI RMSEA
X²-Anpassungstest: Prüft die Hypothese, dass die Differenz zwischen der theoretischen und der empirischen Kovarianzmatrix gering ist, d.h. das Modell die Datenstruktur in allen Einzelheiten gut beschreibt. Kleine Werte = Guter Model-Fit. Test ist allerdings empfindlich gegenüber Stichprobengröße, deshalb existieren bestimmte Normen (zb n=100)
CFI Vergleicht getestetes Modell mit einem Nullmodell mit unkorrelierten Faktoren. – …ist relativ robust gegenüber der Stichprobengröße und Verletzungen der Verteilungsannahme – Der Index kann Werte zwischen 0 und 1 annehmen, wobei höhere Werte für einen besseren Modell-Fit sprechen – Ab CFI von 0,9 (nach manchen Quellen erst ab 0,95) gilt das Modell als gut.
RMSEA Maß zur Beurteilung der Güte eines Modells. Gut: RMSEA nicht größer als 0,05 Reelativ unempfindlich gegenüber n Werte zw. 0-1
Logistische Regression: AV: Dichotom oder Kategorial ausgeprägt (Nominalskalenniveau) Dichotom: Binäre logistischer Regression Kategorial: Multinomiale logistische Regression
UV: Metrisch oder kategorial AV gibt in diesem Fall die Gruppenzugehörigkeit an; logistische Regression schätzt diese allerdings nicht direkt, sondern bestimmt Wahrscheinlichkeit dafür, zu einer bestimmten Gruppe zu gehören.
Warum keine Klassische Regression sondern logistisch? Keine hinreichende Streuung in den Beobachtungswerten, da nur die Werte 0 und 1 möglich sind. Bestimmung einer Regressionsgerade nicht sinnvoll 2. Interpretation der mit Hilfe einer linearen Regression geschätzten Werte im Sinne einer Wahrscheinlichkeit Unplausible Werte (außerhalb des Intervalls [0;1]) 3. Residuen sind nicht normalverteilt und erfüllen auch nicht das Kriterium der Homoskedastizität. klassische Regression ist nicht zulässig
Logistische Wahrscheinlichkeitsfunktion: Punktsymmetrisch; Wendepunkt immer bei p=.5 Neben der Wahrscheinlichkeit können ODDS angegeben werden (das macht ja voll den Unterschied..) Wahrscheinlichkeit/Gegenwahrscheinlichkeit.
Schätzung der Koeffizienten: Verwendung der Maximum-Likelihood-Methode. Modellparameter werden so geschätzt, dass die Wahrscheinlichkeit, die beobachteten Ausprägungen zu erhalten, maximiert wird. Berechnung erfolgt logischerweise iterativ usw blabla.
Interpretation der Koeffizienten: Sinnvolle Interpretation nur bei jeder Kategorie mind 25n
Gütemaße für den Regressionsansatz: Gütemaße für den Regressionsansatz • Gütemaße auf der Basis der LogLikelihood-Funktion (LLFunktion) Analyse der Devianz: • Unter der LogLikelihood-Funktion versteht man die logarithmierte, bereits bekannte Likelihoodfunktion LL = ln(L) • Das -2fache von LL wird als Devianz bezeichnet und ist annähernd χ²-verteilt (mit k-j-1 Freiheitsgraden, wobei k = Anzahl der Beobachtungen und j = Anzahl der Prädiktoren).
Analyse der Devianz • Die Devianz ist die Abweichung vom Idealwert (vergleichbar mit Fehlerquadratsumme im linearen Modell). • Bei perfekter Modellpassung ergibt sich ein Likelihood von 1 und eine Devianz von 0. • Mit Hilfe eines χ²-Tests lässt sich überprüfen, ob die Devianz nahe bei dem Maximalwert 0 liegt Zu testen ist, ob – H0: Modell besitzt eine optimale Anpassung – H1: Modell besitzt keine optimale Anpassung zutrifft. • χ²-Test sollte ein Signifikanzniveau nahe 1 aufweisen. • Problem: Ein Modell mit ungleicher Gruppenstärke wird i. d. R. besser bewertet als ein Modell mit gleich großer Gruppenstärke.
Likelihood Ratio-Test: • Die Devianz des vollständigen Modells (DM) wird beim Likelihood Ratio-Test mit der Devianz des Nullmodells (D0) verglichen. • Das Nullmodell erhält man, wenn alle Regressionskoeffizienten auf Null gesetzt werden, sodass nur noch die Regressionskonstante im Modell verbleibt.
Pseudo-R²-Statistiken Versuch, Maß zu finden, was multiplem R² entspricht. Man konnte sich aber auf kein einheitliches Maß einigen. Stattdessen verwendet man unterschiedliche Varianten von R², aber nichts hat alle günstigen Eigenschaften von R² Pseudo-R² erzielen insg. Kleinere Werte als R² der multiplen linearen Regression.
McFaddens R² (Pseudo R²) Werte ab 0,2 sind akzeptabel, Werte ab 0,4 gute Modellanpassung
Cox and Snell R²: (Pseudo R²) Maximal Wert von .75 erreichbar.
Nagelkerke R² (Pseudo R²) Werte von größer als 0.5 lassen sich als gut interprestieren. Beurteilung der Klassifikationsergebnisse: Methode prüft ebenfalls den Modellfit, indem die empirisch beobachteten Ergebnisse 0 und 1 mit denen anhand der Regressionsgleichung erzeugten Wahrscheinlichkeiten vergleicht. (Trefferquote wird mit 0.5 verglichen)
Ausreißerdiagnostik (logistische Regression) Auch bei logistischer Regression ist Ausreißerdiagnostik wichtig: Es MUSS beachtet werden, dass es keine echten Residuen gibt! Prüfung der Merkmalsvariablen: Um Modell-Overfitting zu vermeiden, kann die Überprüfung einzelner Prädiktoren von Nutzen sein.
Likelihood-Quotienten-Test: – Vergleich der Devianz des vollständigen Modells (DM) mit der Devianz eines reduzierten Modells (DR). – Im Reduzierten Modell wird jeweils ein Regressionskoeffizient auf Null gesetzt. – Die Differenz DR – DM kann über die χ²-Verteilung auf Signifikanz geprüft werden.
Clusteranalyse: Ziel: Aus heterogener Gesamtheit von Objekten homogene Teilmengen zu identifizieren. (Gruppenbildung) Ziel: Hohe Intraclusterhomogenität – Elemente im Cluster möglichst ähnlich Geringe INTERclusterhomogenität – Unterschiede zwischen den Elemente verschiedener Cluster möglichst groß.
Anwendung clusteranalyse Kaufverhalten, Produktanalyse, Marktforschung, Konsumgruppen… Clusteranalyse ist ein exploratives Verfahren und bedient sich keiner inferenzstatistischer, d.h. schließender Methodik. Es wird also „nur ausgezählt“, nicht manipuliert.
Clusteranalyse - Verfahren (statistische Eigenschaften und Vorgehen) Clusteranalyse ist ein exploratives Verfahren und bedient sich keiner inferenzstatistischer, d.h. schließender Methodik. Es wird also „nur ausgezählt“, nicht manipuliert. Clusteranalyse ist ein Verfahren, das sich in zwei wesentlichen Punkten unterscheidet (von was denn oO) 1.) Wahl des Promititäsmaßes: Dh, Ähnlichkeitsmaß bzw. Abstandsmaß 2.) Wahl des Gruppierungsverfahrens Vorgehensweise, nach der Zerlegung oder Zusammenführung geschieht. (Partitionierungsalgorithmen)
Ähnlichkeit vs. Distanzmaß Ähnlichkeitsmaße: Geeignet, wenn Ähnlichkeitsaspekt im Fokus steht. Distanzmaße gut geeignet, wenn absoluter Abstand von Objekten Interesse ist
Euklidische Distanz Kürzeste Entfernung per „Luftlinie“ – Pythagoras)
City-Block-Metrik Schachbrett-Muster; erst X-Achse, dann Y-Achse;
Minkowski-Metrik Verallgemeinerung beider Vorgehen: mit c=1; city block; c=2; Euklidisch; c größer 1 Minkowski
Auswahl des Fusionierungsalgorithmus: Basis: Distanz- vs. Ähnlichkeitsmatrix
Partitionierende Verfahren: Gehen von Startpartition aus, dh. Gegebene Gruppierung der Objekte und Anzahl von Gruppen. Objekte werden dann zwischen den Gruppen geschoben, bis bei der Zielfunktion ein Optimum erreicht ist. Vorteil: Objekte können während des Fusionierungsprozesses getauscht werden. Wäre blöd, wenn nicht, weil darauf das Verfahren beruht 
Agglomerative Verfahren: Beginnen bei feinsten Partition, also bei Gesamtanzahl der Untersuchungsobjekte und fassen dann Objekte in Gruppen zusammen.
Divisive Verfahren: (Gegenstück zu agglomerativ) Alle Einheiten = Eine Gruppe Teilen dann neue Gruppen ein und Objekte dazu.
Probleme bei de Durchführung von partitionierenden Verfahren: 1.) Anzahl der Gruppen, in die Objekte eingeteilt werden können. 2.) Nach welchem Kriterium werden die Objekte in die Gruppe eingeteilt? Zufall? Hierarchische Partitionierung? Es folgt hieraus logisch: Die Wahl der Startpartition ist meist subjektiv. Bei Zufälliger Startpartition ergeben sich logischerweise unterschiedliche Ergebnisse, DENN ES WERDEN NUR LOKALE Optima und keine GLOBALEN gefunden.
K-Means-Verfahren (partitionierend) Eigenschaften: -K Gruppen - Zielkrierium: Varianzkriterium (min) - Distanzmaß: Euklidisches Distanzmaß
Fusionierung (Auswahl des Algorithmus) Single Linkage: Nächster Nachbar Complete Linkage: Entferntester Nachbar
Ward-Verfahren: In der Praxis weit verbreitet Unterscheidung von anderen Linkageverfahren; Nicht Objekte von geringster Distanz zusammengefasst, sondern Objekte vereinigen, die ein gewisses Kriterium (meist Varianzkriterium) am wenigsten vergrößern. Erzeugt möglichst homogene Cluster. Zur Interpretation können verschiedene Indikatoren herangezogen werden: 1.) Mittelwert der Variablenausprägungen in den jeweiligen Clustern 2.) Berechnung der F-Werte 3.) Berechnung der t-Werte
F-Wert (Clusteranalyse) „Der F-Wert kann zur Beurteilung der Homogenität einer gefundenen Gruppen genutzt werden. Je kleiner ein F-Wert ist, desto geringer ist die Streuung dieser Variable in einer Gruppe im Vergleich zur Erhebungsgesamtheit. à Wert < 1, da sonst die Variable mehr Streuung in der Gruppe existiert als in der Grundgesamtheit. à Cluster ist vollkommen homogen, wenn alle F-Wert kleiner 1 sind à Muss händisch pro Gruppe bestimmt werden.“
t-Wert (Clusteranalyse) T-Wert dient nicht zur Bewertung der Clusterung, sondern vielmehr zur Charakterisierung der jeweiligen Cluster. Durch welche Variable grenzen sich die Cluster untereinander ab, ist die Fragestellung. Sofern mehr als 2 Gruppen, kann durch Varianzanalyse ein Gruppenunterschied festgestellt werden. ACHTUNG: Hier kann F größer 1 werden und muss das auch, damit es signifikante Gruppenunterschiede gibt.
Voteile Clusteranalyse Leicht anwendbares Verfahren • Flexible Einsatzmöglichkeiten • unterschiedliche Problemstellungen können durch Vielzahl von Möglichkeiten zur Verfahrensanpassung gelöst werden • Clusteranalysewerkzeuge sind in den gängigen Statistiksoftwareprogrammen implementiert • Kostengünstig
Nachteile Clusteranalyse Interpretation der Ergebnisse erfordert Informationen über den verwendeten Cluster-algorithmus • Viel Willkür im Verfahren aufgrund diverser Stellschrauben • Nur lineare Zusammenhänge erkennbar • Ergebnis hängt stark von den Inputvariablen ab.
Show full summary Hide full summary

Similar

Statistik Theorie
Clara Vanessa
Sachversicherungen
Christine Zehnder
METH STADA SS 2019
Caroline Hannah
Haftpflichtversicherungen
Christine Zehnder
Unfallversicherung
Christine Zehnder
Statistik und Differenzialgleichungen
barbara91
Statistik
vemi1994
beschreibende Statistik
birburlue
Statistik
Lily Lightman
Erfassung von Zusammenhängen: 4-Felder Tafeln
menes
Karteikarten Quantitative Forschungsmethoden
goconqr5396