- Wie berechnet man den Korrelationskoeffizienten?
- Kovarianz und Varianz
- Illustrativer Fall
- Kovarianz Sxy
- Standardabweichung Sx
- Standardabweichung Sy
- Korrelationskoeffizient r
- Deutung
- Lineare Regression
- Beispiel
- Verweise
Der Korrelationskoeffizient in der Statistik ist ein Indikator, der die Tendenz zweier quantitativer Variablen X und Y misst, eine lineare oder proportionale Beziehung zwischen ihnen zu haben.
Im Allgemeinen sind die Variablenpaare X und Y zwei Merkmale derselben Population. Zum Beispiel könnte X die Größe einer Person und Y ihr Gewicht sein.
Abbildung 1. Korrelationskoeffizient für vier Datenpaare (X, Y). Quelle: F. Zapata.
In diesem Fall würde der Korrelationskoeffizient angeben, ob in einer bestimmten Population ein Trend zu einer proportionalen Beziehung zwischen Größe und Gewicht besteht oder nicht.
Der lineare Korrelationskoeffizient von Pearson wird durch den Kleinbuchstaben r angegeben, und seine Minimal- und Maximalwerte sind -1 bzw. +1.
Ein Wert r = +1 würde anzeigen, dass die Menge der Paare (X, Y) perfekt ausgerichtet ist und dass Y im gleichen Verhältnis wächst, wenn X wächst. Wenn andererseits r = -1 wäre, wäre auch die Menge der Paare perfekt ausgerichtet, aber in diesem Fall nimmt Y im gleichen Verhältnis ab, wenn X zunimmt.
Abbildung 2. Unterschiedliche Werte des linearen Korrelationskoeffizienten. Quelle: Wikimedia Commons.
Andererseits würde ein Wert von r = 0 anzeigen, dass es keine lineare Korrelation zwischen den Variablen X und Y gibt, während ein Wert von r = +0,8 anzeigen würde, dass die Paare (X, Y) dazu neigen, sich auf einer Seite und zu gruppieren eine andere einer bestimmten Linie.
Die Formel zur Berechnung des Korrelationskoeffizienten r lautet wie folgt:
Wie berechnet man den Korrelationskoeffizienten?
Der lineare Korrelationskoeffizient ist eine statistische Größe, die in wissenschaftliche Taschenrechner, die meisten Tabellenkalkulationen und statistische Programme integriert ist.
Es ist jedoch zweckmäßig zu wissen, wie die Formel, die sie definiert, angewendet wird, und dazu wird eine detaillierte Berechnung gezeigt, die an einem kleinen Datensatz durchgeführt wird.
Und wie im vorherigen Abschnitt angegeben, ist der Korrelationskoeffizient die Kovarianz Sxy geteilt durch das Produkt der Standardabweichung Sx für die Variablen X und Sy für die Variable Y.
Kovarianz und Varianz
Die Kovarianz Sxy ist:
Sxy = / (N-1)
Wobei die Summe von 1 zu den N Datenpaaren (Xi, Yi) geht.
Die Standardabweichung für die Variable X ist ihrerseits die Quadratwurzel der Varianz des Datensatzes Xi mit i von 1 bis N:
Sx = √
In ähnlicher Weise ist die Standardabweichung für die Variable Y die Quadratwurzel der Varianz des Datensatzes Yi mit i von 1 bis N:
Sy = √
Illustrativer Fall
Um detailliert zu zeigen, wie der Korrelationskoeffizient berechnet wird, nehmen wir den folgenden Satz von vier Datenpaaren
(X, Y): {(1, 1); (2. 3); (3, 6) und (4, 7)}.
Zuerst berechnen wir das arithmetische Mittel für X und Y wie folgt:
Dann werden die restlichen Parameter berechnet:
Kovarianz Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standardabweichung Sx
Sx = √ = √ = 1,29
Standardabweichung Sy
Sx = √ =
√ = 2,75
Korrelationskoeffizient r
r = 3,5 / (1,29 · 2,75) = 0,98
Deutung
Im Datensatz des vorherigen Falles wird eine starke lineare Korrelation zwischen den Variablen X und Y beobachtet, die sich sowohl im Streudiagramm (in Abbildung 1 gezeigt) als auch im Korrelationskoeffizienten manifestiert, der a ergab Wert ziemlich nahe an der Einheit.
In dem Maße, in dem der Korrelationskoeffizient näher an 1 oder -1 liegt, ist es das Ergebnis einer linearen Regression, je sinnvoller es ist, die Daten an eine Linie anzupassen.
Lineare Regression
Die lineare Regressionslinie wird nach der Methode der kleinsten Quadrate erhalten. wobei die Parameter der Regressionslinie aus der Minimierung der Summe des Quadrats der Differenz zwischen dem geschätzten Y-Wert und dem Yi der N-Daten erhalten werden.
Andererseits sind die Parameter a und b der Regressionslinie y = a + bx, die nach der Methode der kleinsten Quadrate erhalten werden:
* b = Sxy / (Sx 2 ) für die Steigung
* a =
Denken Sie daran, dass Sxy die oben definierte Kovarianz und Sx 2 die Varianz oder das Quadrat der oben definierten Standardabweichung ist.
Beispiel
Der Korrelationskoeffizient wird verwendet, um zu bestimmen, ob zwischen zwei Variablen eine lineare Korrelation besteht. Es ist anwendbar, wenn die zu untersuchenden Variablen quantitativ sind und außerdem angenommen wird, dass sie einer normalen Typverteilung folgen.
Wir haben ein anschauliches Beispiel unten: Ein Maß für den Grad der Fettleibigkeit ist der Body-Mass-Index, der erhalten wird, indem das Gewicht einer Person in Kilogramm durch die quadratische Größe der Person in Einheiten von Quadratmetern dividiert wird.
Sie möchten wissen, ob eine starke Korrelation zwischen dem Body-Mass-Index und der Konzentration von HDL-Cholesterin im Blut besteht, gemessen in Millimol pro Liter. Zu diesem Zweck wurde eine Studie mit 533 Personen durchgeführt, die in der folgenden Grafik zusammengefasst ist, in der jeder Punkt die Daten einer Person darstellt.
Abbildung 3. Untersuchung des BMI und des HDL-Cholesterins bei 533 Patienten. Quelle: Aragonesisches Institut für Gesundheitswissenschaften (IACS).
Eine sorgfältige Betrachtung des Diagramms zeigt, dass zwischen der HDL-Cholesterinkonzentration und dem Body-Mass-Index ein gewisser linearer Trend (nicht sehr ausgeprägt) besteht. Das quantitative Maß für diesen Trend ist der Korrelationskoeffizient, der sich in diesem Fall als r = -0,276 herausstellte.
Verweise
- González C. Allgemeine Statistik. Wiederhergestellt von: tarwi.lamolina.edu.pe
- IACS. Aragonesisches Institut für Gesundheitswissenschaften. Wiederhergestellt von: ics-aragon.com
- Salazar C. und Castillo S. Grundprinzipien der Statistik. (2018). Wiederhergestellt von: dspace.uce.edu.ec
- Superprof. Korrelationskoeffizient. Wiederhergestellt von: superprof.es
- USAC. Beschreibendes Statistikhandbuch. (2011). Wiederhergestellt von: statistics.ingenieria.usac.edu.gt
- Wikipedia. Pearson-Korrelationskoeffizient. Wiederhergestellt von: es.wikipedia.com.