- Wie berechnet man den Bestimmungskoeffizienten?
- Illustrativer Fall
- Deutung
- Beispiele
- - Beispiel 1
- Lösung
- - Beispiel 2
- Lösung
- - Beispiel 3
- Lösung
- Fit Vergleich
- Schlussfolgerungen
- Verweise
Der Bestimmungskoeffizient ist eine Zahl zwischen 0 und 1, die den Bruchteil der Punkte (X, Y) darstellt, die der Regressionsanpassungslinie eines Datensatzes mit zwei Variablen folgen.
Es ist auch als Anpassungsgüte bekannt und wird mit R 2 bezeichnet . Um es zu berechnen, wird der Quotient zwischen der Varianz der durch das Regressionsmodell geschätzten Daten Ŷi und der Varianz der Daten Yi, die jedem Xi der Daten entsprechen, genommen.
R 2 = Sŷ / Sy
Abbildung 1. Korrelationskoeffizient für vier Datenpaare. Quelle: F. Zapata.
Wenn sich 100% der Daten auf der Linie der Regressionsfunktion befinden, beträgt der Bestimmungskoeffizient 1.
Wenn sich im Gegenteil für einen Datensatz und eine bestimmte Anpassungsfunktion herausstellt, dass der Koeffizient R 2 gleich 0,5 ist, kann gesagt werden, dass die Anpassung zu 50% zufriedenstellend oder gut ist.
Wenn das Regressionsmodell R 2 -Werte von weniger als 0,5 liefert , zeigt dies an, dass sich die gewählte Anpassungsfunktion nicht zufriedenstellend an die Daten anpasst, weshalb nach einer anderen Anpassungsfunktion gesucht werden muss.
Und wenn die Kovarianz oder der Korrelationskoeffizient gegen Null tendieren, dann sind die Variablen X und Y in den Daten nicht miteinander verbunden, und daher tendiert R 2 auch gegen Null.
Wie berechnet man den Bestimmungskoeffizienten?
Im vorherigen Abschnitt wurde gesagt, dass der Bestimmungskoeffizient berechnet wird, indem der Quotient zwischen den Varianzen ermittelt wird:
-Geschätzt durch die Regressionsfunktion der Variablen Y.
-Das der Variablen Yi entspricht jeder der Variablen Xi der N Datenpaare.
Mathematisch ausgedrückt sieht es so aus:
R 2 = Sŷ / Sy
Aus dieser Formel folgt, dass R 2 den Anteil der Varianz darstellt, der durch das Regressionsmodell erklärt wird. Alternativ kann R 2 unter Verwendung der folgenden Formel berechnet werden, die der vorherigen Formel vollständig entspricht:
R 2 = 1 - (S & epsi; / Sy)
Wobei Sε die Varianz der Residuen εi = Ŷi - Yi darstellt, während Sy die Varianz des Satzes von Yi-Werten der Daten ist. Um Ŷi zu bestimmen, wird die Regressionsfunktion angewendet, was bedeutet, dass Ŷi = f (Xi) ist.
Die Varianz des Datensatzes Yi mit i von 1 bis N wird folgendermaßen berechnet:
Sy =
Und dann verfahren Sie auf ähnliche Weise für Sŷ oder Sε.
Illustrativer Fall
Um die Details der Berechnung des Bestimmungskoeffizienten zu zeigen, nehmen wir den folgenden Satz von vier Datenpaaren:
(X, Y): {(1, 1); (2. 3); (3, 6) und (4, 7)}.
Für diesen Datensatz wird eine lineare Regressionsanpassung vorgeschlagen, die mit der Methode der kleinsten Quadrate erhalten wird:
f (x) = 2,1 x - 1
Durch Anwenden dieser Einstellfunktion werden die Drehmomente erhalten:
(X, Ŷ): {(1, 1.1); (2, 3,2); (3, 5.3) und (4, 7.4)}.
Dann berechnen wir das arithmetische Mittel für X und Y:
Varianz Sy
Sy = / (4-1) =
= = 7.583
Varianz Sŷ
Sŷ = / (4-1) =
= = 7,35
Bestimmungskoeffizient R 2
R 2 = Sŷ / Sy = 7,35 / 7,58 = 0,97
Deutung
Der Bestimmungskoeffizient für den im vorherigen Segment betrachteten veranschaulichenden Fall betrug 0,98. Mit anderen Worten, die lineare Anpassung durch die Funktion:
f (x) = 2,1x - 1
Es ist zu 98% zuverlässig bei der Erklärung der Daten, mit denen es unter Verwendung der Methode der kleinsten Quadrate erhalten wurde.
Zusätzlich zum Bestimmungskoeffizienten gibt es den linearen Korrelationskoeffizienten oder auch als Pearson-Koeffizienten bekannt. Dieser als r bezeichnete Koeffizient wird durch die folgende Beziehung berechnet:
r = Sxy / (Sx Sy)
Hier repräsentiert der Zähler die Kovarianz zwischen den Variablen X und Y, während der Nenner das Produkt der Standardabweichung für die Variable X und der Standardabweichung für die Variable Y ist.
Der Pearson-Koeffizient kann Werte zwischen -1 und +1 annehmen. Wenn dieser Koeffizient gegen +1 tendiert, gibt es eine direkte lineare Korrelation zwischen X und Y. Wenn er stattdessen gegen -1 tendiert, gibt es eine lineare Korrelation, aber wenn X wächst, nimmt Y ab. Schließlich ist es nahe 0, es gibt keine Korrelation zwischen den beiden Variablen.
Es ist zu beachten, dass der Bestimmungskoeffizient nur dann mit dem Quadrat des Pearson-Koeffizienten übereinstimmt, wenn der erste auf der Grundlage einer linearen Anpassung berechnet wurde. Diese Gleichheit gilt jedoch nicht für andere nichtlineare Anpassungen.
Beispiele
- Beispiel 1
Eine Gruppe von Schülern machte sich daran, ein empirisches Gesetz für die Dauer eines Pendels als Funktion seiner Länge zu bestimmen. Um dieses Ziel zu erreichen, führen sie eine Reihe von Messungen durch, bei denen sie die Zeit einer Pendelschwingung für verschiedene Längen messen und dabei folgende Werte erhalten:
Länge (m) | Zeitraum (e) |
---|---|
0,1 | 0,6 |
0,4 | 1.31 |
0,7 | 1,78 |
einer | 1,93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2,77 |
3 | 3.62 |
Es wird angefordert, ein Streudiagramm der Daten zu erstellen und eine lineare Anpassung durch Regression durchzuführen. Zeigen Sie auch die Regressionsgleichung und ihren Bestimmungskoeffizienten.
Lösung
Abbildung 2. Lösungsdiagramm für Übung 1. Quelle: F. Zapata.
Es kann ein ziemlich hoher Bestimmungskoeffizient (95%) beobachtet werden, so dass angenommen werden kann, dass die lineare Anpassung optimal ist. Wenn die Punkte jedoch zusammen betrachtet werden, scheinen sie die Tendenz zu haben, sich nach unten zu krümmen. Dieses Detail wird im linearen Modell nicht berücksichtigt.
- Beispiel 2
Erstellen Sie für dieselben Daten in Beispiel 1 ein Streudiagramm der Daten. In diesem Fall wird im Gegensatz zu Beispiel 1 eine Regressionsanpassung unter Verwendung einer potenziellen Funktion angefordert.
Abbildung 3. Lösungsdiagramm für Übung 2. Quelle: F. Zapata.
Zeigen Sie auch die Anpassungsfunktion und ihren Bestimmungskoeffizienten R 2 .
Lösung
Die potentielle Funktion hat die Form f (x) = Ax B , wobei A und B Konstanten sind, die nach der Methode der kleinsten Quadrate bestimmt werden.
Die vorige Abbildung zeigt die Potentialfunktion und ihre Parameter sowie den Bestimmungskoeffizienten mit einem sehr hohen Wert von 99%. Beachten Sie, dass die Daten der Krümmung der Trendlinie folgen.
- Beispiel 3
Führen Sie unter Verwendung der gleichen Daten aus Beispiel 1 und Beispiel 2 eine Polynomanpassung zweiten Grades durch. Zeigen Sie den Graphen, das Anpassungspolynom und den entsprechenden Bestimmungskoeffizienten R 2 .
Lösung
Abbildung 4. Lösungsdiagramm für Übung 3. Quelle: F. Zapata.
Mit der Polynomanpassung zweiten Grades können Sie eine Trendlinie sehen, die gut zur Krümmung der Daten passt. Der Bestimmungskoeffizient liegt auch über der linearen Anpassung und unter der potenziellen Anpassung.
Fit Vergleich
Von den drei gezeigten Anpassungen ist diejenige mit dem höchsten Bestimmungskoeffizienten die potenzielle Anpassung (Beispiel 2).
Die potentielle Anpassung stimmt mit der physikalischen Theorie des Pendels überein, die bekanntlich feststellt, dass die Periode eines Pendels proportional zur Quadratwurzel seiner Länge ist, wobei die Proportionalitätskonstante 2π / √g beträgt, wobei g die Erdbeschleunigung ist.
Diese Art der Potentialanpassung hat nicht nur den höchsten Bestimmungskoeffizienten, sondern der Exponent und die Proportionalitätskonstante stimmen mit dem physikalischen Modell überein.
Schlussfolgerungen
-Die Regressionsanpassung bestimmt die Parameter der Funktion, mit der die Daten mithilfe der Methode der kleinsten Quadrate erklärt werden sollen. Diese Methode besteht darin, die Summe der quadratischen Differenz zwischen dem Anpassungs-Y-Wert und dem Yi-Wert der Daten für die Xi-Werte der Daten zu minimieren. Dies bestimmt die Parameter der Abstimmfunktion.
-Wie wir gesehen haben, ist die häufigste Anpassungsfunktion die Linie, aber nicht die einzige, da die Anpassungen auch polynomisch, potentiell, exponentiell, logarithmisch und andere sein können.
-In jedem Fall hängt der Bestimmungskoeffizient von den Daten und der Art der Einstellung ab und ist ein Hinweis auf die Güte der angewendeten Einstellung.
- Schließlich gibt der Bestimmungskoeffizient den Prozentsatz der Gesamtvariabilität zwischen dem Y-Wert der Daten in Bezug auf den Ŷ-Wert der Anpassung für das angegebene X an.
Verweise
- González C. Allgemeine Statistik. Wiederhergestellt von: tarwi.lamolina.edu.pe
- IACS. Aragonesisches Institut für Gesundheitswissenschaften. Wiederhergestellt von: ics-aragon.com
- Salazar C. und Castillo S. Grundprinzipien der Statistik. (2018). Wiederhergestellt von: dspace.uce.edu.ec
- Superprof. Bestimmungskoeffizient. Wiederhergestellt von: superprof.es
- USAC. Beschreibendes Statistikhandbuch. (2011). Wiederhergestellt von: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Bestimmungskoeffizient. Wiederhergestellt von: es.wikipedia.com.