Współczynnik formuł określania, obliczenia, interpretacja, przykłady

1208
Simon Doyle
Współczynnik formuł określania, obliczenia, interpretacja, przykłady

Plik współczynnik determinacji to liczba z przedziału od 0 do 1, która reprezentuje ułamek punktów (X, Y), które następują po linii regresji dopasowania zestawu danych z dwiema zmiennymi.

Jest również znany jako Dobroć dopasowania i jest oznaczony przez Rdwa. Aby to obliczyć, przyjmuje się iloraz wariancji danych Ŷi oszacowanych przez model regresji i wariancji danych Yi odpowiadających każdemu Xi danych.

Rdwa = Sŷ / Sy

Rysunek 1. Współczynnik korelacji dla czterech par danych. Źródło: F. Zapata.

Jeśli 100% danych znajduje się na linii funkcji regresji, wówczas współczynnik determinacji będzie wynosił 1.

Wręcz przeciwnie, jeśli dla zbioru danych i określonej funkcji dostosowawczej współczynnik Rdwa okazuje się być równe 0,5, wówczas można powiedzieć, że dopasowanie jest w 50% zadowalające lub dobre. 

Podobnie, gdy model regresji zwraca wartości R.dwa niższa niż 0,5 oznacza to, że wybrana funkcja dopasowania nie dostosowuje się w sposób zadowalający do danych, dlatego konieczne jest poszukanie innej funkcji dopasowania.

A kiedy kowariancja albo Współczynnik korelacji dąży do zera, wtedy zmienne X i Y w danych nie są ze sobą powiązane, a zatem Rdwa będzie również dążyć do zera.

Indeks artykułów

  • 1 Jak obliczyć współczynnik determinacji?
    • 1.1 Przykładowy przypadek
  • 2 Interpretacja
  • 3 przykłady
    • 3.1 - Przykład 1
    • 3.2 - Przykład 2
    • 3.3 - Przykład 3
    • 3.4 Porównanie dopasowania
    • 3.5 Wnioski
  • 4 Odnośniki

Jak obliczyć współczynnik determinacji?

W poprzednim rozdziale powiedziano, że współczynnik determinacji oblicza się, znajdując iloraz wariancji:

-Oszacowane przez funkcję regresji zmiennej Y 

-Zmienna Yi odpowiadająca każdej zmiennej Xi z N par danych. 

Pod względem matematycznym wygląda to tak:

Rdwa = Sŷ / Sy

Z tego wzoru wynika, że ​​R.dwa reprezentuje proporcję wariancji wyjaśnioną przez model regresji. Alternatywnie można obliczyć Rdwa używając następującego wzoru, całkowicie równoważnego z poprzednim:

Rdwa = 1 - (Sε / Sy)

Gdzie Sε reprezentuje wariancję reszt εi = Ŷi - Yi, podczas gdy Sy to wariancja zbioru wartości Yi danych. Do określenia Ŷi stosuje się funkcję regresji, co oznacza stwierdzenie, że Ŷi = f (Xi).

Wariancja zbioru danych Yi, gdzie i od 1 do N jest obliczana w następujący sposób:

Sy = [Σ (Yi - )dwa ) / (N-1)]

Następnie postępuj w podobny sposób dla Sŷ lub Sε.

Przykładowy przypadek

Aby pokazać szczegóły, w jaki sposób oblicza się współczynnik determinacji weźmiemy następujący zestaw czterech par danych: 

(X, Y): (1, 1); (2. 3); (3, 6) i (4, 7).

Dla tego zbioru danych proponuje się dopasowanie regresji liniowej, które uzyskuje się metodą najmniejszych kwadratów:

f (x) = 2,1 x - 1 

Stosując tę ​​funkcję regulacji, uzyskuje się momenty:

(X, Ŷ): (1, 1.1); (2, 3,2); (3, 5,3) i (4, 7,4).

Następnie obliczamy średnią arytmetyczną dla X i Y:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Variance Sy

Sy = [(1 - 4,25)dwa + (3 - 4,25)dwa + (6 - 4,25)dwa +….…. (7 - 4,25)dwa] / (4-1) =

= [(-3,25)dwa+ (-1,25)dwa + (1,75)dwa + (2,75)dwa) / (3)] = 7,583

Wariancja Sŷ

Sŷ = [(1,1 - 4,25)dwa + (3,2 - 4,25)dwa + (5,3 - 4,25)dwa +….…. (7,4 - 4,25)dwa] / (4-1) =

= [(-3,25)dwa + (-1,25)dwa + (1,75)dwa + (2,75)dwa) / (3)] = 7,35

Współczynnik determinacji R.dwa

Rdwa = Sŷ / Sy = 7,35 / 7,58 = 0,97

Interpretacja

Współczynnik determinacji dla przypadku poglądowego rozpatrywanego w poprzednim segmencie wyniósł 0,98. Innymi słowy, liniowa regulacja poprzez funkcję:

 f (x) = 2,1x - 1

Jest w 98% wiarygodna w wyjaśnianiu danych, z którymi została uzyskana metodą najmniejszych kwadratów.. 

Oprócz współczynnika determinacji istnieje współczynnik korelacji liniowej lub znany również jako współczynnik Pearsona. Ten współczynnik, oznaczony jako r, oblicza się za pomocą następującej zależności:

r = Sxy / (Sx Sy)

Tutaj licznik reprezentuje kowariancję między zmiennymi X i Y, podczas gdy mianownik jest iloczynem odchylenia standardowego dla zmiennej X i odchylenia standardowego dla zmiennej Y.

Współczynnik Pearsona może przyjmować wartości od -1 do +1. Gdy współczynnik ten dąży do +1, istnieje bezpośrednia korelacja liniowa między X i Y. Jeśli zamiast tego zmierza do -1, występuje korelacja liniowa, ale gdy X rośnie, Y maleje. Wreszcie, jest blisko 0, nie ma korelacji między dwiema zmiennymi.

Należy zauważyć, że współczynnik determinacji pokrywa się z kwadratem współczynnika Pearsona tylko wtedy, gdy pierwszy został obliczony na podstawie dopasowania liniowego, ale ta równość nie dotyczy innych kształtek nieliniowych..

Przykłady

- Przykład 1

Grupa licealistów postanowiła wyznaczyć empiryczne prawo dotyczące okresu wahadła w funkcji jego długości. Aby osiągnąć ten cel, wykonują serię pomiarów, w których mierzą czas drgań wahadła dla różnych długości, uzyskując następujące wartości:

Długość (m) Okres (y)
0,1 0.6
0,4 1.31
0,7 1.78
1 1,93
1.3 2.19
1.6 2,66
1.9 2.77
3 3.62

Wymagane jest sporządzenie wykresu punktowego danych i dopasowanie liniowe poprzez regresję. Pokaż również równanie regresji i jego współczynnik determinacji.

Rozwiązanie

Rysunek 2. Wykres rozwiązania do ćwiczenia 1. Źródło: F. Zapata.

Można zaobserwować dość wysoki współczynnik determinacji (95%), więc można by sądzić, że dopasowanie liniowe jest optymalne. Jeśli jednak punkty są oglądane razem, wydaje się, że mają one tendencję do zakrzywiania się w dół. Ten szczegół nie jest uwzględniony w modelu liniowym.

- Przykład 2

Dla tych samych danych w przykładzie 1 wykonaj wykres punktowy danych. W tym przypadku, w przeciwieństwie do przykładu 1, żąda się korekty regresji przy użyciu funkcji potencjału.

Rysunek 3. Wykres rozwiązania dla ćwiczenia 2. Źródło: F. Zapata.

Pokaż także funkcję dopasowania i jej współczynnik determinacji Rdwa.

Rozwiązanie

Funkcja potencjału ma postać f (x) = Axb, gdzie A i B są stałymi określanymi metodą najmniejszych kwadratów.

Na poprzednim rysunku przedstawiono funkcję potencjału i jej parametry, a także współczynnik determinacji o bardzo wysokiej wartości 99%. Zwróć uwagę, że dane są zgodne z krzywizną linii trendu.

- Przykład 3

Korzystając z tych samych danych z przykładu 1 i przykładu 2, przeprowadź dopasowanie wielomianu drugiego stopnia. Pokaż wykres, wielomian dopasowania i współczynnik determinacji Rdwa korespondent.

Rozwiązanie

Rysunek 4. Wykres rozwiązania dla ćwiczenia 3. Źródło: F. Zapata.

Przy dopasowaniu wielomianu drugiego stopnia można zobaczyć linię trendu, która dobrze pasuje do krzywizny danych. Ponadto współczynnik determinacji jest powyżej dopasowania liniowego i poniżej dopasowania potencjału..

Porównanie dopasowania

Spośród trzech pokazanych pasowań, ten o najwyższym współczynniku determinacji jest dopasowaniem potencjału (przykład 2).

Potencjalne dopasowanie pokrywa się z fizyczną teorią wahadła, która, jak wiadomo, zakłada, że ​​okres wahadła jest proporcjonalny do pierwiastka kwadratowego jego długości, przy czym stała proporcjonalności wynosi 2π / √g, gdzie g jest przyspieszeniem powaga.

Ten typ potencjalnego dopasowania ma nie tylko najwyższy współczynnik determinacji, ale wykładnik i stała proporcjonalności pasują do modelu fizycznego.. 

Wnioski

-Dopasowanie regresji określa parametry funkcji, której celem jest wyjaśnienie danych metodą najmniejszych kwadratów. Metoda ta polega na minimalizacji sumy kwadratów różnicy między wartością Y korekty a wartością Yi danych dla wartości Xi danych. Określa parametry funkcji regulacji.

-Jak widzieliśmy, najczęstszą funkcją dostosowującą jest linia, ale nie jedyna, ponieważ korekty mogą być również wielomianowe, potencjalne, wykładnicze, logarytmiczne i inne.. 

-W każdym przypadku współczynnik determinacji zależy od danych i typu dopasowania i jest wskaźnikiem jakości zastosowanego dopasowania..

-Wreszcie współczynnik determinacji wskazuje procent całkowitej zmienności między wartością Y danych względem wartości Ŷ dopasowania dla danego X.

Bibliografia

  1. González C. Statystyka ogólna. Odzyskany z: tarwi.lamolina.edu.pe
  2. IACS. Aragoński Instytut Nauk o Zdrowiu. Odzyskany z: ics-aragon.com
  3. Salazar C. i Castillo S. Podstawowe zasady statystyki. (2018). Odzyskany z: dspace.uce.edu.ec
  4. Superprof. Współczynnik determinacji. Odzyskany z: superprof.es
  5. USAC. Opisowy podręcznik statystyki. (2011). Odzyskany z: statistics.ingenieria.usac.edu.gt.
  6. Wikipedia. Współczynnik determinacji. Odzyskany z: es.wikipedia.com.

Jeszcze bez komentarzy