Wzory na współczynniki korelacji, obliczenia, interpretacja, przykład

4835
Philip Kelley

Plik Współczynnik korelacji w statystyce jest to wskaźnik mierzący tendencję dwóch zmiennych ilościowych X i Y do liniowego lub proporcjonalnego związku między nimi.

Ogólnie rzecz biorąc, pary zmiennych X i Y to dwie cechy tej samej populacji. Na przykład X może oznaczać wzrost osoby, a Y jego wagę..

Rysunek 1. Współczynnik korelacji dla czterech par danych (X, Y). Źródło: F. Zapata.

W takim przypadku współczynnik korelacji wskazywałby, czy istnieje trend w kierunku proporcjonalnej zależności między wzrostem a wagą w danej populacji..

Współczynnik korelacji liniowej Pearsona oznaczono literą r małe litery, a ich wartości minimalne i maksymalne to odpowiednio -1 i +1. 

Wartość r = +1 wskazywałaby, że zestaw par (X, Y) jest idealnie wyrównany i że gdy X rośnie, Y będzie rosnąć w tej samej proporcji. Z drugiej strony, gdyby zdarzyło się, że r = -1, zestaw par również byłby idealnie wyrównany, ale w tym przypadku, gdy X rośnie, Y maleje w tej samej proporcji.

Rysunek 2. Różne wartości współczynnika korelacji liniowej. Źródło: Wikimedia Commons.

Z drugiej strony, wartość r = 0 wskazywałaby, że nie ma liniowej korelacji między zmiennymi X i Y. Podczas gdy wartość r = +0,8 wskazywałaby, że pary (X, Y) mają tendencję do skupiania się po jednej stronie i kolejny o pewnym stricie.

Wzór na obliczenie współczynnika korelacji r jest następujący:

Jak obliczyć współczynnik korelacji?

Współczynnik korelacji liniowej to wielkość statystyczna występująca w kalkulatorach naukowych, większości arkuszy kalkulacyjnych i programach statystycznych..

Jednak wygodnie jest wiedzieć, w jaki sposób stosuje się formułę, która go definiuje, i do tego zostaną pokazane szczegółowe obliczenia, przeprowadzone na małym zestawie danych.

Jak powiedziano w poprzedniej sekcji, współczynnik korelacji to kowariancja Sxy podzielona przez iloczyn odchylenia standardowego Sx dla zmiennych X i Sy dla zmiennej Y.

Kowariancja i wariancja

Kowariancja Sxy to:

Sxy = [Σ (Xi - ) (Yi - )] / (N-1)

Gdzie suma idzie od 1 do N par danych (Xi, Yi). i są średnimi arytmetycznymi odpowiednio danych Xi i Yi.

Ze swojej strony odchylenie standardowe dla zmiennej X jest pierwiastkiem kwadratowym z wariancji zbioru danych Xi, gdzie i od 1 do N:

Sx = √ [Σ (Xi - ) ^ 2) / (N-1)]

Podobnie odchylenie standardowe dla zmiennej Y jest pierwiastkiem kwadratowym z wariancji zbioru danych Yi, przy czym i od 1 do N:

Sy = √ [Σ (Yi - )dwa ) / (N-1)]

Przykładowy przypadek

Aby szczegółowo pokazać, jak obliczyć współczynnik korelacji, weźmiemy następujący zestaw czterech par danych 

(X, Y): (1, 1); (2. 3); (3, 6) i (4, 7).

Najpierw obliczamy średnią arytmetyczną dla X i Y w następujący sposób:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Następnie obliczane są pozostałe parametry:

Covariance Sxy

Sxy = [(1 - 2,5) (1 - 4,25) + (2 - 2,5) (3 - 4,25) + (3 - 2,5) (6 - 4,25) +….…. (4 - 2,5) (7 - 4,25) ] / (4-1)

Sxy = [(-1,5) (- 3,25) + (-0,5) (- 1,25) + (0,5) (1,75) +… . 

…. (1,5) (2,75)] / (3) = 10,5 / 3 = 3.5

Odchylenie standardowe Sx

Sx = √ [(-1,5)dwa + (-0,5)dwa + (0,5)dwa + (1,5)dwa) / (4-1)] = √ [5/3] = 1.29

Odchylenie standardowe Sy

Sx = √ [(-3,25)dwa + (-1,25)dwa + (1,75)dwa + (2,75)dwa) / (4-1)] = 

√ [22,75 / 3] = 2,75

Współczynnik korelacji r

r = 3,5 / (1,29 * 2,75) = 0.98

Interpretacja

W zbiorze danych z poprzedniego przypadku obserwuje się silną korelację liniową między zmiennymi X i Y, co przejawia się zarówno na wykresie punktowym (przedstawionym na rysunku 1), jak i we współczynniku korelacji, co daje wartość dość bliską jedności.

W takim stopniu, w jakim współczynnik korelacji jest bliższy 1 lub -1, tym bardziej sensowne jest dopasowanie danych do linii, wynik regresji liniowej..

Regresja liniowa

Linię regresji liniowej otrzymujemy z Metoda najmniejszych kwadratów. w którym parametry linii regresji uzyskuje się z minimalizacji sumy kwadratów różnicy między oszacowaną wartością Y a Yi danych N.

Z drugiej strony parametry a i b linii regresji y = a + bx, otrzymane metodą najmniejszych kwadratów, to:

* b = Sxy / (Sxdwa) Na stoku

* a = - b do przecięcia linii regresji z osią Y..

Przypomnijmy, że Sxy to kowariancja zdefiniowana powyżej, a Sxdwa to wariancja lub kwadrat odchylenia standardowego określonego powyżej. i są średnimi arytmetycznymi danych X i Y odpowiednio.

Przykład

Współczynnik korelacji służy do określenia, czy istnieje korelacja liniowa między dwiema zmiennymi. Ma to zastosowanie, gdy badane zmienne są ilościowe, a ponadto zakłada się, że mają one rozkład normalny..

Poniżej mamy przykład ilustrujący: miarą stopnia otyłości jest wskaźnik masy ciała, który uzyskuje się poprzez podzielenie wagi osoby w kilogramach przez jej wzrost do kwadratu w metrach do kwadratu.

Chcesz wiedzieć, czy istnieje silna korelacja między wskaźnikiem masy ciała a stężeniem cholesterolu HDL we krwi, mierzonym w milimolach na litr. W tym celu przeprowadzono badanie z udziałem 533 osób, które podsumowano na poniższym wykresie, na którym każdy punkt przedstawia dane osoby.

Rycina 3. Badanie BMI i cholesterolu HDL u 533 pacjentów. Źródło: Aragoński Instytut Nauk o Zdrowiu (IACS).

Dokładna obserwacja wykresu pokazuje, że istnieje pewna liniowa tendencja (niezbyt wyraźna) między stężeniem cholesterolu HDL a wskaźnikiem masy ciała. Ilościową miarą tego trendu jest współczynnik korelacji, który w tym przypadku okazał się r = -0,276.

Bibliografia

  1. González C. Statystyka ogólna. Odzyskany z: tarwi.lamolina.edu.pe
  2. IACS. Aragoński Instytut Nauk o Zdrowiu. Odzyskany z: ics-aragon.com 
  3. Salazar C. i Castillo S. Podstawowe zasady statystyki. (2018). Odzyskany z: dspace.uce.edu.ec
  4. Superprof. Współczynnik korelacji. Odzyskany z: superprof.es
  5. USAC. Opisowy podręcznik statystyki. (2011). Odzyskany z: statistics.ingenieria.usac.edu.gt
  6. Wikipedia. Współczynnik korelacji Pearsona. Odzyskany z: es.wikipedia.com.

Jeszcze bez komentarzy