Plik Współczynnik korelacji w statystyce jest to wskaźnik mierzący tendencję dwóch zmiennych ilościowych X i Y do liniowego lub proporcjonalnego związku między nimi.
Ogólnie rzecz biorąc, pary zmiennych X i Y to dwie cechy tej samej populacji. Na przykład X może oznaczać wzrost osoby, a Y jego wagę..
W takim przypadku współczynnik korelacji wskazywałby, czy istnieje trend w kierunku proporcjonalnej zależności między wzrostem a wagą w danej populacji..
Współczynnik korelacji liniowej Pearsona oznaczono literą r małe litery, a ich wartości minimalne i maksymalne to odpowiednio -1 i +1.
Wartość r = +1 wskazywałaby, że zestaw par (X, Y) jest idealnie wyrównany i że gdy X rośnie, Y będzie rosnąć w tej samej proporcji. Z drugiej strony, gdyby zdarzyło się, że r = -1, zestaw par również byłby idealnie wyrównany, ale w tym przypadku, gdy X rośnie, Y maleje w tej samej proporcji.
Z drugiej strony, wartość r = 0 wskazywałaby, że nie ma liniowej korelacji między zmiennymi X i Y. Podczas gdy wartość r = +0,8 wskazywałaby, że pary (X, Y) mają tendencję do skupiania się po jednej stronie i kolejny o pewnym stricie.
Wzór na obliczenie współczynnika korelacji r jest następujący:
Współczynnik korelacji liniowej to wielkość statystyczna występująca w kalkulatorach naukowych, większości arkuszy kalkulacyjnych i programach statystycznych..
Jednak wygodnie jest wiedzieć, w jaki sposób stosuje się formułę, która go definiuje, i do tego zostaną pokazane szczegółowe obliczenia, przeprowadzone na małym zestawie danych.
Jak powiedziano w poprzedniej sekcji, współczynnik korelacji to kowariancja Sxy podzielona przez iloczyn odchylenia standardowego Sx dla zmiennych X i Sy dla zmiennej Y.
Kowariancja Sxy to:
Sxy = [Σ (Xi -
Gdzie suma idzie od 1 do N par danych (Xi, Yi).
Ze swojej strony odchylenie standardowe dla zmiennej X jest pierwiastkiem kwadratowym z wariancji zbioru danych Xi, gdzie i od 1 do N:
Sx = √ [Σ (Xi -
Podobnie odchylenie standardowe dla zmiennej Y jest pierwiastkiem kwadratowym z wariancji zbioru danych Yi, przy czym i od 1 do N:
Sy = √ [Σ (Yi -
Aby szczegółowo pokazać, jak obliczyć współczynnik korelacji, weźmiemy następujący zestaw czterech par danych
(X, Y): (1, 1); (2. 3); (3, 6) i (4, 7).
Najpierw obliczamy średnią arytmetyczną dla X i Y w następujący sposób:
Następnie obliczane są pozostałe parametry:
Sxy = [(1 - 2,5) (1 - 4,25) + (2 - 2,5) (3 - 4,25) + (3 - 2,5) (6 - 4,25) +….…. (4 - 2,5) (7 - 4,25) ] / (4-1)
Sxy = [(-1,5) (- 3,25) + (-0,5) (- 1,25) + (0,5) (1,75) +… .
…. (1,5) (2,75)] / (3) = 10,5 / 3 = 3.5
Sx = √ [(-1,5)dwa + (-0,5)dwa + (0,5)dwa + (1,5)dwa) / (4-1)] = √ [5/3] = 1.29
Sx = √ [(-3,25)dwa + (-1,25)dwa + (1,75)dwa + (2,75)dwa) / (4-1)] =
√ [22,75 / 3] = 2,75
r = 3,5 / (1,29 * 2,75) = 0.98
W zbiorze danych z poprzedniego przypadku obserwuje się silną korelację liniową między zmiennymi X i Y, co przejawia się zarówno na wykresie punktowym (przedstawionym na rysunku 1), jak i we współczynniku korelacji, co daje wartość dość bliską jedności.
W takim stopniu, w jakim współczynnik korelacji jest bliższy 1 lub -1, tym bardziej sensowne jest dopasowanie danych do linii, wynik regresji liniowej..
Linię regresji liniowej otrzymujemy z Metoda najmniejszych kwadratów. w którym parametry linii regresji uzyskuje się z minimalizacji sumy kwadratów różnicy między oszacowaną wartością Y a Yi danych N.
Z drugiej strony parametry a i b linii regresji y = a + bx, otrzymane metodą najmniejszych kwadratów, to:
* b = Sxy / (Sxdwa) Na stoku
* a =
Przypomnijmy, że Sxy to kowariancja zdefiniowana powyżej, a Sxdwa to wariancja lub kwadrat odchylenia standardowego określonego powyżej.
Współczynnik korelacji służy do określenia, czy istnieje korelacja liniowa między dwiema zmiennymi. Ma to zastosowanie, gdy badane zmienne są ilościowe, a ponadto zakłada się, że mają one rozkład normalny..
Poniżej mamy przykład ilustrujący: miarą stopnia otyłości jest wskaźnik masy ciała, który uzyskuje się poprzez podzielenie wagi osoby w kilogramach przez jej wzrost do kwadratu w metrach do kwadratu.
Chcesz wiedzieć, czy istnieje silna korelacja między wskaźnikiem masy ciała a stężeniem cholesterolu HDL we krwi, mierzonym w milimolach na litr. W tym celu przeprowadzono badanie z udziałem 533 osób, które podsumowano na poniższym wykresie, na którym każdy punkt przedstawia dane osoby.
Dokładna obserwacja wykresu pokazuje, że istnieje pewna liniowa tendencja (niezbyt wyraźna) między stężeniem cholesterolu HDL a wskaźnikiem masy ciała. Ilościową miarą tego trendu jest współczynnik korelacji, który w tym przypadku okazał się r = -0,276.
Jeszcze bez komentarzy