Rozkład chi-kwadrat (χ²), sposób jego obliczania, przykłady

4520
Sherman Hoover

Dowód Chi do kwadratu lub chi-kwadratdwa, gdzie χ to grecka litera zwana „chi”) służy do określenia zachowania pewnej zmiennej, a także gdy chcesz wiedzieć, czy dwie lub więcej zmiennych jest statystycznie niezależnych.

Aby sprawdzić zachowanie zmiennej, wywoływany jest test, który ma zostać wykonany test dopasowania chi-kwadrat. Aby dowiedzieć się, czy dwie lub więcej zmiennych jest statystycznie niezależnych, wywoływany jest test chi kwadrat niezależności, nazywany również przypadkowość.

Rysunek 1. Testy hipotez przy użyciu kwadratu chi

Testy te są częścią statystycznej teorii decyzji, w której badana jest populacja i podejmowane decyzje na jej temat, analizując jedną lub więcej pobranych z niej próbek. Wymaga to przyjęcia pewnych założeń dotyczących zmiennych, tzw hipoteza, co może być prawdą lub nie.

Istnieje kilka testów, które porównują te przypuszczenia i określają, które są prawidłowe, z pewnym marginesem pewności, w tym test chi-kwadrat, który można zastosować do porównania dwóch i więcej populacji..

Jak zobaczymy, dwa typy hipotez są zwykle podnoszone na temat jakiegoś parametru populacji w dwóch próbach: hipoteza zerowa, zwana Hlub (próbki są niezależne) i hipotezę alternatywną, oznaczoną jako H.1, (próbki są skorelowane), co jest przeciwieństwem tego.

Indeks artykułów

  • 1 Kiedy stosuje się test chi-kwadrat?
    • 1.1 Warunki jego stosowania
  • 2 Rozkład chi-kwadrat
    • 2.1 Stopnie swobody
    • 2.2 Formułowanie hipotez
  • 3 Jak obliczana jest statystyka chi-kwadrat?
    • 3.1 Kryteria akceptacji dla Ho
  • 4 Przykład obliczenia
  • 5 Referencje

Kiedy stosuje się test chi-kwadrat?

Test chi-kwadrat stosuje się do zmiennych opisujących takie cechy, jak płeć, stan cywilny, grupa krwi, kolor oczu i różnego rodzaju preferencje.

Test jest przeznaczony, gdy chcesz:

-Sprawdzenie, czy rozkład jest odpowiedni do opisania zmiennej, która jest nazywana Dobroć dopasowania. Za pomocą testu chi-kwadrat można dowiedzieć się, czy istnieją istotne różnice między wybranym rozkładem teoretycznym a obserwowanym rozkładem częstotliwości..

-Wiedz, czy dwie zmienne X i Y są niezależne ze statystycznego punktu widzenia. Jest to znane jako test niezależności.

Ponieważ jest stosowany do zmiennych jakościowych lub kategorialnych, test chi-kwadrat jest szeroko stosowany w naukach społecznych, zarządzaniu i medycynie..

Warunki jego stosowania

Istnieją dwa ważne wymagania, aby poprawnie go zastosować:

-Dane muszą być pogrupowane według częstotliwości.

-Próbka musi być dostatecznie duża, aby rozkład chi-kwadrat był prawidłowy, w przeciwnym razie jej wartość jest przeszacowana i prowadzi do odrzucenia hipotezy zerowej, gdy nie powinno tak być..

Ogólna zasada jest taka, że ​​jeśli w zgrupowanych danych pojawia się częstotliwość o wartości mniejszej niż 5, nie jest ona używana. Jeśli więcej niż jedna częstotliwość jest mniejsza niż 5, należy je połączyć w jedną, aby uzyskać częstotliwość o wartości liczbowej większej niż 5.

Rozkład chi-kwadrat

χdwa jest to ciągły rozkład prawdopodobieństw. W rzeczywistości istnieją różne krzywe, w zależności od parametru k nazywa stopnie swobody zmiennej losowej.

Jego właściwości to:

-Powierzchnia pod krzywą jest równa 1.

-Wartości χdwa są pozytywne.

-Dystrybucja jest asymetryczna, to znaczy ma odchylenie.

Rysunek 2. Rozkład chi-kwadrat dla stopni swobody w watach. Źródło: Wikimedia Commons.

Stopnie swobody

Wraz ze wzrostem stopni swobody rozkład chi-kwadrat zmierza w kierunku normalności, jak widać na rysunku.

Dla danego rozkładu stopnie swobody są określane za pomocą tabela awaryjna, która jest tabelą, w której zapisywane są obserwowane częstości zmiennych.

Jeśli stół ma fa rzędy i do kolumny, wartość k to jest:

k = (f - 1) ⋅ (c - 1)

Formułowanie hipotez

Gdy test chi-kwadrat jest zgodny, formułuje się następujące hipotezy:

-H.lub: zmienna X ma rozkład prawdopodobieństwa f (x) z określonymi parametrami y1, Ydwa…, Yp

-H.1: X ma inny rozkład prawdopodobieństwa.

Rozkład prawdopodobieństwa przyjęty w hipotezie zerowej może być na przykład znanym rozkładem normalnym, a parametrami byłyby średnia μ i odchylenie standardowe σ.

Ponadto hipoteza zerowa jest oceniana z pewnym poziomem istotności, czyli miarą błędu, który zostałby popełniony w przypadku odrzucenia jej jako prawdziwej.

Zwykle ten poziom jest ustawiony na 1%, 5% lub 10%, a im niższy, tym bardziej wiarygodny jest wynik testu..

A jeśli zastosuje się test kontyngencji chi-kwadrat, który, jak powiedzieliśmy, służy do weryfikacji niezależności między dwiema zmiennymi X i Y, to hipotezy są następujące:

-H.lub: zmienne X i Y są niezależne.

-H.1: X i Y są zależne.

Ponownie konieczne jest określenie poziomu istotności, aby znać miarę błędu przy podejmowaniu decyzji..

Jak obliczana jest statystyka chi-kwadrat?

Statystyka chi-kwadrat jest obliczana w następujący sposób:

Sumowanie odbywa się od pierwszej klasy i = 1 do ostatniej, czyli i = k.

Co więcej:

-falub to obserwowana częstotliwość (pochodzi z uzyskanych danych).

-fai to oczekiwana lub teoretyczna częstotliwość (należy obliczyć na podstawie danych).

Aby zaakceptować lub odrzucić hipotezę zerową, obliczamy χdwa dla zaobserwowanych danych i porównane z wartością o nazwie krytyczny kwadrat chi, co zależy od stopni swobody k i poziom istotności α:

χdwakrytyczny =  χdwak, α

Jeśli np. Chcemy przeprowadzić test z poziomem istotności 1%, to α = 0,01, jeśli będzie z 5%, to α = 0,05 i tak dalej. Definiujemy p, parametr rozkładu, jako:

p = 1 - α

Te krytyczne wartości chi-kwadrat są określane przez tabele zawierające skumulowaną wartość powierzchni. Na przykład dla k = 1, co oznacza 1 stopień swobody i α = 0,05, co równa się p = 1- 0,05 = 0,95, wartość χdwa wynosi 3841.

Rysunek 3. Tabela wartości rozkładu chi-kwadrat. Źródło: F. Zapata.

Kryteria akceptacji H.lub

Kryterium przyjęcia H.lub to jest:

-Tak χdwa < χdwakrytyczny  H jest akceptowanelub, w przeciwnym razie jest odrzucany (patrz rysunek 1).

Przykład obliczenia

W poniższej aplikacji test chi-kwadrat zostanie użyty jako test niezależności.

Załóżmy, że badacze chcą wiedzieć, czy preferencja dla czarnej kawy jest związana z płcią osoby i określają odpowiedź na poziomie istotności α = 0,05.

W tym celu dostępna jest próbka 100 osób, z którymi przeprowadzono wywiady, i ich odpowiedzi:

Krok 1

Ustal hipotezy:

-H.lub: płeć i preferencje dla czarnej kawy są niezależne.
-H.1: smak czarnej kawy jest powiązany z płcią osoby.

Krok 2

Oblicz oczekiwane częstości dla rozkładu, dla którego wymagane są sumy dodane w ostatnim wierszu iw prawej kolumnie tabeli. Każda komórka w czerwonym polu ma oczekiwaną wartość fai, która jest obliczana przez pomnożenie sumy z wiersza F przez sumę z kolumny C, podzieloną przez sumę próbki N:

fai = (F x C) / N

Wyniki są następujące dla każdej komórki:

-C1: (36 x 47) / 100 = 16,92
-C2: (64 x 47) / 100 = 30,08
-C3: (36 x 53) / 100 = 19,08
-C4: (64 x 53) / 100 = 33,92

Krok 3

Następnie dla tego rozkładu należy obliczyć statystykę chi-kwadrat według podanego wzoru:

Krok 4

Określ χdwakrytyczny, wiedząc, że zapisane dane znajdują się w f = 2 rzędach ic = 2 kolumnach, dlatego liczba stopni swobody wynosi:

k = (2-1) ⋅ (2-1) = 1.

Co oznacza, że ​​w powyższej tabeli musimy poszukać wartości χdwak, α = χdwa1; 0,05 , który jest:

χdwakrytyczny = 3,841

Krok 5

Porównaj wartości i zdecyduj:

χdwa = 2,9005

χdwakrytyczny = 3,841

Od χdwa < χdwakrytyczny hipoteza zerowa zostaje przyjęta i stwierdza się, że preferencja dla czarnej kawy nie jest związana z płcią osoby, przy poziomie istotności 5%.

Bibliografia

  1. Test Chi-kwadrat na niezależność. Odzyskany z: saylordotorg.github.io.
  2. Med Wave. Statystyka stosowana w naukach o zdrowiu: test chi-kwadrat. Odzyskany z: medwave.cl.
  3. Prawdopodobieństwa i statystyki. Test dobroci dopasowania chi-kwadrat. Odzyskany z: probayestadistica.com.
  4. Triola, M. 2012. Statystyka elementarna. 11th. Wydanie. Addison Wesley.
  5. UNAM. Test chi-kwadrat. Odzyskany z: asesorias.cuautitlan2.unam.mx.

Jeszcze bez komentarzy