Plik Zmienna kategoryczna Jest to metoda używana w statystyce do przypisywania nienumerycznej lub jakościowej cechy lub właściwości do jakiegoś przedmiotu, osoby, podmiotu, stanu lub procedury. Możliwe jest zdefiniowanie wszystkich rodzajów zmiennych kategorialnych zgodnie z każdą potrzebą.
Przykładami zmiennych kategorialnych są: kolor skóry, płeć, grupa krwi, stan cywilny, rodzaj materiału, forma płatności czy rodzaj konta bankowego i są one często używane na co dzień..
Powyższe są zmiennymi, ale ich możliwe wartości są jakościowe, to znaczy jakościowe lub charakterystyczne, a nie pomiaru numerycznego. Na przykład możliwe wartości zmiennej seks Oni są: męski , godzembra.
Gdy ta zmienna jest przechowywana w programie komputerowym, może zostać zadeklarowana jako zmienna tekstowa, a jedynymi akceptowanymi wartościami będą te już nazwane: Męski , Płeć żeńska.
Jednak ta sama zmienna seks można zadeklarować i zapisać jako liczbę całkowitą, jeśli a Męski jest przypisany 1 już Płeć żeńska wartość jest przypisana dwa. Z tego powodu zmienne kategorialne są czasami określane jako typ wyliczeniowy.
Główną cechą zmiennych kategorialnych jest to, że w przeciwieństwie do innych zmiennych, takich jak ciągłe i dyskretne, nie można na nich wykonywać działań arytmetycznych. Możesz jednak robić z nimi statystyki, co zobaczysz później.
Indeks artykułów
Zwróć uwagę na następujące przykłady zmiennych kategorialnych i ich możliwe wartości:
-Grupa krwi, Zakres wartości: A, B, AB, O
-Status cywilny, Wartości kategoryczne: Pojedynczy (DO), Żonaty (B), Wdowiec (DO) , Rozwiedziony (RE).
-Rodzaj materiału, Kategorie lub wartości: 1 = drewno, 2 = metal, 3 = tworzywo sztuczne
-Sposób zapłaty, Wartości lub kategorie: (1) gotówka, (2) debet, (3) przelew, (4) kredyt
W poprzednich przykładach liczba została przypisana do każdej kategorii w całkowicie dowolny sposób.
Można by więc pomyśleć, że to dowolne skojarzenie liczbowe czyni go równym a dyskretna zmienna ilościowa, ale tak nie jest, ponieważ operacje arytmetyczne nie mogą być wykonane na tych liczbach.
Aby zilustrować ten pomysł, w zmiennej Sposób zapłaty, suma operacji nie ma sensu:
(1) Gotówka + (2) Debet nigdy nie będzie równy (3) Przeniesienie
Ranking opiera się na tym, czy mają niejawną hierarchię, czy też liczba możliwych wyników jest większa niż dwa lub dwa.
Zmienna kategorialna z tylko jednym możliwym wynikiem nie jest zmienną, jest stałą kategorialną.
Kiedy nie mogą być reprezentowane przez liczbę lub mają jakąkolwiek kolejność. Na przykład zmienna: Material_type, tma wartości nominalne (Drewno, metal, plastik), nie mają żadnej hierarchii ani porządku, nawet jeśli do każdej odpowiedzi lub kategorii jest przypisany dowolny numer.
Zmienna: Wyniki w nauce
Wartości nominalne: Wysoka Średnia Niska
Chociaż wartości tej zmiennej nie są liczbami, mają niejawną kolejność lub hierarchię.
Są to zmienne nominalne z dwiema możliwymi odpowiedziami, na przykład:
-Zmienna: Odpowiedź
-Wartości nominalne: Prawdziwe, Imitacja
Zwróć uwagę, że zmienna Odpowiedź nie ma niejawnej hierarchii i ma tylko dwa możliwe wyniki, więc jest binarną zmienną kategorialną.
Niektórzy autorzy nazywają ten typ zmienna binarna, i nie uważaj go za należący do zmienne kategorialne które są ograniczone do tych z więcej niż trzema możliwymi kategoriami.
Statystyki można przeprowadzać za pomocą zmiennych kategorialnych, mimo że nie są to zmienne liczbowe ani ilościowe. Na przykład, aby poznać trend lub najbardziej prawdopodobną wartość zmiennej kategorialnej, weź Moda.
Moda w tym przypadku jest to najczęściej powtarzający się wynik lub wartość zmiennej kategorialnej. W przypadku zmiennych kategorialnych nie można obliczyć ani średniej, ani mediany.
Nie można obliczyć średniej, ponieważ nie można przeprowadzić arytmetyki na zmiennych kategorialnych. Nie jest też mediana, ponieważ zmienne ilościowe lub kategorialne nie mają porządku ani hierarchii, więc nie jest możliwe określenie wartości centralnej..
Biorąc pod uwagę określoną zmienną kategorialną, można znaleźć częstotliwość lub liczbę powtórzeń wyniku tej zmiennej. Jeśli zostanie to zrobione dla każdego wyniku, można sporządzić wykres częstotliwości w odniesieniu do każdej kategorii lub wyniku..
Oto kilka przykładów graficznej reprezentacji zmiennych kategorialnych.
Firma posiada zapisy danych 170 pracowników. Jedną ze zmiennych znajdujących się w tych rejestrach jest: Status cywilny. Ta zmienna ma cztery kategorie lub możliwe wartości:
Pojedynczy (DO), Żonaty (B), Wdowiec (DO) , Rozwiedziony (RE).
Chociaż jest to zmienna nienumeryczna, można dowiedzieć się, ile z całkowitych rekordów należy do określonej kategorii i przedstawić je w formie wykresu słupkowego, jak pokazano na poniższym rysunku:
Sklep obuwniczy śledzi sprzedaż. Wśród zmiennych, które zarządzają ich rekordami, jest kolor buta dla każdego modelu. Zmienna:
Kolor_Buty_Model_AW3
Jest kategoryczny i ma pięć możliwych kategorii lub wartości. Dla każdej kategorii tej zmiennej sumuje się liczbę sprzedaży i ustala się ich procent. Wyniki przedstawiono na wykresie na poniższym rysunku:
Można więc powiedzieć, że model buta AW3, który jest w moda, najczęściej sprzedawanym jest Biały, ściśle śledzone przez czarny.
Można też powiedzieć, że z 70% prawdopodobieństwem następny sprzedany but tego modelu będzie Biały lub czarny.
Ta informacja może być przydatna dla sklepu przy składaniu nowych zamówień, a nawet może zastosować rabaty na najmniej sprzedawane kolory z powodu nadmiernych zapasów..
W przypadku określonej populacji dawców krwi chcesz przedstawić liczbę osób należących do określonej grupy krwi. Graficznym sposobem wizualizacji wyników jest piktogram, który znajduje się w tle tabeli.
Pierwsza kolumna reprezentuje zmienną Grupa krwi i jego możliwe wyniki lub kategorie. Druga kolumna przedstawia w postaci ikonicznej lub obrazkowej liczbę osób w każdej kategorii. W naszym przykładzie czerwona kropla jest używana jako ikona, z których każda reprezentuje 10 osób.
Jeszcze bez komentarzy