Charakterystyka i przykłady zmiennych kategorialnych

4363
Sherman Hoover
Charakterystyka i przykłady zmiennych kategorialnych

Plik Zmienna kategoryczna Jest to metoda używana w statystyce do przypisywania nienumerycznej lub jakościowej cechy lub właściwości do jakiegoś przedmiotu, osoby, podmiotu, stanu lub procedury. Możliwe jest zdefiniowanie wszystkich rodzajów zmiennych kategorialnych zgodnie z każdą potrzebą. 

Przykładami zmiennych kategorialnych są: kolor skóry, płeć, grupa krwi, stan cywilny, rodzaj materiału, forma płatności czy rodzaj konta bankowego i są one często używane na co dzień..

Rysunek 1: Kolor jest zmienną kategorialną. Źródło: pixabay

Powyższe są zmiennymi, ale ich możliwe wartości są jakościowe, to znaczy jakościowe lub charakterystyczne, a nie pomiaru numerycznego. Na przykład możliwe wartości zmiennej seks Oni są: męski , godzembra.

Gdy ta zmienna jest przechowywana w programie komputerowym, może zostać zadeklarowana jako zmienna tekstowa, a jedynymi akceptowanymi wartościami będą te już nazwane: Męski , Płeć żeńska.

Jednak ta sama zmienna seks można zadeklarować i zapisać jako liczbę całkowitą, jeśli a Męski jest przypisany 1 już Płeć żeńska wartość jest przypisana dwa. Z tego powodu zmienne kategorialne są czasami określane jako typ wyliczeniowy.

Główną cechą zmiennych kategorialnych jest to, że w przeciwieństwie do innych zmiennych, takich jak ciągłe i dyskretne, nie można na nich wykonywać działań arytmetycznych. Możesz jednak robić z nimi statystyki, co zobaczysz później.

Indeks artykułów

  • 1 Przykłady
  • 2 Klasyfikacja zmiennych kategorialnych
    • 2.1 Kategorie nominalne 
    • 2.2 Kategorie porządkowe
    • 2.3 Kategorie binarne
  • 3 Statystyka ze zmiennymi kategorialnymi
    • 3.1 Graficzna reprezentacja zmiennych kategorialnych
  • 4 ćwiczenia rozwiązane
    • 4.1 Ćwiczenie 1
    • 4.2 Przykład 2
    • 4.3 Przykład 3
  • 5 Referencje

Przykłady

Zwróć uwagę na następujące przykłady zmiennych kategorialnych i ich możliwe wartości:

-Grupa krwi, Zakres wartości: A, B, AB, O

-Status cywilny, Wartości kategoryczne: Pojedynczy (DO), Żonaty (B), Wdowiec (DO) , Rozwiedziony (RE).

-Rodzaj materiału, Kategorie lub wartości: 1 = drewno, 2 = metal, 3 = tworzywo sztuczne

-Sposób zapłaty, Wartości lub kategorie: (1) gotówka, (2) debet, (3) przelew, (4) kredyt

W poprzednich przykładach liczba została przypisana do każdej kategorii w całkowicie dowolny sposób. 

Można by więc pomyśleć, że to dowolne skojarzenie liczbowe czyni go równym a dyskretna zmienna ilościowa, ale tak nie jest, ponieważ operacje arytmetyczne nie mogą być wykonane na tych liczbach.

Aby zilustrować ten pomysł, w zmiennej Sposób zapłaty, suma operacji nie ma sensu:

 (1) Gotówka + (2) Debet nigdy nie będzie równy (3) Przeniesienie

Klasyfikacja zmiennych kategorialnych

Ranking opiera się na tym, czy mają niejawną hierarchię, czy też liczba możliwych wyników jest większa niż dwa lub dwa.

Zmienna kategorialna z tylko jednym możliwym wynikiem nie jest zmienną, jest stałą kategorialną.

Kategorie nominalne 

Kiedy nie mogą być reprezentowane przez liczbę lub mają jakąkolwiek kolejność. Na przykład zmienna: Material_type, tma wartości nominalne (Drewno, metal, plastik), nie mają żadnej hierarchii ani porządku, nawet jeśli do każdej odpowiedzi lub kategorii jest przypisany dowolny numer.

Porządkowa kategorialna

Zmienna: Wyniki w nauce

Wartości nominalne: Wysoka Średnia Niska

Chociaż wartości tej zmiennej nie są liczbami, mają niejawną kolejność lub hierarchię.

Kategorie binarne

Są to zmienne nominalne z dwiema możliwymi odpowiedziami, na przykład:

-Zmienna: Odpowiedź

-Wartości nominalne: Prawdziwe, Imitacja

Zwróć uwagę, że zmienna Odpowiedź nie ma niejawnej hierarchii i ma tylko dwa możliwe wyniki, więc jest binarną zmienną kategorialną.

Niektórzy autorzy nazywają ten typ zmienna binarna, i nie uważaj go za należący do zmienne kategorialne które są ograniczone do tych z więcej niż trzema możliwymi kategoriami.

Statystyka ze zmiennymi kategorialnymi

Statystyki można przeprowadzać za pomocą zmiennych kategorialnych, mimo że nie są to zmienne liczbowe ani ilościowe. Na przykład, aby poznać trend lub najbardziej prawdopodobną wartość zmiennej kategorialnej, weź Moda.

Moda w tym przypadku jest to najczęściej powtarzający się wynik lub wartość zmiennej kategorialnej. W przypadku zmiennych kategorialnych nie można obliczyć ani średniej, ani mediany.

Nie można obliczyć średniej, ponieważ nie można przeprowadzić arytmetyki na zmiennych kategorialnych. Nie jest też mediana, ponieważ zmienne ilościowe lub kategorialne nie mają porządku ani hierarchii, więc nie jest możliwe określenie wartości centralnej..

Graficzna reprezentacja zmiennych kategorialnych

Biorąc pod uwagę określoną zmienną kategorialną, można znaleźć częstotliwość lub liczbę powtórzeń wyniku tej zmiennej. Jeśli zostanie to zrobione dla każdego wyniku, można sporządzić wykres częstotliwości w odniesieniu do każdej kategorii lub wyniku..

Oto kilka przykładów graficznej reprezentacji zmiennych kategorialnych.

Rozwiązane ćwiczenia

Ćwiczenie 1

Firma posiada zapisy danych 170 pracowników. Jedną ze zmiennych znajdujących się w tych rejestrach jest: Status cywilny. Ta zmienna ma cztery kategorie lub możliwe wartości:

Pojedynczy (DO), Żonaty (B), Wdowiec (DO) , Rozwiedziony (RE).

Chociaż jest to zmienna nienumeryczna, można dowiedzieć się, ile z całkowitych rekordów należy do określonej kategorii i przedstawić je w formie wykresu słupkowego, jak pokazano na poniższym rysunku:

Rysunek 2. Reprezentacja wyników zmiennej kategorialnej. Źródło: wykonane samodzielnie

Przykład 2

Sklep obuwniczy śledzi sprzedaż. Wśród zmiennych, które zarządzają ich rekordami, jest kolor buta dla każdego modelu. Zmienna: 

Kolor_Buty_Model_AW3

Jest kategoryczny i ma pięć możliwych kategorii lub wartości. Dla każdej kategorii tej zmiennej sumuje się liczbę sprzedaży i ustala się ich procent. Wyniki przedstawiono na wykresie na poniższym rysunku:

Rysunek 3. Zmienna kategorialna Color _Shoe. W tej zmiennej tryb jest biały. Źródło: wykonane samodzielnie.

Można więc powiedzieć, że model buta AW3, który jest w moda, najczęściej sprzedawanym jest Biały, ściśle śledzone przez czarny

Można też powiedzieć, że z 70% prawdopodobieństwem następny sprzedany but tego modelu będzie Biały lub czarny.

Ta informacja może być przydatna dla sklepu przy składaniu nowych zamówień, a nawet może zastosować rabaty na najmniej sprzedawane kolory z powodu nadmiernych zapasów..

Przykład 3

W przypadku określonej populacji dawców krwi chcesz przedstawić liczbę osób należących do określonej grupy krwi. Graficznym sposobem wizualizacji wyników jest piktogram, który znajduje się w tle tabeli.

Pierwsza kolumna reprezentuje zmienną Grupa krwi i jego możliwe wyniki lub kategorie. Druga kolumna przedstawia w postaci ikonicznej lub obrazkowej liczbę osób w każdej kategorii. W naszym przykładzie czerwona kropla jest używana jako ikona, z których każda reprezentuje 10 osób.

Rysunek 4. Piktogram. Źródło: wykonane samodzielnie

Bibliografia

  1. Khan academy. Analiza danych kategorycznych. Odzyskane z: khanacademy.org
  2. Wszechświatowe formuły. Zmienna jakościowa. Odzyskany z: univesoformulas.com
  3. Minitab. Które są zmiennymi kategorialnymi, dyskretnymi i ciągłymi. Odzyskany z: support.minitab.com
  4. Samouczek programu Excel. Charakterystyka zmiennych. Odzyskany z: help.xlslat.com.
  5. Wikipedia. Zmienna statystyczna. Odzyskany z wikipedia.com
  6. Wikipedia. Zmienna kategoryczna. Odzyskany z wikipedia.com
  7. Wikipedia. Zmienna kategoryczna. Odzyskany z wikipedia.com

Jeszcze bez komentarzy