Przykłady zbiorczych danych i rozwiązane ćwiczenia

2400
Robert Johnston

Plik zgrupowane dane to te, które zostały podzielone na kategorie lub klasy, biorąc za kryterium ich częstotliwość. Odbywa się to w celu uproszczenia obsługi dużych ilości danych i ustalenia ich trendów..

Po uporządkowaniu w te klasy według ich częstotliwości dane tworzą plik rozkład częstotliwości, z którego pozyskuje się przydatne informacje poprzez jego cechy.

Rysunek 1. Na podstawie pogrupowanych danych można konstruować wykresy i obliczać parametry statystyczne opisujące trendy. Źródło: Pixabay.

Oto prosty przykład zgrupowanych danych:

Załóżmy, że mierzony jest wzrost 100 studentek wybranych ze wszystkich podstawowych kierunków fizyki na uniwersytecie i uzyskuje się następujące wyniki:

Uzyskane wyniki podzielono na 5 klas, które pojawiają się w lewej kolumnie.

W pierwszej klasie liczącej od 155 do 159 cm jest 6 uczniów, w drugiej klasie od 160 do 164 cm jest 14 uczniów, w trzeciej klasie od 165 do 169 cm jest najwięcej osób: 47. Następnie klasa trwa 170-174 cm. z 28 uczniami i wreszcie 175-174 cm z zaledwie 5.

Liczba członków każdej klasy jest dokładnie taka sama częstotliwość lub Absolutna frecuency a dodając je wszystkie, uzyskuje się łączne dane, które w tym przykładzie wynoszą 100.

Indeks artykułów

  • 1 Charakterystyka rozkładu częstotliwości
    • 1.1 Częstotliwość
    • 1.2 Limity
    • 1.3 Granice
    • 1.4 Amplituda
    • 1.5 Znak klasy
  • 2 Miary tendencji centralnej i rozproszenia dla danych zgrupowanych
    • 2.1 Średnia
    • 2.2 Mediana
    • 2.3 Moda
    • 2.4 Wariancja i odchylenie standardowe
  • 3 Ćwiczenie rozwiązane
    • 3.1 Rozwiązanie a
    • 3.2 Rozwiązanie b
    • 3.3 Rozwiązanie d
  • 4 Odnośniki

Charakterystyka rozkładu częstotliwości

Częstotliwość

Jak widzieliśmy, częstotliwość to liczba powtórzeń danych. Aby ułatwić obliczenia właściwości rozkładu, takich jak średnia i wariancja, zdefiniowano następujące wielkości:

-Skumulowana częstotliwość: jest otrzymywany przez dodanie częstotliwości klasy z poprzednią zakumulowaną częstotliwością. Pierwsza ze wszystkich częstotliwości odpowiada częstotliwości z danego przedziału, a ostatnia to całkowita liczba danych.

-Względna częstotliwość: obliczone poprzez podzielenie bezwzględnej częstotliwości każdej klasy przez całkowitą liczbę danych. A jeśli pomnożymy przez 100, otrzymamy względną częstotliwość procentową.

-Skumulowana częstotliwość względna: jest sumą względnych częstości każdej klasy z nagromadzoną poprzednią. Ostatnia z zakumulowanych częstotliwości względnych musi być równa 1.

W naszym przykładzie częstotliwości wyglądają następująco:

Limity

Nazywa się skrajne wartości każdej klasy lub przedziału limity klasowe. Jak widać, każda klasa ma niższy i wyższy limit. Na przykład pierwsza klasa w badaniu wzrostu ma dolną granicę 155 cm i wyższą 159 cm..

Ten przykład ma jasno określone granice, jednak możliwe jest zdefiniowanie granic otwartych: jeśli zamiast definiować dokładne wartości, powiedzmy „wysokość mniejsza niż 160 cm”, „wysokość mniejsza niż 165 cm” i tak dalej.

Granice

Wysokość jest zmienną ciągłą, więc można uznać, że pierwsza klasa faktycznie zaczyna się od 154,5 cm, ponieważ zaokrąglenie tej wartości do najbliższej liczby całkowitej daje 155 cm.

Ta klasa obejmuje wszystkie wartości do 159,5 cm, ponieważ po tym wysokość jest zaokrąglana do 160,0 cm. Wzrost 159,7 cm należy już do następnej klasy.

Rzeczywiste granice klas w tym przykładzie są w cm:

  • 154,5 - 159,5
  • 159,5 - 164,5
  • 164,5 - 169,5
  • 169,5 - 174,5
  • 174,5 - 179,5

Amplituda

Szerokość klasy uzyskuje się odejmując granice. Dla pierwszego przedziału naszego przykładu mamy 159,5 - 154,5 cm = 5 cm.

Czytelnik może zweryfikować, że dla pozostałych przedziałów przykładu amplituda również wynosi 5 cm. Należy jednak zauważyć, że rozkłady można konstruować z przedziałami o różnej amplitudzie.

Znak klasy

Jest to punkt środkowy przedziału i jest uzyskiwany jako średnia między górną granicą a dolną granicą.

W naszym przykładzie pierwsza klasa to (155 + 159) / 2 = 157 cm. Czytelnik widzi, że pozostałe oceny klas to: 162, 167, 172 i 177 cm.

Określenie ocen klas jest ważne, ponieważ są one niezbędne do znalezienia średniej arytmetycznej i wariancji rozkładu.

Miary tendencji centralnej i rozproszenia dla danych zbiorczych

Najczęściej stosowanymi miarami tendencji centralnej są średnia, mediana i mod i precyzyjnie opisują one tendencję danych do skupiania się wokół określonej wartości centralnej..

Pół

Jest to jeden z głównych mierników tendencji centralnej. W danych zgrupowanych średnią arytmetyczną można obliczyć ze wzoru:

-X jest średnią

-faja to częstotliwość zajęć

-mja to ocena klasy

-g to liczba klas

-n to całkowita liczba danych

Mediana

W przypadku mediany konieczne jest określenie przedziału, w którym występuje obserwacja n / 2. W naszym przykładzie ta obserwacja ma numer 50, ponieważ w sumie jest 100 punktów danych. Ta obserwacja mieści się w przedziale 165-169 cm.

Następnie musisz dokonać interpolacji, aby znaleźć wartość liczbową, która odpowiada tej obserwacji, dla której używany jest wzór:

Gdzie:

-c = szerokość przedziału, w którym znajduje się mediana

-bM = dolna granica przedziału, do którego należy mediana

-fam = liczba obserwacji zawartych w medianie

-n / 2 = połowa wszystkich danych

-faBM = całkowita liczba obserwacji przed mediana przedziału

moda

W przypadku trybu identyfikowana jest klasa modalna, zawierająca najwięcej obserwacji, której znak klasy jest znany.

Wariancja i odchylenie standardowe

Wariancja i odchylenie standardowe są miarami dyspersji. Jeśli oznaczymy wariancję przez sdwa a odchylenie standardowe, które jest pierwiastkiem kwadratowym z wariancji jako s, dla danych zgrupowanych otrzymamy odpowiednio:

Y

Ćwiczenie rozwiązane

Dla zaproponowanego na wstępie rozkładu wzrostu studentek należy obliczyć wartości:

a) Średnia

b) Mediana

c) Moda

d) Wariancja i odchylenie standardowe.

Rysunek 2. W przypadku dużej liczby wartości, takich jak wzrost dużej grupy uczniów, lepiej jest pogrupować dane w klasy. Źródło: Pixabay.

Rozwiązanie

Zbudujmy następującą tabelę, aby ułatwić obliczenia:

Podstawianie wartości i bezpośrednie przeprowadzanie sumowania:

X = (6 x 157 + 14 x 162 + 47 x 167 + 28 x 172+ 5 x 177) / 100 cm =

= 167,6 cm

Rozwiązanie b

Przedział, do którego należy mediana, wynosi 165-169 cm, ponieważ jest to przedział o największej częstotliwości.

Zidentyfikujmy każdą z tych wartości w przykładzie, korzystając z tabeli 2:

c = 5 cm (patrz sekcja dotycząca amplitudy)

bM = 164,5 cm

fam = 47

n / 2 = 100/2 = 50

faBM = 20

Podstawiając we wzorze:

Przedział, w którym znajduje się większość obserwacji, to 165-169 cm, którego ocena klasowa to 167 cm.

Rozwiązanie d

Rozszerzamy poprzednią tabelę, dodając dwie dodatkowe kolumny:

Stosujemy formułę:

I opracowujemy podsumowanie:

sdwa = (6 x 112,36 + 14 x 31,36 + 47 x 0,36 + 28 x 19,36 + 5 x 88,36) / 99 = = 21,35 cmdwa

W związku z tym:

s = √ 21,35 cmdwa = 4,6 cm

Bibliografia

  1. Berenson, M. 1985. Statystyka zarządzania i ekonomii. Interamericana S.A.
  2. Canavos, G. 1988. Prawdopodobieństwo i statystyka: zastosowania i metody. Mcgraw hill.
  3. Devore, J. 2012. Prawdopodobieństwo i statystyka dla inżynierii i nauki. 8th. Wydanie. Cengage.
  4. Levin, R. 1988. Statystyka dla administratorów. 2nd. Wydanie. Sala Prentice.
  5. Spiegel, M. 2009. Statystyka. Seria Schauma. 4 Wydanie. Mcgraw hill.
  6. Walpole, R. 2007. Prawdopodobieństwo i statystyka dla inżynierii i nauk. osoba.

Jeszcze bez komentarzy