Wyjaśnienie reguł Sturges, zastosowania i przykłady

3809
Charles McCarthy

Plik panuje burza jest to kryterium służące do określenia liczby klas lub przedziałów niezbędnych do graficznego przedstawienia zbioru danych statystycznych. Reguła ta została ogłoszona w 1926 roku przez niemieckiego matematyka Herberta Sturgesa.

Sturges zaproponował prostą metodę, opartą na liczbie próbek x, która pozwoliłaby nam znaleźć liczbę klas i szerokość ich zakresu. Reguła Sturgesa jest szeroko stosowana, zwłaszcza w dziedzinie statystyki, szczególnie do konstruowania histogramów częstotliwości..

Indeks artykułów

  • 1 Wyjaśnienie
  • 2 Aplikacje
  • 3 Przykład
  • 4 Odnośniki

Wyjaśnienie

Reguła Sturgesa jest metodą empiryczną szeroko stosowaną w statystyce opisowej w celu określenia liczby klas, które muszą istnieć w histogramie częstotliwości, aby sklasyfikować zbiór danych reprezentujących próbkę lub populację..

Zasadniczo ta reguła określa szerokość pojemników graficznych, histogramów częstotliwości.

Aby ustalić swoją regułę, Herbert Sturges wziął pod uwagę idealny wykres częstotliwości składający się z przedziałów K, gdzie i-ty przedział zawiera pewną liczbę próbek (i = 0,… k - 1), przedstawioną jako:

Ta liczba próbek wynika z liczby sposobów, na jakie można wyodrębnić podzbiór zbioru; to znaczy przez współczynnik dwumianowy, wyrażony w następujący sposób:

Aby uprościć wyrażenie, zastosował własności logarytmów do obu części równania:

W ten sposób Sturges ustalił, że optymalną liczbę przedziałów k podaje wyrażenie:

Można to również wyrazić jako:

W tym wyrażeniu:

- k to liczba klas.

- N to całkowita liczba obserwacji w próbie.

- Log to logarytm o podstawie 10.

Na przykład, aby skonstruować histogram częstotliwości wyrażający losową próbkę wzrostu 142 dzieci, liczba przedziałów lub klas, które będzie miał rozkład, wynosi:

k = 1 + 3,322 * log10 (N)

k = 1 + 3,322* dziennik (142)

k = 1 + 3,322* 2.1523

k = 8,14 ≈ 8

Zatem dystrybucja będzie w 8 przedziałach.

Liczba przedziałów musi zawsze być reprezentowana przez liczby całkowite. W przypadkach, gdy wartość jest dziesiętna, należy podać przybliżenie do najbliższej liczby całkowitej.

Aplikacje

Reguła Sturgesa jest stosowana głównie w statystykach, ponieważ pozwala na dokonanie rozkładu częstotliwości poprzez obliczenie liczby klas (k), a także długości każdej z nich, znanej również jako amplituda..

Amplituda jest różnicą górnej i dolnej granicy klasy, podzieloną przez liczbę klas i jest wyrażona:

Istnieje wiele praktycznych reguł, które pozwalają na dokonanie rozkładu częstotliwości. Jednak reguła Sturgesa jest powszechnie stosowana, ponieważ przybliża liczbę klas, która zwykle waha się od 5 do 15..

W związku z tym bierze pod uwagę wartość, która odpowiednio reprezentuje próbkę lub populację; to znaczy, przybliżenie nie reprezentuje skrajnych grup, ani nie działa z nadmierną liczbą klas, które nie pozwalają na podsumowanie próby..

Przykład

Histogram częstotliwości należy sporządzić zgodnie z podanymi danymi, które odpowiadają wiekowi uzyskanemu w badaniu mężczyzn ćwiczących na lokalnej siłowni..

Aby określić przedziały, należy znać wielkość próby lub liczbę obserwacji; w tym przypadku masz 30.

Wtedy obowiązuje zasada Sturges:

k = 1 + 3,322 * log10 (N)

k = 1 + 3,322* dziennik (30)

k = 1 + 3,322* 1.4771

k = 5,90 ≈ 6 przedziałów.

Z liczby przedziałów można obliczyć ich amplitudę; to znaczy szerokość każdego słupka przedstawionego na histogramie częstotliwości:

Dolna granica jest uważana za najmniejszą wartość danych, a górna granica jest największą wartością. Różnica między górną i dolną granicą nazywana jest zakresem lub zakresem zmiennej (R).

Z tabeli wynika, że ​​górna granica to 46, a dolna granica to 13; w ten sposób amplituda każdej klasy będzie wynosić:

Przedziały składają się z górnej i dolnej granicy. Aby określić te przedziały, zaczynamy od liczenia od dolnej granicy, dodając do tego amplitudę określoną regułą (6) w następujący sposób:

Następnie obliczana jest częstotliwość bezwzględna, aby określić liczbę mężczyzn odpowiadającą każdemu interwałowi; w tym przypadku jest to:

- Przedział 1:13 - 18 = 9

- Odstęp 2:19 - 24 = 9

- Interwał 3:25 - 30 = 5

- Interwał 4:31 - 36 = 2

- Przedział 5:37 - 42 = 2

- Zakres 6:43 - 48 = 3

Dodając bezwzględną częstotliwość każdej klasy, musi ona być równa całkowitej liczbie próbek; w tym przypadku 30.

Następnie obliczana jest względna częstotliwość każdego przedziału, dzieląc jego częstotliwość bezwzględną przez całkowitą liczbę obserwacji:

- Przedział 1: fi = 9 ÷ 30 = 0,30

- Przedział 2: fi = 9 ÷ 30 = 0,30

- Przedział 3: fi = 5 ÷ 30 = 0,1666

- Przedział 4: fi = 2 ÷ 30 = 0,0666

- Przedział 5: fi = 2 ÷ 30 = 0,0666

- Przedział 4: fi = 3 ÷ 30 = 0,10

Następnie możesz zrobić tabelę, która odzwierciedla dane, a także wykres z częstotliwości względnej w stosunku do uzyskanych przedziałów, jak widać na poniższych obrazkach:

W ten sposób reguła Sturgesa pozwala określić liczbę klas lub przedziałów, w których można podzielić próbkę, aby podsumować próbkę danych poprzez opracowanie tabel i wykresów..

Bibliografia

  1. Alfonso Urquía, M. V. (2013). Modelowanie i symulacja zdarzeń dyskretnych. UNED,.
  2. Altman Naomi, M. K. (2015). „Prosta regresja liniowa”. Nature Methods .
  3. Antúnez, R. J. (2014). Statystyka w edukacji. Jednostka cyfrowa.
  4. Fox, J. (1997.). Analiza regresji stosowanej, modele liniowe i metody pokrewne. Publikacje SAGE.
  5. Humberto Llinás Solano, C. R. (2005). Statystyka opisowa i rozkłady prawdopodobieństwa. Uniwersytet Północny.
  6. Panteleeva, O. V. (2005). Podstawy prawdopodobieństwa i statystyki.
  7. O. Kuehl, M. O. (2001). Projektowanie eksperymentów: statystyczne zasady projektowania i analizy badań. Thomson Reditors.

Jeszcze bez komentarzy