Strona główna
Statystyka
Wzory na rozkład hipergeometryczny, równania, model

Wzory na rozkład hipergeometryczny, równania, model

3882

845

Simon Doyle

Plik rozkład hipergeometryczny jest dyskretną funkcją statystyczną, odpowiednią do obliczania prawdopodobieństwa w losowych eksperymentach z dwoma możliwymi wynikami. Warunkiem koniecznym do jej zastosowania jest to, że są to małe populacje, w których ekstrakcje nie są zastępowane, a prawdopodobieństwa nie są stałe..

Dlatego też, gdy wybierany jest element populacji, aby poznać wynik (prawdziwy lub fałszywy) pewnej cechy, ten sam element nie może zostać wybrany ponownie..

Rysunek 1. W takiej populacji śrub z pewnością istnieją wadliwe okazy. Źródło: Pixabay.

Z pewnością następny wybrany element ma zatem większe szanse na uzyskanie prawdziwego wyniku, jeśli poprzedni element miał wynik ujemny. Oznacza to, że prawdopodobieństwo zmienia się w miarę wyodrębniania pierwiastków z próbki..

Główne zastosowania rozkładu hipergeometrycznego to: kontrola jakości w procesach o małej populacji oraz obliczanie prawdopodobieństw w grach losowych.

Jeśli chodzi o funkcję matematyczną definiującą rozkład hipergeometryczny, składa się ona z trzech parametrów, którymi są:

- Liczba elementów populacji (N)

- Wielkość próbki (m)

- Liczba zdarzeń w całej populacji z korzystnym (lub niekorzystnym) wynikiem badanej cechy (n).

Indeks artykułów

1 Wzory i równania
- 1.1 Ważne zmienne statystyczne
2 Model i właściwości
- 2.1 Główne właściwości rozkładu hipergeometrycznego
- 2.2 Aproksymacja przez rozkład dwumianowy
3 przykłady
- 3.1 Przykład 1
- 3.2 Przykład 2
4 ćwiczenia rozwiązane
- 4.1 Ćwiczenie 1
- 4.2 Ćwiczenie 2
- 4.3 Ćwiczenie 3
5 Referencje

Wzory i równania

Prawdopodobieństwo podaje wzór na rozkład hipergeometryczny P. o czym x zdarzają się korzystne przypadki określonej cechy. Sposób zapisu matematycznego na podstawie liczb kombinatorycznych to:

W powyższym wyrażeniu N, n Y m są parametrami i x samą zmienną.

-Całkowita liczba ludności wynosi N.

-Liczba pozytywnych wyników określonej cechy binarnej w odniesieniu do całej populacji wynosi n.

-Liczba egzemplarzy próbnych wynosi m.

W tym przypadku, X jest zmienną losową, która przyjmuje wartość x Y P (x) wskazuje prawdopodobieństwo wystąpienia x korzystne przypadki badanej cechy.

Ważne zmienne statystyczne

Inne zmienne statystyczne dotyczące rozkładu hipergeometrycznego to:

- Pół μ = m * n / N

- Zmienność σ ^ 2 = m * (n / N) * (1-n / N) * (N-m) / (N-1)

- Typowe odchylenie σ czyli pierwiastek kwadratowy z wariancji.

Model i właściwości

Aby dojść do modelu rozkładu hipergeometrycznego, zaczynamy od prawdopodobieństwa uzyskania x korzystne przypadki w liczebności próby m. Wspomniana próbka zawiera elementy, które są zgodne z badaną własnością i elementy, które nie są zgodne.

Zapamietaj to n reprezentuje liczbę korzystnych przypadków w całej populacji N elementy. Wtedy prawdopodobieństwo byłoby obliczone w ten sposób:

P (x) = (liczba sposobów uzyskania x liczba nieudanych sposobów) / (całkowita liczba sposobów do wybrania)

Wyrażając powyższe w postaci liczb kombinatorycznych, dochodzimy do następującego modelu rozkładu prawdopodobieństwa:

Główne właściwości rozkładu hipergeometrycznego

Są one następujące:

- Próbka musi być zawsze mała, nawet jeśli populacja jest duża.

- Elementy próbki są ekstrahowane jeden po drugim, bez ponownego włączania ich do populacji.

- Badana właściwość jest binarna, to znaczy może przyjmować tylko dwie wartości: 1 lub 0, No cóż pewny lub imitacja.

Na każdym etapie ekstrakcji pierwiastka prawdopodobieństwo zmienia się w zależności od poprzednich wyników.

Aproksymacja przy użyciu rozkładu dwumianowego

Inną właściwością rozkładu hipergeometrycznego jest to, że można go przybliżyć rozkładem dwumianowym, oznaczonym jako Bi, tak długo, jak populacja N jest duży i co najmniej 10 razy większy niż próbka m. W tym przypadku wyglądałoby to tak:

P (N, n, m; x) = Bi (m, n / N, x)

Ma zastosowanie, o ile N jest duże i N> 10 m

Przykłady

Przykład 1

Załóżmy, że maszyna produkuje śruby, a zgromadzone dane wskazują, że 1% wychodzi z wadami. Wtedy w pudełku N = 500 śrub ilość wadliwych będzie wynosić:

n = 500 * 1/100 = 5

Prawdopodobieństwa na podstawie rozkładu hipergeometrycznego

Załóżmy, że z tego pudełka (czyli z tej populacji) pobieramy próbkę m = 60 śrub.

Prawdopodobieństwo, że żadna śruba (x = 0) w próbce nie jest wadliwa, wynosi 52,63%. Ten wynik osiąga się za pomocą funkcji rozkładu hipergeometrycznego:

P (500, 5, 60, 0) = 0,5263

Prawdopodobieństwo, że x = 3 śruby w próbce są wadliwe, wynosi: P (500, 5, 60, 3) = 0,0129.

Z drugiej strony prawdopodobieństwo, że x = 4 śruby z sześćdziesięciu próbek są wadliwe, wynosi: P (500, 5, 60; 4) = 0,0008.

Ostatecznie prawdopodobieństwo, że x = 5 śrub w tej próbce jest wadliwych, wynosi: P (500, 5, 60; 5) = 0.

Ale jeśli chcesz poznać prawdopodobieństwo, że w tej próbce jest więcej niż 3 wadliwe śruby, to musisz obliczyć skumulowane prawdopodobieństwo, dodając:

P (3) + P (4) + P (5) = 0,0129 + 0,0008 + 0 = 0,0137.

Ten przykład ilustruje rysunek 2, uzyskany za pomocą GeoGebra wolne oprogramowanie szeroko stosowane w szkołach, instytutach i na uniwersytetach.

Rysunek 2. Przykład rozkładu hipergeometrycznego. Opracował F. Zapata we współpracy z GeoGebra.

Przykład 2

Talia hiszpańska składa się z 40 kart, z których 10 jest w złocie, a pozostałe 30 nie. Załóżmy, że z tej talii losuje się 7 kart, które nie są ponownie włączane do talii.

Jeśli X jest liczbą złotych obecnych w 7 wylosowanych kartach, to prawdopodobieństwo, że będzie x sztuk złota w 7-kartowym losowaniu, określa rozkład hipergeometryczny P (40,10,7; x).

Zobaczmy to w ten sposób: aby obliczyć prawdopodobieństwo posiadania 4 sztuk złota w 7-kartowym losowaniu, używamy wzoru na rozkład hipergeometryczny z następującymi wartościami:

Wynik to: prawdopodobieństwo 4,57%.

Ale jeśli chcesz poznać prawdopodobieństwo otrzymania więcej niż 4 kart, musisz dodać:

P (4) + P (5) + P (6) + P (7) = 5,20%

Rozwiązane ćwiczenia

Poniższy zestaw ćwiczeń ma na celu zilustrowanie i przyswojenie pojęć przedstawionych w tym artykule. Ważne jest, aby czytelnik spróbował rozwiązać je samodzielnie, zanim spojrzy na rozwiązanie.

Ćwiczenie 1

Fabryka prezerwatyw odkryła, że na 1000 prezerwatyw wyprodukowanych przez określoną maszynę 5 jest wadliwych. W celu kontroli jakości pobiera się losowo 100 prezerwatyw, a partia jest odrzucana, jeśli jest co najmniej jedna lub więcej wadliwych. Odpowiedź:

a) Jaka jest możliwość, że wiele 100 zostanie odrzuconych?

b) Czy to kryterium kontroli jakości jest skuteczne??

Rozwiązanie

W takim przypadku pojawią się bardzo duże liczby kombinatoryczne. Obliczenia są trudne, jeśli nie jest dostępny odpowiedni pakiet oprogramowania.

Ale ponieważ jest to duża populacja, a próbka jest dziesięciokrotnie mniejsza niż cała populacja, możliwe jest zastosowanie przybliżenia rozkładu hipergeometrycznego przez rozkład dwumianowy:

P (1000,5,100; x) = Bi (100, 5/1000, x) = Bi (100, 0,005, x) = C (100, x) * 0,005 ^ x (1-0,005) ^ (100-x)

W powyższym wyrażeniu C (100, x) jest liczbą kombinatoryczną. Następnie prawdopodobieństwo wystąpienia więcej niż jednej usterki zostanie obliczone w następujący sposób:

P (x> = 1) = 1 - Bi (0) = 1- 0,6058 = 0,3942

Jest to doskonałe przybliżenie, jeśli porównać je z wartością uzyskaną przy zastosowaniu rozkładu hipergeometrycznego: 0,4102

Można powiedzieć, że z 40% prawdopodobieństwem należy wyrzucić partię 100 preparatów profilaktycznych, co nie jest zbyt wydajne..

Ale będąc trochę mniej wymagającym w procesie kontroli jakości i odrzucilibyśmy partię 100 tylko wtedy, gdy są dwa lub więcej defektów, wtedy prawdopodobieństwo odrzucenia partii spadłoby do zaledwie 8%..

Ćwiczenie 2

Plastikowa wtyczka działa w taki sposób, że z każdych 10 sztuk jedna wychodzi zdeformowana. Jakie jest prawdopodobieństwo, że w przypadku próbki składającej się z 5 sztuk tylko jeden egzemplarz jest wadliwy?.

Rozwiązanie

Ludność: N = 10

Liczba n wad dla każdego N: n = 1

Wielkość próbki: m = 5

P (10, 1, 5; 1) = C (1,1) * C (9,4) / C (10,5) = 1 * 126/252 = 0,5

Dlatego istnieje 50% prawdopodobieństwo, że w próbce 5 wskazówka wyjdzie zdeformowana.

Ćwiczenie 3

W spotkaniu maturzystów uczestniczy 7 pań i 6 panów. Wśród dziewcząt 4 studiują nauki humanistyczne i 3 ścisłe. W grupie chłopców 1 studiuje nauki humanistyczne i 5 przedmiotów ścisłych. Oblicz następujące:

a) Wybieranie losowo trzech dziewcząt: jakie jest prawdopodobieństwo, że wszystkie one studiują nauki humanistyczne?.

b) Jeśli trzech uczestników spotkania znajomych zostanie wybranych losowo: Jaka jest możliwość, że trzech z nich, niezależnie od płci, studiuje wszystkie trzy przedmioty ścisłe lub humanistyczne?.

c) Teraz wybierz losowo dwóch znajomych i zadzwoń x do zmiennej losowej „liczba osób studiujących nauki humanistyczne”. Spośród dwóch wybranych określ średnią lub oczekiwaną wartość x i wariancja σ ^ 2.

Rozwiązanie

Ludność to całkowita liczba dziewcząt: N = 7. Ci, którzy studiują nauki humanistyczne, stanowią łącznie n = 4. Losowa próba dziewcząt wyniesie m = 3.

W tym przypadku prawdopodobieństwo, że wszyscy trzej są studentami kierunków humanistycznych, daje funkcja hipergeometryczna:

P (N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143

Istnieje więc 11,4% prawdopodobieństwo, że trzy losowo wybrane dziewczyny będą studiować nauki humanistyczne..

Rozwiązanie b

Wartości, których należy teraz użyć, to:

-Ludność: N = 14

-Ilość, która bada litery to: n = 6 i

-Wielkość próbki: m = 3.

-Liczba znajomych studiujących nauki humanistyczne: x

Zgodnie z tym x = 3 oznacza, że wszystkie trzy nauki humanistyczne, ale x = 0 oznacza, że nikt nie studiuje nauk humanistycznych. Prawdopodobieństwo, że wszystkie trzy badają to samo, daje suma:

P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099

Wtedy mamy 21% prawdopodobieństwo, że trzech losowo wybranych uczestników spotkania będzie studiować to samo.

Rozwiązanie c

Tutaj mamy następujące wartości:

N = 14 łączna populacja znajomych, n = 6 łączna liczba w populacji humanistycznej, liczebność próby m = 2.

Mam nadzieję, że:

E (x) = m * (n / N) = 2 * (6/14) = 0,8572

I wariancja:

σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14 -1) =

= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13 ) = 0,4521

Bibliografia

Dyskretne rozkłady prawdopodobieństwa. Odzyskany z: biplot.usal.es
Statystyka i prawdopodobieństwo. Rozkład hipergeometryczny. Odzyskany z: projectdescartes.org
CDPYE-UGR. Rozkład hipergeometryczny. Odzyskany z: ugr.es
Geogebra. Klasyczna geogebra, rachunek prawdopodobieństwa. Odzyskany z geogebra.org
Spróbuj łatwo. Rozwiązano problemy rozkładu hipergeometrycznego. Odzyskany z: probafacil.com
Minitab. Rozkład hipergeometryczny. Odzyskany z: support.minitab.com
Uniwersytet w Vigo. Główne rozkłady dyskretne. Odzyskany z: anapg.webs.uvigo.es
Vitutor. Statystyka i kombinatoryka. Odzyskany z: vitutor.net
Weisstein, Eric W. Hypergeometric Distribution. Odzyskany z: mathworld.wolfram.com
Wikipedia. Rozkład hipergeometryczny. Odzyskany z: es.wikipedia.com