© Copyright StatSoft, Inc., 1984-2024
Przeszukaj Internetowy Podręcznik Statystyki
Dopasowanie rozkładu


Ogólny cel

W niektórych zastosowaniach badawczych istnieje możliwość formułowania hipotez na temat określonego rozkładu rozważanej zmiennej. Przykładowo zmienne, których wartości są determinowane przez nieskończoną liczbę niezależnych zdarzeń losowych, podlegają rozkładowi normalnemu. Wzrost człowieka można traktować jako efekt wpływu dużej liczby niezależnych czynników, takich jak wiele szczegółowych predyspozycji wrodzonych, chorób przebytych we wczesnym dzieciństwie, sposobu odżywiania itp. (przykładowo, animacja poniżej przedstawia rozkład normalny). Z drugiej strony, jeżeli wartości zmiennych są wynikiem rzadkich zdarzeń losowych, podlegają one rozkładowi Poissona (zwanemu także czasami rozkładem rzadkich zdarzeń). Na przykład, wypadki przemysłowe można uznać za wynik serii niefortunnych (i bardzo mało prawdopodobnych) wydarzeń, a ich częstość występowania wskazuje na rozkład Poissona. Te i inne rozkłady zostały szczegółowo opisane w poniżej.

Innym powszechnym zastosowaniem procedur dopasowania rozkładu jest weryfikacja założenia o normalności rozkładu przed użyciem danego testu parametrycznego (patrz Ogólne cele testów nieparametrycznych ). Na przykład w celu testowania założenia normalności rozkładu możemy użyć testu Kołmogorowa-Smirnowa lub testu Shapiro-Wilka .
Indeks

Dopasowanie rozkładu

Często dla celów prognostycznych jest wskazane zrozumienie kształtu rozważanego rozkładu populacji. W celu zidentyfikowania branego pod uwagę rozkładu zazwyczaj dopasowuje się rozkład empiryczny do rozkładu teoretycznego poprzez porównanie częstości zaobserwowanych w danych rzeczywistych do częstości oczekiwanych rozkładu teoretycznego (np. za pomocą testu Chi-kwadrat dobroci dopasowania). Oprócz tego testu, niektóre programy umożliwiają obliczenie testów największej wiarygodności oraz metody momentów (patrz Dopasowanie rozkładów za pomocą momentów w rozdziale Analiza procesu ).

Który z rozkładów zastosować. Jak to zostało już opisane poprzednio, pewne typy zmiennych podlegają specyficznym rozkładom. Zmienne, których wartości są zdeterminowane przez nieskończoną liczbę zdarzeń losowych będą podlegały rozkładowi normalnemu , podczas gdy zmienne, których wartości są wynikiem skrajnie rzadkiego zdarzenia będą podlegać rozkładowi Poissona . Główne rozkłady, które zostały zaproponowane do modelowania czasów przeżycia lub niezawodności to rozkład wykładniczy (i liniowy wykładniczy), rozkład Weibulla dla zdarzeń rzadkich oraz rozkład Gompertza . Fragment poświęcony różnym typom rozkładów zawiera krótki opis różnych rozkładów, podaje krótkie przykłady danych, podlegających danemu typowi rozkładu jak również postać funkcji gęstości rozkładu dla każdego z opisywanych rozkładów.
Indeks

Typy rozkładów

Rozkład Bernoulliego. Ten typ rozkładu najlepiej nadaje się do opisu sytuacji w których "wynikiem" doświadczenia może być "sukces" lub "porażka", tak jak to ma miejsce w przypadku rzutu monetą albo przy określaniu powodzenia lub niepowodzenia zabiegu chirurgicznego. Funkcja prawdopodobieństwa jest zdefiniowana jako:

f(x) = px *(1-p)1-x,   dla x Î {0,1}

gdzie
p oznacza prawdopodobieństwo zajścia określonego zdarzenia (np. sukcesu).
Indeks

Rozkład beta. Rozkład beta powstaje w wyniku przekształcenia rozkładu F i jest wykorzystywany zazwyczaj do modelowania rozkładu statystyk pozycyjnych. Jest często wykorzystywany do opisywania procesów, charakteryzujących się naturalnymi ograniczeniami z dołu i z góry ponieważ jest rozkładem odpowiednim dla zmiennych ograniczonych z obu stron. Po przykłady należy sięgnąć do opracowania Hahna i Shapiro (1967). Funkcja gęstości jest zdefiniowana jako:

f(x) = G(n+w)/[G(n)G(w)] * xn-1*(1-x)w-1,    dla0 < x < 1, n > 0, w > 0

gdzie
G oznacza funkcję Gamma,
n, w są parametrami kształtu (odpowiednio Kształt1 i Kształt2).

[Animated Beta Distribution]

Powyższa animacja pokazuje zachowanie się funkcji rozkładu w zależności od zmian dwóch parametrów kształtu.
Indeks

Rozkład dwumianowy. Rozkład dwumianowy jest przydatny do opisu rozkładu zdarzeń dwumianowych ("zero-jedynkowych"), np. liczba kobiet i mężczyzn w próbie losowej pobranej w kilku firmach lub liczba wadliwych elementów w próbie 20 sztuk pobranych w procesie produkcyjnym. Funkcja prawdopodobieństwa jest zdefiniowana jako:

f(x) = [n!/(x!*(n-x)!)]*px * qn-x,   dla x = 0,1,2,...,n

gdzie
p oznacza prawdopodobieństwo zajścia odpowiedniego zdarzenia,
q jest równe 1-p,
n jest maksymalną liczbą niezależnych prób.
Indeks

Rozkład Cauchy'ego. Rozkład Cauchy'ego jest interesujący ze względów teoretycznych. Chociaż może być rozważana wartość średniej rozkładu wynosząca zero, ponieważ jest on symetryczny względem zera, jednak wartość oczekiwana, wariancja, momenty wyższego rzędu oraz funkcja tworząca momenty nie istnieją. Funkcja gęstości jest zdefiniowana jako:

f(x) = 1/(q*p*{1+[(x- h)/ q]2}),    dla 0 < q

gdzie
h oznacza parametr położenia (medianę),
q oznacza parametr skali,
p oznacza stałą Pi (3,1415...).

[Animated Cauchy Distribution]

Powyższa amimacja pokazuje jak zmienia się kształt rozkładu Cauchy'ego, gdy parametr położenia wynosi 0, a parametr skali 1, 2, 3 i 4.
Indeks

Rozkład chi-kwadrat. Suma kwadratów n niezależnych zmiennych losowych, z których każda podlega standardowemu rozkładowi normalnemu , podlega rozkładowi chi-kwadrat o n stopniach swobody. Rozkład ten jest najczęściej stosowanym rozkładem zmiennych losowych w programach statystycznych. Funkcja gęstości jest zdefiniowana jako:

f(x) = {1/[2n/2* G(n/2)]} * [x(n/2)-1 * e-x/2],    dla n = 1, 2, ..., 0 < x

gdzie
n oznacza liczbę stopni swobody,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...),
G (Gamma) oznacza funkcję Gamma.

[Animated Chi-square Distribution]

Zamieszczona powyżej animacja pokazuje kształt rozkładu chi-kwadrat przy wzrastającej liczbie stopni swobody (1, 2, 5, 10, 25 i 50).
Indeks

Rozkład wykładniczy. Przyjmijmy, że T oznacza czas pomiędzy kolejnymi wystąpieniami rzadkiego zdarzenia, które zachodzi średnio l razy na jednostkę czasu. Wówczas T podlega rozkładowi wykładniczemu z parametrem l (lambda). Rozkład ten jest często wykorzystywany do modelowania przedziałów czasu pomiędzy kolejnymi zdarzeniami losowymi. Przykłady zmiennych podlegających temu rozkładowi to: odstęp czasu pomiędzy przejazdami samochodów przez skrzyżowanie, czas bezawaryjnej pracy urządzeń elektronicznych lub czas pojawienia się klientów w sklepie spożywczym. Funkcja gęstości rozkładu wykładniczego jest zdefiniowana jako:

f(x) = l*e-lx    dla 0 Ł x < Ą,l > 0

gdzie
l oznacza parametr funkcji wykładniczej (alternatywnie może wystąpić parametr skali o postaci b=1/l)
e oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...).
Indeks

Rozkład wartości ekstremalnej (skrajnej). Rozkład tego typu jest często wykorzystywany do modelowania zdarzeń ekstremalnych, np. rozmiaru powodzi, prędkości mas powietrza napotykanych przez samoloty, maksymalnych wskaźników na rynku papierów wartościowych w danym roku, itp. Rozkład ten jest również często wykorzystywany przy testowaniu niezawodności, np. dla przedstawienia rozkładu czasu bezawaryjnej pracy urządzeń elektrycznych (patrz Hahn i Shapiro, 1967). Rozkład wartości ekstremalnej (typu I) posiada funkcję gęstości o postaci:

f(x) = 1/b * e^[-(x-a)/b] * e^{-e^[-(x-a)/b]},    dla-Ą < x < Ą, b > 0

gdzie
a oznacza parametr położenia,
b oznacza parametr skali,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...).
Indeks

Rozkład F. Rozkład F Snedecora jest wykorzystywany najpowszechniej do oceny wariancji (np. ANOVA ). Wielkość będąca ilorazem dwóch zmiennych o rozkładzie chi-kwadrat (z odpowiednimi liczbami stopni swobody) podlega rozkładowi F. Funkcja gęstości rozkładu F (dla x > 0 oraz n = 1, 2, ...; w = 1, 2, ...) ma postać:

f(x) = [G{(n+w)/2}]/[G(n/2)G(w/2)] * (n/w)(n/2) * x[(n/2)-1] * {1+[(n/w)*x]}[-(n+w)/2],    dla 0 Ł x < Ąn=1,2,..., w=1,2,...

gdzie
n, w oznaczają parametry skali, liczby stopni swobody,
G is the Gamma function

[Animated F Distribution]

Zamieszczona powyżej animacja pokazuje różne ogony rozkładu (wartości p) dla rozkładu F przy obydwu liczbach stopni swobody równych 10.
Indeks

Rozkład gamma. Wartość modalna funkcji gęstości w przypadku rozkładu wykładniczego wynosi zero. Jednak w wielu przypadkach a priori wiadomo, że moda rozkładu danej zmiennej losowej nie jest równa zero (np. przy określaniu rozkładu czasu bezawaryjnej pracy żarówki elektrycznej lub czasu obsługi w kasie biletowej na meczu piłkarskim). W takich przypadkach rozkład gamma jest rozkładem bardziej odpowiednim. Funkcja gęstości w tym rozkładzie jest określona wzorem:

f(x) = {1/[bG(c)]}*[x/b]c-1*e-x/b    dla0 Ł x, c > 0

gdzie
G oznacza funkcję Gamma,
c jest tzw. parametrem kształtu,
b jest tzw. parametrem skali,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...).

[Animated Gamma Distribution]

Powyższa animacja pokazuje zmianę kształtu rozkładu gamma przy wartości parametru kształtu zmieniającej się od 1 do 6.
Indeks

Rozkład geometryczny. Załóżmy, że przeprowadzano niezależne doświadczenia Bernoulliego aż do momentu pojawienia się "sukcesu". Wówczas całkowita liczba potrzebnych doświadczeń jest zmienną losową o rozkładzie geometrycznym. Jego funkcja prawdopodobieństwa jest zdefiniowana jako:

f(x) = p*(1-p)x,    dla x = 1,2,...

gdzie
p oznacza prawdopodobieństwo zajścia danego zdarzenia (np. sukcesu).
Indeks

Rozkład Gompertza. Rozkład Gompertza jest rozkładem teoretycznym wykorzystywanym do modelowania czasów przeżycia. Gompertz (1825) zaproponował model prawdopodobieństwa określający umieralność, opierający się na założeniu, że "przyjmuje się taki poziom przeciętnego spadku prawdopodobieństwa uniknięcia zgonu, że na końcach nieskończenie małych przedziałów czasu o jednakowej skośności człowiek traci taki sam odsetek pozostałych możliwości uniknięcia zgonu jak na początku tych przedziałów" (Johnson, Kotz i Blakrishnan, 1995, str. 25). Określona w ten sposób funkcja hazardu:

r(x)=Bcx,    dla x Ł 0, B > 0, c Ł 1

jest często wykorzystywana w analizie przeżycia . Dalsze bardziej szczegółowe informacje można znaleźć w pracy Johnsona, Kotza i Blakrishnana (1995).
Indeks

Rozkład Laplace'a. Interesujące matematyczne zastosowania rozkładu Laplace'a można znaleźć w pracy Johnsona i Kotza (1995). Funkcja gęstości rozkładu Laplace'a (zwanego także rozkładem podwójnie wykładniczym) jest zdefiniowana jako:

f(x) = 1/(2b) * e[-(|x-a|/b)],    dla -Ą < x < Ą

gdzie
a oznacza parametr położenia (średnią),
b oznacza parametr skali,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...).

[Animated Laplace Distribution]

Powyższa animacja pokazuje zmianę kształtu rozkładu Laplace'a przy wartości parametru położenia równej 0 oraz wartościach parametru skali równych 1, 2, 3 i 4.
Indeks

Rozkład logistyczny. Rozkład logistyczny jest wykorzystywany w przypadku modelowania zmiennych (odpowiedzi) dwuwartościowych (np. płeć) i jest powszechnie wykorzystywany w przypadku regresji logistycznej . Funkcja gęstości rozkładu jest zdefiniowana jako:

f(x) = (1/b) * e[-(x-a)/b] * {1+e[-(x-a)/b]}^-2,    dla -Ą < x < Ą, 0 < b

gdzie
a oznacza parametr położenia (średnią),
b oznacza parametr skali,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...).

[Animated Logistic Distribution]

Powyższa animacja pokazuje zmianę kształtu rozkładu logistycznego przy wartości parametru położenia równej 0 oraz wartościach parametru skali równych 1, 2 i 3.
Indeks

Rozkład logarytmiczno-normalny. Rozkład tego typu jest często wykorzystywany do modelowania rozkładu takich zmiennych jak dochody osobiste lub wiek w momencie zawierania pierwszego małżeństwa. Ogólnie, jeżeli x jest próbą pochodzącą z populacji o rozkładzie normalnym , wówczas y = ex jest próbą o rozkładzie logarytmiczno-normalnym. Rozkład ten jest zdefiniowany jako:

f(x) = 1/[xs(2)1/2] * e-[log(x)-m]**2/2s**2,    dla 0 < x < Ą, m > 0, s > 0

gdzie
m oznacza parametr skali,
s oznacza parametr kształtu,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną stałą Eulera e (o wartości 2,71...).

[Animated Log-normal Distribution]

Zamieszczona powyżej animacja pokazuje zmianę kształtu rozkładu logarytmiczno-normalnego przy wartości parametru mi równej 0 oraz wartościach parametru sigma 0,10, 0,30, 0,50, 0,70 oraz 0,90.
Indeks

Rozkład normalny. Rozkład normalny (o charakterystycznym kształcie "krzywej dzwonowej", symetrycznej w stosunku do średniej) jest teoretycznym rozkładem prawdopodobieństwa powszechnie wykorzystywanym we wnioskowaniu statystycznym jako przybliżenie rozkładu z próby (patrz także Podstawowe pojęcia ). Ogólnie, rozkład normalny jest dobrym modelem dla rozkładu zmiennej losowej, w sytuacji gdy:

  1. Występuje silna tendencja do przyjmowania wartości położonych blisko środka rozkładu;
  2. Dodatnie i ujemne odchylenia od środka rozkładu są jednakowo prawdopodobne;
  3. Liczność odchyleń gwałtownie spada wraz ze wzrostem ich wielkości.
Podstawowy mechanizm tworzący rozkład normalny można wyobrazić sobie jako nieskończoną liczbę niezależnych zdarzeń losowych (dwumianowych), które generują wartości danej zmiennej. Przykładowo, istnieje prawdopodobnie prawie nieograniczona liczba czynników determinujących wzrost człowieka (olbrzymia liczba genów, sposób odżywiania, przebyte choroby itd.). Tak więc należy spodziewać się, że w populacji wzrost podlega rozkładowi normalnemu. Funkcja gęstości prawdopodobieństwa rozkładu normalnego jest określona następującym wzorem:

f(x) = 1/[(2*p)1/2*s] * e**{-1/2*[(x-m)/s]2 },   dla -Ą < x < Ą

gdzie
m oznacza wartość oczekiwaną,
s oznacza odchylenie standardowe,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną liczbą e Eulera (o wartości 2,71...),
p oznacza stałą Pi (o wartości 3,14...).

[Animated Normal Distribution]

Zamieszczona powyżej animacja przedstawia kilka przykładowych obszarów krytycznych dla standardowego rozkładu normalnego (tzn. rozkładu normalnego o wartości przeciętnej równej zero i odchyleniu standardowym 1). Standardowy rozkład normalny jest często wykorzystywany przy testowaniu hipotez statystycznych.
Indeks

Rozkład Pareto. Rozkład Pareto jest wykorzystywany powszechnie w przypadku monitorowania procesów produkcyjnych (patrz Sterowanie jakością i Analiza procesu ). Przykładowo maszyna służąca do produkcji przewodów miedzianych powoduje od czasu do czasu powstawanie wad w pewnych miejscach wzdłuż przewodu. W takim przypadku możemy użyć rozkładu Pareto do modelowania długości odcinków przewodu po których pojawiają się kolejne wady. Funkcja gęstości prawdopodobieństwa standardowego rozkładu Pareto jest określona następującym wzorem:

f(x) = c/xc+1,    dla 1 Ł x, c > 0

gdzie
c oznacza parametr kształtu.

[Animated Pareto Distribution]

Zamieszczona powyżej animacja przedstawia zmiany kształtu rozkładu Pareto dla wartości parametru kształtu równych 1, 2, 3, 4 oraz 5.
Indeks

Rozkład Poissona. Rozkład Poissona jest czasami nazywany rozkładem zdarzeń rzadkich. Przykłady zmiennych o rozkładzie Poissona to: liczba wypadków na osobę, liczba wygranych w Toto-Lotku lub liczba awarii występujących w procesie produkcyjnym. Jego funkcja prawdopodobieństwa jest zdefiniowana wzorem:

f(x) = (lx*e-l)/x!,    dla x = 0,1,2,..., 0 < l

gdzie
l (lambda) oznacza wartość oczekiwaną x (średnią),
e oznacza podstawę logarytmu naturalnego, czasami nazywaną liczbą e Eulera (o wartości 2,71...).
Indeks

Rozkład Rayleigha. Jeśli dwie zmienne y1 oraz y2 są nawzajem niezależne i każda z nich podlega rozkładowi normalnemu o jednakowych wariancjach, wtedy zmienna x = Ö(y12+ y22) podlega rozkładowi Rayleigha. Tak więc przykładem (i stosownym modelem) takiej zmiennej byłaby odległość strzałki od celu w przypadku rzutów do tarczy, gdzie błędy (odległości od środka tarczy) w dwóch wymiarach płaszczyzny na której narysowana jest tarcza są od siebie niezależne i podlegają rozkładowi normalnemu. Funkcja gęstości rozkładu jest zdefiniowana jako:

f(x) = x/b2 * e^[-(x2/2b2)],    dla 0 Ł x < Ą, b > 0

gdzie
b oznacza parametr skali,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną liczbą e Eulera (o wartości 2,71...).

[Animated Rayleigh Distribution]

Zamieszczona powyżej animacja przedstawia zmiany kształtu funkcji gęstości i dystrybuanty rozkładu Rayleigha dla wartości parametrów skali równych 1, 2 oraz 3.
Indeks

Rozkład trójkątny. Ten typ rozkładu jest użyteczny do opisu zmiennych losowych o stałej gęstości prawdopodobieństwa w obrębie określonego przedziału a<b.

f(x) = 1/(b-a),    dla a<x<b
       = 0 ,           w pozostałych przypadkach

gdzie
a<b oznaczają stałe wartości.
Indeks

Rozkład Studenta. Rozkład t-Studenta jest symetryczny względem zera a jego ogólny kształt jest podobny do kształtu standardowego rozkładu normalnego . Jest to typ rozkładu najpowszechniej wykorzystywany w przypadku testowania hipotez dotyczących wartości średniej określonej populacji. Funkcja gęstości (dla u = 1, 2, ...) jest zdefiniowana wzorem:

f(x) = G[(n+1)/2] / G(n/2) * (n*p)-1/2 *[1 + (x2/n)-(n+1)/2

gdzie
n oznacza parametr kształtu (liczba stopni swobody),
G oznacza funkcję Gamma,
p oznacza stałą Pi (o wartości 3,14 ...).

[Animated t Distribution]

Kształt rozkładu t-Studenta zależy od liczby stopni swobody. Jak widać na zamieszczonej powyżej animacji jego kształt zmienia się wraz ze wzrostem liczby stopni swobody.
Indeks

Rozkład Weibulla. Jak to zostało już wcześniej opisane rozkład wykładniczy jest często wykorzystywany do modelowania pomiarów czasu bezawaryjnej pracy w sytuacji gdy wskaźnik defektów (ryzyko) jest stały w określonym przedziale czasu. W przypadku gdy prawdopodobieństwo defektu zmienia się w czasie bardziej stosownym typem rozkładu jest rozkład Weibulla. Dlatego też rozkład Weibulla jest często stosowany do oceny niezawodności (np. przekaźników elektronicznych, łożysk kulkowych, itp., patrz Hahn i Shapiro, 1967). Funkcja gęstości jest zdefiniowana za pomocą wzoru:

f(x) = c/b*(x/b)(c-1) * e[-(x/b)^c],    dla0 Ł x < Ą, b > 0, c > 0

gdzie
b oznacza parametr skali,
c oznacza parametr kształtu,
e oznacza podstawę logarytmu naturalnego, czasami nazywaną liczbą e Eulera (o wartości 2,71...).

[Animated Weibull Distribution]

Zamieszczona powyżej animacja przedstawia zmiany kształtu rozkładu Weibulla przy wzrastających wartościach parametru kształtu (0,5, 1, 2, 3, 4, 5 oraz 10).
Indeks






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.