Przeszukaj Internetowy Podręcznik Statystyki



R Spearmana. Współczynnik R Spearmana można rozumieć tak, jak zwyczajny współczynnik korelacji Pearsona , tzn. interpretować go jako miarę wyjaśnianej zmienności. Różnica polega na tym, że oblicza się go na podstawie rang, a nie samych wartości. Jak wspomnieliśmy poprzednio, dla obliczenia R Spearmana zakłada się, że zmienne zostały zmierzone co najmniej na skali porządkowej, czyli że poszczególne obserwacje zostały uszeregowane w dwa uporządkowane ciągi. Szczegółowe informacje na temat statystyki R Spearmana, jej mocy oraz efektywności znaleźć można w pracach: Gibbons (1985), Hays (1981), McNemar (1969), Siegel (1956), Siegel i Castellan (1988), Kendall (1948), Olds (1949) lub Hotelling i Pabst (1936).

Ranga. Ranga to kolejny numer obserwacji, uzyskany po uporządkowaniu obserwacji wg ich wartości. Rangi odzwierciedlają porządkowe relacje między poszczególnymi obserwacjami w próbie. W zależności od kolejności porządkowania wartości (rosnącej lub malejącej), większa ranga przypisywana jest większej lub mniejszej wartości (przy sortowaniu rosnącym ranga 1 przypisywana jest najmniejszej wartości w próbie, a największa ranga największej (ostatniej) obserwacji; natomiast przy sortowaniu malejącym ranga 1 przypisywana jest największej wartości w próbie, a największa ranga najmniejszej wartości). Informacje uzupełniające można znaleźć w sekcjach skala porządkowa w pracy Coombs, 1950.

Redukcja danych. Wielkość zbioru danych redukować można na dwa sposoby:

Redukcja danych poprzez zmniejszenie liczby wymiarów (zmiennych). Ta interpretacja terminu Redukcja danych odnosi się do metod analitycznych (zazwyczaj chodzi o wielowymiarowe techniki eksploracyjne takie jak analiza czynnikowa, skalowanie wielowymiarowe, analiza skupień, korelacja kanoniczna lub sieci neuronowe), które pozwalają zredukować liczbę wymiarów zbioru danych poprzez wyodrębnienie podstawowych czynników, wymiarów czy skupień, wyjaśniających w dużym stopniu zmienność występującą w (wielowymiarowym) zbiorze danych. Na przykład, w źle zaprojektowanym kwestionariuszu odpowiedzi udzielane przez respondentów na dużą liczbę pytań (czyli wymiarów lub zmiennych) mogą być podsumowane przez znacznie mniejszą liczbę podstawowych czynników. Na przykład takimi dwoma podstawowymi czynnikami mogłyby być: (1) postawa uczestnika wobec badań (pozytywna lub negatywna) oraz (2) czynnik "społecznej akceptacji" (obciążenie odpowiedzi wynikające z chęci udzielenia odpowiedzi społecznie akceptowanej).

Redukcja danych poprzez reprezentatywne zmniejszenie wielkości próby (liczby przypadków). Ten rodzaj Redukcji danych jest stosowany w przypadku eksploracyjnej, wizualnej analizy skrajnie dużych zbiorów danych. Wielkość zbioru danych może spowodować, że wielość punktów na wykresie nie pozwoli na dostrzeżenie istniejących tam struktur (np. na wykresie rozrzutu punkty mogą jednostajnie pokryć cały obszar wykresu). Dlatego też może okazać się użyteczne umieszczenie na wykresie tylko pewnego, reprezentatywnego podzbioru przypadków.

Animowaną ilustrację tego można znaleźć w części Redukcja danych.

Redukcja do rdzenia (Stemming). Terminem tym określamy ważny etap wstępnego przetwarzania dokumentów w text mining. Polega on na utożsamieniu wyrazów z tym samym rdzeniem poprzez np. pominięcie form gramatycznych przy zliczaniu wystąpień wyrazów. Przykładowo redukcja do rdzenia zapewnia, że słowa "podróżuje" i "podróżował" zostaną potraktowane jako jeden obiekt.

Więcej informacji można znaleźć w pracy Manning i Schütze (2002).

Redukcja liczby wymiarów. Redukcja danych poprzez zmniejszenie liczby wymiarów (wielowymiarowa, statystyczna analiza eksploracyjna), odnosi się do metod analitycznych (jak analiza czynnikowa, skalowanie wielowymiarowe, analiza skupień, korelacja kanoniczna lub sieci neuronowe) pozwalających na wyodrębnienie pewnej, niedużej liczby ukrytych czynników, wymiarów, które wyjaśniają dużą część zmienności występującej w (wielowymiarowym) zbiorze danych.

Redukcja sieci metodą Weigenda (w sieciach neuronowych). Powszechnym problemem pojawiającym się w trakcie uczenia sieci neuronowych (szczególnie perceptronów wielowarstwowych) jest przeuczenie. Sieć o dużej liczbie wag (dużej w porównaniu z wielkością zbioru uczącego) może osiągnąć bardzo niski błąd na zbiorze uczącym, modelując w istocie jakąś dziwaczną funkcję, która przypadkowo dobrze dopasowuje się do danych uczących, mimo że zupełnie nie odzwierciedla rzeczywistego modelu i okazuje się totalnie nieprzydatna dla danych walidacyjnych i testowych. Takie zbytnio dopasowane do danych uczących "patologiczne" modele zwykle charakteryzują się wysokim stopniem krzywizny hiperpowierzchni modelującej wymaganą relację w przestrzeni sygnałów wejściowych. Ten efekt wysokiego stopnia krzywizny nagminnie się pojawia, gdyż funkcja reprezentowana przez "nadmiarową" sieć zwykle zakrzywia się w taki sposób, aby przejść przez wszystkie punkty uczące. Oczywiście krzywizny te zupełnie nie przystają do danych walidacyjnych ani testowych, co upoważnia nas do zdecydowanie krytycznej oceny takiego modelu. Dodatkowo krytyczna ocena "przeuczonej" sieci wynika z faktu, że utworzony przez nią model wpisuje się w dane uczące tak dokładnie i tak dosłownie, że oprócz zasadniczych prawidłowości i współzależności ukrytych w tych danych, model odtwarza maksymalnie wiernie także wszelkie zawarte w danych uczących pomyłki, niedokładności i szumy co z pewnością nie jest korzystne dla działania docelowej sieci.

Istnieje kilka opisywanych w literaturze sposobów radzenia sobie z problemem zbytniego dopasowania modelu neuronowego do danych uczących. Oto niektóre z nich:

Ostatnią z wymienionych technik jest regularyzacja, o której do tej pory nie było mowy. W związku z tym w tej sekcji opisana jest technika redukcji sieci metodą Weigenda (Weigend i in., 1991).

Model zdefiniowany za pomocą perceptronu wielowarstwowego z s-kształtną (logistyczną lub hiperboliczną) funkcją aktywacji charakteryzuje się tym wyższą krzywizną, im wyższe są wartości wag. Można to stwierdzić analizując kształt krzywej s-kształtnej. Jeśli spojrzeć na jej niewielki fragment centralny, to jest ona "prawie liniowa". W związku z tym sieci o bardzo małych wartościach wag z pewnością modelują funkcje "prawie liniowe", o małym stopniu krzywizny. Przy okazji zauważmy, że w trakcie uczenia początkowo wagom nadaje się małe wartości (odpowiadające niskiej krzywiźnie funkcji), które następnie (dotyczy to przynajmniej części z nich) rozbiegają się w kierunku dużych (dodatnich i ujemnych) wartości docelowych. Jak z tego wynika, jednym ze sposobów preferowania modeli odwołujących się mniejszej krzywizny hiperpowierzchni jest zmierzanie do takich procedur uczenia, które są gwarancją małych wag.

W metodzie redukcji sieci Weigenda dokonywane jest to przez dołączenie dodatkowego członu do funkcji błędu, który dodatkowo karze sieć, gdy ta w toku uczenia usiłuje ustawiać większe wartości wag. Dzięki temu sieć toleruje tylko te większe wagi, które są niezbędnie potrzebne do zamodelowania problemu, zaś pozostałe wagi są zerowane. Technika ta może być stosowana łącznie z dowolnym algorytmem uczenia perceptronów wielowarstwowych (propagacji wstecznej, gradientów sprzężonych, Quasi-Newtona, szybkiej propagacji i Delta-bar-Delta) z wyjątkiem algorytmu Levenberga-Marquardta, który stosuje własne założenia dotyczące kształtu funkcji błędu.

Opisana wyżej technika redukcji sieci jest powszechnie określana jako technika eliminacji wag Weigenda lub redukcja sieci metodą Weigenda, gdyż kiedy wagi staną się bardzo małe, to możliwe jest także ich całkowite usunięcie z sieci. Takie zmniejszanie złożoności sieci poprzez usuwanie niepotrzebnych wag jest często opisywane w literaturze pod nazwą pruningu. Jest to użyteczna technika służąca zmniejszaniu złożoności sieci oraz selekcji zmiennych wejściowych.

Po fazie uczenia z regularyzacją Weigenda i usunięciu zbędnych neuronów, można sieć dalej uczyć bez regularyzacji w celu "wyostrzenia" rozwiązania.

Regularyzacja Weigenda można być także pomocna w zapobieganiu zjawisku przeuczenia sieci.

Uwagi: Jeśli korzystamy z redukcji sieci metodą Weigenda to błąd na wykresie błędu uczenia zawiera człon kary Weigenda. Jeśli zatem porównać sieć uczoną przy zastosowaniu techniki Weigenda z siecią przy uczeniu której technika ta nie była stosowana, to można odnieść błędne wrażenie, że sieć uczona techniką Weigenda charakteryzuje się mniejszą sprawnością, co nie koniecznie musi być prawdą. W celu porównania takich sieci uruchamiamy sieć uczoną metodą Weigenda i wówczas wyznaczony zostanie rzeczywisty błąd jej działania, nie uwzględniający członu kary Weigenda.

Szczegóły techniczne. Człon kary Weigenda dany jest formułą:

gdzie l jest współczynnikiem regularyzacji, wi jest wagą występującą w sieci (indeks i przebiega przez wszystkie wagi) a wo jest współczynnikiem skali.

Człon kary dodawany jest do błędu wyznaczonego w trakcie uczenia za pomocą stosowanej dla danej sieci funkcji błędu, zaś jego pochodna jest dodawana do pochodnej wagi. Jednakże człon kary jest pomijany, gdy sieć jest uruchamiana w celu wyznaczenia wartości roboczych.

Współczynnik regularyzacji dobieramy tak, by wywrzeć odpowiednią presję w kierunku odrzucania neuronów. Zależność pomiędzy tym współczynnikiem a liczbą aktywnych neuronów jest z grubsza logarytmiczna, tak, że współczynnik ten przyjmować może wartości z szerokiego zakresu, powiedzmy 0,01-0,0001.

Czynnik skali określa co to znaczy "duża" wartość. Domyślna wartość 1,0 zwykle nie wymaga zmiany.

Cechą charakterystyczną członu kary Weigenda jest to, że nie karze on w prosty sposób wszystkich większych wag. W "wyrozumiały sposób" odnosi się on również do niejednorodnej mieszanki dużych i małych wag, w przeciwieństwie do dużej liczby wag o średniej wielkości. Właśnie ta własność pozwala na "eliminację" wag.

Regresja (w sieciach neuronowych). W problemach regresyjnych celem jest predykcja wartości ciągłej zmiennej wyjściowej. Problemy regresyjne mogą być rozwiązywane przy użyciu następujących typów sieci: perceptronów wielowarstwowych, sieci o radialnych funkcjach bazowych, (bayesowskich) sieci regresyjnych i sieci liniowych.

Skalowanie zmiennej wyjściowej.

Perceptron wielowarstwowy w korzysta z funkcji Minimax do skalowania zarówno zmiennych wejściowych jak i wyjściowych. Kiedy stosowana jest ta właśnie postać funkcji, automatycznie określane są współczynniki skali i ustalane przesunięcia dla każdej zmiennej. Dokonywane jest to, gdy sieć jest uczona, w oparciu o skrajne wartości (minimalną i maksymalną) wykryte w zbiorze uczącym.

W efekcie opisanych zabiegów poziom aktywacji sieci równy 0 jest przypisywany minimalnej wartości występującej w zbiorze uczącym, zaś poziom aktywacji równy 1 jest przypisywany maksymalnej wartości w zbiorze uczącym. Wynika z tego, że sieć jest zdolna interpolować wartości wewnątrz przedziału reprezentowanego w zbiorze uczącym. Jednak ze względu na efekt "nasycenia" występujący w funkcji logistycznej sieć z neuronami o takich właśnie charakterystykach nie potrafi ekstrapolować na zewnątrz tego przedziału, nawet kiedy natura danych testowych mocno sugeruje, że powinna to zrobić. Jest to duże ograniczenie.

Sieci mogą uzyskać zdolność do ekstrapolacji na kilka sposobów:

Wartości nietypowe. Sieci regresyjne mogą być szczególnie czułe na problemy związane z tak zwanymi danymi nietypowymi. Użycie funkcji Suma-Kwadratów w charakterze funkcji błędu powoduje, że punkty leżące dalej od pozostałych mają nieproporcjonalnie duży wpływ na położenie hiperpłaszczyzny użytej w regresji. Jeśli punkty te rzeczywiście mają nieprawidłowy charakter (na przykład są to nieprawidłowe wartości generowane przez uszkodzone urządzenie pomiarowe) to mogą one w istotny sposób zmniejszyć sprawność całej sieci - nawet wtedy, gdy są relatywnie nieliczne.

Jedno z podejść do rozwiązania tego problemu polega na przeprowadzeniu dwuetapowej procedury: w pierwszym kroku dokonuje się uczenia i testowania sieci w oparciu o cały zbiór uczący, a następnie w drugim kroku wyodrębnia się i usuwa ze zbioru danych te przypadki, które posiadają szczególnie wysoką wartość błędu. Po wykonaniu tej operacji przeprowadza się ponowne uczenie sieci.

W szczególności jeśli przypuszczamy, że nietypowy charakter pewnego przypadku jest powodowany przez podejrzaną wartość jednej ze zmiennych opisujących ten przypadek, to tę szczególną wartość można usunąć (zob. poniżej Brakujące wartości).

Inne podejście do ograniczania problemów związanych z danymi nietypowymi polega na użyciu funkcji błędu opartej na odległości miejskiej. Podczas używania tej funkcji program sumuje wartości bezwzględne różnic (między wartością poprawną i wartością wyznaczoną przez sieć) w celu wyznaczenia minimalizowanej miary błędu, zamiast sumowania kwadratów różnic dla każdej zmiennej. Uwolnienie funkcji błędu od kwadratowej zależności od błędów powoduje, że uczenie jest w mniejszym stopniu wrażliwe na wartości nietypowe.

Otóż stosując funkcję błędu opartą na sumie kwadratów powodujemy, że wielkość wpływu przypadku na hiperpłaszczyznę decyzyjną jest proporcjonalna do odległości punktu od hiperpłaszczyzny. Stąd bardziej odległe punkty mocniej wpływają na położenie hiperpłaszczyzny, co "faworyzuje" punkty nietypowe. Natomiast korzystając z funkcji błędu opartej na odległości miejskiej powodujemy, że każdy z punktów uczących wpływa na położenie hiperpłaszczyzny w identyczny sposób, zaś jedyni kierunek tego wpływu po prostu zależy od strony hiperpłaszczyzny, po której leży dany punkt. W rzeczywistości, funkcja błędu oparta na sumie kwadratów próbuje wyznaczyć położenie hiperpłaszczyzny determinowane przez średnią wejściowego zbioru danych, zaś funkcja błędu oparta na odległości miejskiej próbuje wyznaczyć lokalizację hiperpłaszczyzny wskazywaną przez medianę. Ogólnie znana właściwość mediany, jaką jest jej niewrażliwość na skrajne (właśnie te nietypowe) obserwacje w wejściowym zbiorze danych, znajduje tu swoje pełne zastosowanie.

Brakujące wartości. Podczas stosowania sieci neuronowych nie należy do rzadkości sytuacja, w której dla pewnych przypadków występują braki w danych. Mogą one być spowodowane niedostępnością pewnych obserwacji bądź uszkodzeniem zbieranych danych. Możliwe, że w takiej sytuacji mimo braku tych danych będziemy potrzebowali wyników, dlatego spróbujemy uruchomić sieć (używając niekompletnych danych podczas eksploatacji sieci lub (co wzbudza większe wątpliwości) podczas uczenia sieci).

Jeśli to możliwe, i jest to dobrą praktyką, pomija się albo całe zmienne zawierające dużą liczbę brakujących wartości, albo rezygnuje się z całych przypadków z licznymi brakującymi wartościami.

Regresja krokowa. Regresja krokowa to technika budowania modelu polegająca na znajdywaniu takich podzbiorów predyktorów, które pozwalają najlepiej przewidywać odpowiedzi zmiennej zależnej za pomocą modelu regresji liniowej (lub nieliniowej), przy zastosowaniu określonych kryteriów adekwatności modelu.

Omówienie regresji krokowej oraz kryteriów dopasowania modelu można znaleźć we Wprowadzeniu do rozdziału GRM oraz we Wprowadzeniu do rozdziału Regresja wieloraka. Natomiast omówienie regresji nieliniowej krokowej i regresji metodą najlepszego podzbioru można znaleźć w rozdziale GLZ.

Regresja metodą cząstkowych najmniejszych kwadratów (PLS). Metoda cząstkowych najmniejszych kwadratów jest metodą regresji liniowej, która w charakterze zmiennych niezależnych (objaśniające lub predyktory) używa pewnych nowych składowych (czynników lub zmiennych ukrytych). Składowe te w regresji metodą cząstkowych najmniejszych kwadratów są określone zarówno przez zmienne zależne (odpowiedzi) jak i zmienne występujące w charakterze predyktorów. Można oczekiwać, że model regresji utworzony za pomocą metody cząstkowych najmniejszych kwadratów będzie posiadał mniejszą liczbę składowych bez znacznego obniżenia wartości statystyki R-kwadrat.

Omówienie metody cząstkowych najmniejszych kwadratów można znaleźć w opisie Modeli cząstkowych najmniejszych kwadratów (PLS).

Regresja metodą najlepszego podzbioru. Technika budowania modelu umożliwiająca znajdowanie podzbiorów predyktorów, które pozwalają najlepiej przewidywać odpowiedzi zmiennej zależnej za pomocą modelu regresji liniowej (lub nieliniowej).

Przeglądowe omówienie metody najlepszego podzbioru znajduje się w opisie Ogólnych modeli regresji (GRM). Omówienie regresji nieliniowej, krokowej i regresji metodą najlepszego podzbioru można znaleźć w Uogólnione modele liniowe i nieliniowe (GLZ).

Regresja wielomianowa logitowa i probitowa. Modele regresji logit i probit, dla zmiennych o rozkładzie wielomianowym, stanowią rozszerzenie standardowych modeli regresji logit i probit na przypadek zmiennej zależnej, która ma więcej niż dwie kategorie (np. nie tylko Zdał - Nie zdał, ale Zdał, Nie zdał, Opuścił), tzn. kiedy rozważana zmienna zależna (odpowiedzi) podlega rozkładowi wielomianowemu, a nie rozkładowi dwumianowemu. W przypadku gdy odpowiedzi o charakterze wielomianowym zawierają kategorie, które dają się uporządkować, wtedy odpowiedzi takie określa się terminem odpowiedzi o charakterze wielomianowym porządkowym (zob. rozkład wielomianowy porządkowy).

Dalsze szczegóły można znaleźć w tekście omówienia funkcji wiążących, przekształcenia i regresji probitowej, przekształcenia i regresji logitowej lub we wprowadzeniu do Uogólnionych modeli liniowych i nieliniowych (GLZ).

Regresja wieloraka. Ogólnym celem regresji wielorakiej (patrz np. Pearson, 1908) jest analiza związków pomiędzy kilkoma zmiennymi niezależnymi (objaśniającymi) a jedną zmienną zależną (objaśnianą, kryterialną).

Ogólny problem obliczeniowy jaki należy rozwiązać w analizie regresji wielorakiej polega na dopasowaniu linii prostej (lub płaszczyzny w przestrzeni (n+1)-wymiarowej, gdzie n oznacza liczbę zmiennych niezależnych) do zbioru punktów. W najprostszym przypadku - jedna zmienna zależna i jedna zmienna niezależna - można to zobrazować na wykresie rozrzutu (wykresy rozrzutu są dwuwymiarowymi wykresami dla dwóch zmiennych). Regresja wieloraka jest wykorzystywana zarówno w charakterze metody służącej do testowania hipotez jak i jako metoda eksploracyjna.

Więcej informacji można znaleźć w sekcji Regresja wieloraka.

Regresja. Kategoria zagadnień, której przedmiotem jest estymacja wartości wyjściowej zmiennej ciągłej na podstawie pewnych zmiennych wejściowych. Zob. także: regresja wieloraka.

Regularyzacja (sieci neuronowe). Modyfikacja algorytmu uczenia polegająca na uzupełnieniu funkcji błędu o człon kary o wartości uzależnionej od złożoności sieci (zwykle karane są sieci posiadające wagi o dużych wartościach, gdyż odpowiadają one sieciom modelującym bardzo złożone krzywe). Celem regularyzacji jest zapobieganie zbytniemu lub niedostatecznemu dopasowaniu się modelu do danych (Bishop, 1995).

Zob. Sieci neuronowe.

Reguła stopu dla drzew klasyfikacyjnych. Przy konstrukcji drzew klasyfikacyjnych, reguła stopu określa kryterium stosowane do wyboru drzewa klasyfikacyjnego "właściwej wielkości". Proces wyboru drzewa "odpowiedniej wielkości" opisano w części Metody obliczeniowe wprowadzenia do drzew klasyfikacyjnych.

Reprezentacja dwustanowa (sieci neuronowe). Sposób reprezentacji wartości dwustanowych zmiennych nominalnych wykorzystujący jeden neuron. Jednej wartości nominalnej odpowiada aktywacja neuronu, zaś drugiej pozostanie neuronu w stanie spoczynku. Dodatkowe informacje można znaleźć w sekcji Sieci neuronowe.

Reprezentacja typu jeden-z-N (sieci neuronowe). Sposób przedstawiania wartości zmiennych nominalnych stosowany dla zmiennych wejściowych oraz wyjściowych. Liczba wykorzystywanych neuronów jest równa liczbie możliwych wartości przyjmowanych przez zmienną. W fazie uczenia, w celu reprezentacji wybranej wartości, aktywowany jest odpowiadający jej neuron, zaś wszystkie pozostałe neurony pozostają w stanie spoczynku. Dodatkowe informacje można znaleźć w sekcji Sieci neuronowe.

Reszta. Reszty to różnice między wartościami obserwowanymi, a obliczonymi na podstawie dopasowanego modelu. Reprezentują one zmienność nie wyjaśnioną przez model. Im lepiej model oddaje strukturę danych, tym reszty są mniejsze. Reszta (ei) dla i-tej obserwacji jest obliczana ze wzoru:

ei = (yi - yiprzew)

gdzie
yi         oznacza i-tą wartość zaobserwowaną,
yiprzew   oznacza odpowiadającą jej wartość przewidywaną przez model.

Tematy pokrewne: regresja wieloraka, reszty standaryzowane, odległości Mahalanobisa, reszta usunięta i odległości Cooka.

Reszty cząstkowe. W modelach regresji (liniowej, nieliniowej oraz addytywnej) o m predyktorach, reszty cząstkowe dla k-tego predyktora obliczane są poprzez usunięcie ze zmiennej zależnej efektów wszystkich predyktorów i = 1, ... , m; iąk. Wykresy rozrzutu reszt cząstkowych względem predyktorów są użyteczne w uogólnionych modelach addytywnych, gdzie pomagają zinterpretować (nieliniowy) wkład poszczególnych efektów do całego modelu.

Reszty odchylenia. Po dopasowaniu do danych uogólnionego modelu liniowego, w celu sprawdzenia jego adekwatności, oblicza się różne statystyki resztowe. Reszta odchylenia jest obliczana ze wzoru:

rD = sign(y-m)sqrt(di)

gdzie Sdi = D, a D jest miarą całkowitego odchylenia dla rozbieżności uogólnionego modelu liniowego (dalsze szczegóły można znaleźć w podręczniku McCullagh'a i Neldera, 1989). A zatem statystyka odchylenia dla danej obserwacji odzwierciedla jej wkład do ogólnej dobroci dopasowania (odchylenie) modelu.

Patrz także: opis Uogólnione modele liniowe i nieliniowe.

Reszty Pearsona. Po dopasowaniu do danych uogólnionego modelu liniowego, w celu sprawdzenia adekwatności odpowiedniego modelu, zazwyczaj oblicza się różne statystyki resztowe. Reszta Pearsona jest obliczana poprzez podzielenie wartości surowej reszty (y-m), przez oszacowaną wartość odchylenia standardowego y.

Dokładne omówienie statystyk resztowych w uogólnionych modelach liniowych można znaleźć w podręczniku McCullagh'a i Neldera (1989) a także w sekcji Uogólnione modele liniowe.

Reszty studentyzowane. Oprócz obliczania standaryzowanych reszt dostępnych jest kilka innych metod (w tym studentyzowane usunięte reszty, DFFITS oraz standaryzowane DFFITS) służących do wykrywania odstających wartości (obserwacji o ekstremalnych wartościach występujących w zbiorze predyktorów lub zmiennej zależnej). Studentyzowane reszty są wyliczane według wzoru:

SRESi = (ei/s)/(1-i)1/2

gdzie
ei    oznacza błąd dla i-tego przypadku
hi    oznacza wskaźnik wpływu dla i-tego przypadku

ai = 1/N + hi

Aby uzyskać więcej informacji, patrz Hocking (1996) i Ryan (1997).

Rodzina rozkładów wykładniczych. Rodzina rozkładów prawdopodobieństwa zawierających wyrażenia wykładnicze, obejmująca wiele najważniejszych rozkładów spotykanych w rzeczywistych sytuacjach (w tym rozkład normalny czyli Gaussa oraz rozkłady beta i gamma). Więcej informacji można znaleźć w rozdziale Sieci neuronowe.

Rozdzielczość planu. Plan o rozdzielczości R to taki plan, w którym żadna l-czynnikowa interakcja nie jest uwikłana z żadną inną interakcją rzędu niższego niż R - l. Przykładowo w planie o rozdzielczości R równej 5, żadna interakcja rzędu l = 2 nie jest uwikłana z innymi interakcjami rzędu niższego od R - l = 3, a więc efekty główne nie są uwikłane wzajemnie, efekty główne nie są uwikłane z interakcjami dwuczynnikowymi, a efekty dwuczynnikowe nie są uwikłane wzajemnie.

Dyskusja roli kryteriów w planowaniu doświadczeń znajduje się w sekcji Plany frakcyjne 2(k-p) i Plany 2(k-p) maksymalnie nieuwikłane i o najmniejszej aberracji w rozdziale Planowanie doświadczeń (DOE).

Rozkład Chi-kwadrat. Rozkład Chi-kwadrat opisywany jest wzorem:

f(x) = {1/[2/2 * (/2)]} * [x(/2)-1 * e-x/2]
= 1, 2, ..., 0 < x

gdzie
     jest liczbą stopni swobody,
 e      to liczba e (2,71...),
     oznacza funkcję Gamma.

Wyżej widoczny jest kształt funkcji rozkładu dla liczby stopni swobody równej 1, 2, 5, 10, 25 i 50. Zauważmy, że skala pozioma zmienia się by uwidocznić w pełni kształt rozkładu.

Rozkład t-Studenta. Rozkład t-Studenta ma funkcję gęstości określoną wzorem (dla = 1, 2, ...):


gdzie
     oznacza liczbę stopni swobody,
    oznacza funkcję Gamma,
    to liczba Pi (3.14...).


Powyższa animacja ukazuje różne wielkości pola ogona (wartość p) rozkładu t-Studenta przy liczbie stopni swobody równej 15.

Rozkład asymetryczny Gdybyśmy podzielili rozkład na dwie połowy w punkcie średniej (lub mediany), wówczas rozkład wartości po obu stronach tego środkowego punktu nie byłby taki sam (tzn. nie byłby symetryczny), lecz musiałby być potraktowany jako "skośny".

Więcej informacji można znaleźć w części Statystyki opisowe - Wprowadzenie.

Rozkład Bernoulliego. Rozkład tego typu najlepiej opisuje sytuacje, w których wynikiem doświadczenia może być sukces lub porażka, tak jak w przypadku rzutu monetą lub przy określaniu powodzenia lub niepowodzenia operacji chirurgicznej. Funkcja gęstości rozkładu Bernoulliego jest zdefiniowana jako:

f(x) = px * (1-p)1-x

dla x równego 0 lub 1

gdzie:p jest prawdopodobieństwem zajścia określonego zdarzenia.

Pełna lista funkcji gęstości rozkładów, patrz funkcje gęstości prawdopodobieństwa, dystrybuanty i ich odwrotności

Rozkład Beta. Rozkład Beta (termin ten został po raz pierwszy użyty przez Giniego, 1911) jest określany jako:

f(x) = (+)/(()()) * x-1 * (1-x)-1
0 x 1
> 0, > 0

gdzie
        (gamma) oznacza funkcję Gamma,
,     są parametrami kształtu.

Animacja przedstawia rozkład beta dla różnych wartości parametrów kształtu.

Rozkład Cauchy'ego. Rozkład Cauchy'ego (Upensky, 1937 ) ma następującą funkcję gęstości prawdopodobieństwa:

f(x) = 1/(*{1 + [(x-)/]2})
0 <

gdzie
     jest parametrem położenia, (mediana)
     jest parametrem skali,
     oznacza liczbę pi (3,14...).

Wyżej widoczny jest kształt funkcji, przy parametrze położenia równym 0 i parametrze skali zmieniającym się od 1 do 4.

Rozkład dwumianowy. Rozkład dwumianowy (termin ten został po raz pierwszy użyty przez Yule'a, 1911) jest zdefiniowany jako:

f(x) = [n!/(x!*(n-x)!)] * px * qn-x
dla x = 0, 1, 2, ..., n

gdzie:
p     oznacza prawdopodobieństwo sukcesu w każdej próbie,
q     jest równe 1-p
n     oznacza liczbę niezależnych prób.

Rozkład dwumodalny. Jest to rozkład, w przypadku którego występują dwie wartości modalne (a więc dwa wyraźne maksima ("szczyty") na wykresie funkcji gęstości rozkładu).

Dwumodalność rozkładu w próbie często oznacza, że rozkład danej zmiennej w populacji nie jest rozkładem normalnym. Dwumodalność rozkładu może dostarczać ważnej informacji na temat istoty badanej zmiennej (tzn. mierzonej cechy). Na przykład jeśli dana zmienna reprezentuje deklarowane preferencje lub postawy, wówczas dwumodalność może wskazywać na występowanie rozbieżności opinii. Jednakże często dwumodalność może oznaczać, że próba nie jest jednorodna i że w rzeczywistości obserwacje pochodzą z dwóch lub większej liczby "nakładających się" rozkładów. W niektórych sytuacjach dwumodalność rozkładu może wskazywać na problemy z narzędziem pomiarowym (np. "problemy z kalibracją urządzeń" w naukach przyrodniczych lub występowanie "obciążonych (tendencyjnych) odpowiedzi" w przypadku nauk społecznych).

Patrz także: rozkład jednomodalny oraz rozkład wielomodalny.

Rozkład F. Rozkład F (dla x > 0) ma funkcję gęstości określoną wzorem (dla = 1, 2, ...; = 1, 2, ...):

f(x) = {[(+)/2]}/[(/2) *(/2)]*(/)/2 *
x(/2)-1 * {1+[(/)*x]}-(+)/2

0 x <
= 1, 2, ...,    = 1, 2, ...

gdzie
,   to liczby stopni swobody,
        (gamma) oznacza funkcję Gamma.


Na rysunku powyżej widzimy kształt rozkładu, dla obydwu liczb stopni swobody równych 10.

Rozkład Gamma. Funkcja gęstości rozkładu Gamma (termin ten został po raz pierwszy użyty przez Weatherburna, 1946) jest zdefiniowany jako:

f(x) = (x/b)c-1 * e(-x/b) * [1/b (c)]
0 x, b > 0, c > 0

gdzie
  (gamma) to funkcja Gamma,
b     jest parametrem skali,
a     jest tzw. parametrem kształtu,
e     jest podstawą logarytmu naturalnego (o wartości 2.71...), czasami nazywaną e Eulera.


Animacja powyżej przedstawia rozkład gamma dla wartości parametru kształtu od 1 do 6.


Rozkład Gaussa. Rozkład normalny, krzywa dzwonowa.
Rozkład Gaussa nazywany jest również rozkładem normalnym, a jego funkcja gęstości "krzywą dzwonową".

Rozkład geometryczny. Rozkład geometryczny (por. Feller, 1950) jest zdefiniowany jako:

f(x) = p*(1-p)x

gdzie
p     oznacza prawdopodobieństwo zajścia określonego zdarzenia (np. sukcesu).

Rozkład Gompertza. Rozkład Gompertza jest teoretycznym rozkładem czasu przeżycia. Gompertz (1825) zaproponował model dla prawdopodobieństwa zgonu bazujący na założeniu, że "średni ubytek zdolności przeżycia (uniknięcia śmierci) jest taki, że po zakończeniu równych nieskończenie małych przedziałów czasu, zawsze tracona jest taka sama część zdolności przeżycia na początku przedziału" (Johnson, Kotz, Blakrishnan, 1995, p. 25). Funkcja hazardu dla tego rozkładu ma postać:

r(x)=Bcx,    dla x Ł 0, B > 0, c Ł 1

Rozkład ten jest często stosowany w analizie przeżycia. Więcej informacji można znaleźć w Johnson, Kotz, Blakrishnan (1995).


Rozkład jednomodalny. Rozkład mający tylko jedną wartości modalną (maksymalną). Typowym przykładem jest rozkład normalny, który jest ponadto rozkładem symetrycznym. Jest jednak wiele rozkładów jednomodalnych, które nie są symetryczne (np. rozkład dochodów zazwyczaj nie jest rozkładem symetrycznym lecz lewostronnie skośnym, patrz skośność). Patrz także rozkład dwumodalny, rozkład wielomodalny.

Rozkład jednostajny. Rozkład jednostajny (zwany też prostokątnym lub równomiernym), w przypadku dyskretnym jest określony za pomocą funkcji prawdopodobieństwa:

f(x) = 1/N         dla x = 1, 2, ..., N

a w przypadku ciągłym ma funkcję gęstości:

f(x) = 1/(b-a)      dla a < x < b

gdzie:
a     jest dolną granicą przedziału zmienności,
b     jest górną granicą przedziału zmienności.

Rozkład Laplace'a. Rozkład Laplace'a (podwójnie wykładniczy) ma funkcję gęstości określoną wzorem:

f(x) = 1/(2b)*e-|x-a|/b        - < x <

gdzie
a     oznacza średnią rozkładu,
b     jest parametrem skali,
e     to liczba Eulera e=2,71...

Powyższa animacja ilustruje kształt rozkładu Laplace'a dla parametru skali równego 1, 2, 3 i 4.

Rozkład logistyczny. Rozkład logistyczny ma funkcję gęstości określoną wzorem:

f(x) = (1/b)*e-(x-a)/b * [1+e-(x-a)/b]-2

gdzie
a     oznacza średnią rozkładu,
b     jest parametrem skali,
e     to liczba e=2,71...

[Animated Logistic Distribution]

Na powyższej ilustracji pokazany jest rozkład logistyczny o parametrze położenia równym zeru i parametrze skali przybierającym wartości 1, 2 i 3.

Rozkład lognormalny. Rozkład lognormalny (termin po raz pierwszy użyty przez Gadduma, 1945) ma funkcję gęstości prawdopodobieństwa określoną wzorem:

f(x) = 1/[x(2)1/2] * exp(-[log(x)-µ]2/22)
0 x <
µ > 0
> 0

gdzie
µ     jest parametrem skali,
   jest parametrem kształtu,
e     to liczba e (=2,71...).

[Animated Log-normal Distribution]

Na powyższej ilustracji widoczny jest rozkład lognormalny o mi równym 0 i sigmie równej 0,1, 0,3, 0,5, 0,7 i 0,9. Przez L oznaczona jest krytyczna wartość wg rozkładu lognormalnego.

Rozkład normalny. Rozkład normalny (termin ten został po raz pierwszy użyty przez Galtona, 1889) posiada funkcję gęstości określoną wzorem:

f(x) = 1/[2*)1/2*] * e**{-1/2*[(x-µ)/]2}
- < x <

gdzie
 µ     oznacza średnią,
   oznacza odchylenie standardowe,
 e     jest podstawą logarytmu naturalnego (o wartości 2,71...), czasami nazywaną e Eulera,
   jest stałą Pi (3,1415...).


Dodatkowe informacje można znaleźć także pod hasłem dwuwymiarowy rozkład normalny oraz w sekcjach Podstawowe pojęcia (rozkład normalny), Statystyki podstawowe - Testy normalności.

Rozkład Pareto. Standardowy rozkład Pareto posiada funkcję gęstości określoną za pomocą wzoru (dla dodatnich wartości c):

f(x) = c/xc+1       1 x, c > 0

gdzie
c     jest parametrem kształtu rozkładu.

[Animated Pareto Distribution]

Powyższa ilustracja przedstawia rozkład Pareto dla różnych wartości parametru kształtu (1, 2, 3, 4 oraz 5).

Rozkład Poissona. Rozkład Poissona (termin ten został po raz pierwszy użyty przez Sopera, 1914) jest zdefiniowany jako:

f(x) = (x * e-)/x!
dla x = 0, 1, 2, ..,   0 <

gdzie
  (lambda) jest wartością oczekiwaną x (średnią),
 e    jest podstawą logarytmu naturalnego (o wartości 2,71), czasami nazywaną e Eulera.

Rozkład prostokątny. Rozkład prostokątny (ciągły rozkład jednostajny, używana jest również nazwa rozkład jednorodny), to rozkład o stałej wartości funkcji gęstości prawdopodobieństwa w pewnym przedziale (a,b) i równej zero poza tym przedziałem:

f(x) = 1/(b-a) a<x<b
= 0 dla x spoza przedziału (a,b)

gdzie
a<b są stałymi.

Rozkład Rayleigha. Rozkład Rayleigha ma funkcję gęstości rozkładu prawdopodobieństwa określoną przy pomocy wzoru:

f(x) = x/b2 * e-(x 2/2b2)
0 x <
b > 0

gdzie
b     jest parametrem skali,
e     jest podstawą logarytmu naturalnego (o wartości 2,71...), czasami nazywaną e Eulera.

Tematy pokrewne: Analiza procesu.

[Animated Rayleigh Distribution]

Na ilustracji powyżej widzimy funkcję gęstości i dystrybuantę rozkładu Rayleigha dla różnych wartości parametru skali (1, 2 i 3).

Rozkład symetryczny. Gdybyśmy rozdzielili rozkład na dwie połowy w punkcie średniej (lub mediany), wówczas rozkład wartości pierwszej połowy w stosunku do punktu środkowego, stanowiłby "lustrzane odbicie" drugiej. Przykładem rozkładu symetrycznego jest rozkład normalny.

Zob. Wprowadzenie do statystyk opisowych.

Rozkład wartości ekstremalnych (typu I, Gumbela). Rozkład wartości ekstremalnych (termin użyty przez Liebleina w 1953) ma funkcję gęstości prawdopodobieństwa określoną wzorem (dla wartości maksymalnej):

f(x) = 1/b * e-(x-a)/b * e-e-(x-a) / b
- < x <
b > 0

gdzie
a    jest parametrem położenia,
b    jest parametrem skali,
e    to liczba e, podstawa logarytmów naturalnych (e=2,71...).
Rozkład ten nazywamy jest też czasami rozkładem maksymalnej wartości ekstremalnej.

Dodatkowe informacje można znaleźć w rozdziale Analiza procesu.

Wyżej widoczny jest kształt rozkładu dla parametru położenia równego 0 i parametru skali 1 .

Rozkład Weibulla. Rozkład Weibulla (Weibull, 1939, 1951; patrz też Lieblein, 1955) ma następującą funkcję gęstości:

f(x) = c/b*[(x-)/b]c-1 * e^{-[(x-)/b]c}
< x,  b > 0,  c > 0

gdzie:
b     jest parametrem skali,
c     jest parametrem kształtu,
   jest parametrem położenia,
e     to liczba e=2,71...

Powyższa animacja pokazuje rozkład Weibulla dla parametru kształtu przyjmującego wartości 0.5, 1, 2, 3, 4, 5 i 10.

Rozkład wielomianowy. Rozkład wielomianowy jest używany w przypadku, gdy zmienna zależna jest zmienną skategoryzowaną, to znaczy zawiera dane dające się przypisać do poszczególnych kategorii. Na przykład jeśli badacz określił stan kierowcy uczestniczącego w wypadku jako: "bez szwanku", "ranny nie wymagający hospitalizacji", "ranny wymagający hospitalizacji" lub "martwy", wtedy rozkład sum w tych kategoriach będzie wielomianowy (patrz: Agresti, 1996). Rozkład wielomianowy jest uogólnieniem rozkładu dwumianowego dla więcej niż dwóch kategorii.

Jeśli kategoria zmiennej zależnej da się uporządkować, wtedy rozkład tej zmiennej jest rozkładem wielomianowym porządkowym . Na przykład, jeśli w pytaniu ankietowym możliwe odpowiedzi mogą przybierać następujące treści: "Stanowczo popieram", "Popieram", "Nie mam zdania", "Sprzeciwiam się", "Stanowczo sprzeciwiam się", wtedy sumy w poszczególnych kategoriach powinny przybierać rozkład wielomianowy porządkowy (ponieważ kategorie odpowiedzi zostały pogrupowane rosnąco względem poziomu sprzeciwu).

Wyspecjalizowane metody służące do analizy zmiennych podlegających rozkładowi wielomianowemu oraz wielomianowemu porządkowemu można znaleźć w Uogólnionych modelach liniowych i nieliniowych.

Rozkład wielomianowy porządkowy. W przypadku gdy kategorie zmiennej odpowiedzi o rozkładzie wielomianowym można uporządkować, wtedy rozkład taki jest nazywany rozkładem wielomianowym porządkowym. Przykładowo, jeśli w danym badaniu odpowiedzi na pytanie są tak sformułowane, że respondent ma do wyboru jedną ze wstępnie podanych kategorii "zdecydowanie tak", "tak", "jest mi to obojętne", "nie" i "zdecydowanie nie" wtedy liczebności (liczba respondentów) w różnych kategoriach będą podlegały rozkładowi wielomianowemu porządkowemu (ponieważ kategorie odpowiedzi są uporządkowane).

W sekcji Ogólne modele liniowe można znaleźć opis specjalnych metod przeznaczonych do analizy zmiennych odpowiedzi o rozkładzie wielomianowym lub wielomianowym porządkowym.

Rozkład wielomodalny. Jest to rozkład, który ma wiele wartości modalnych (a więc dwa lub więcej maksima na wykresie funkcji gęstości rozkładu).

Wielomodalność rozkładu z próby zwykle oznacza, że rozkład danej zmiennej w populacji nie jest rozkładem normalnym. Wielomodalność rozkładu może dostarczać ważnej informacji na temat istoty badanej zmiennej (tzn. jakości pomiaru). Na przykład, jeśli dana zmienna reprezentuje deklarowane preferencje lub postawy, wówczas wielomodalność może wskazywać na występowanie kilku wyraźnych profili odpowiedzi w kwestionariuszu. Jednakże często wielomodalność może oznaczać, że próba nie jest jednorodna i że w rzeczywistości obserwacje pochodzą z większej liczby nakładających się rozkładów. W niektórych sytuacjach wielomodalność rozkładu może wskazywać na problemy z narzędziem pomiarowym (np. problemy z kalibracją urządzeń w technice lub występowanie obciążonych (tendencyjnych) odpowiedzi w socjologii).

Dodatkowe informacje można znaleźć pod hasłami: rozkład jednomodalny oraz rozkład dwumodalny.

Rozkład wykładniczy. Rozkład wykładniczy określony jest wzorem:

f(x) = * e-x
0 x < , > 0

gdzie
   (lambda) jest parametrem (alternatywnym sposobem parametryzacji jest użycie parametru skali b=1/),
 e      to liczba e, czyli podstawa logarytmów naturalnych (e=2,71...).

Na rysunku powyżej, widzimy kształt funkcji rozkładu wykładniczego, przy lambda=1.

Rozstęp kwartylowy (ćwiartkowy). Rozstęp kwartylowy (ćwiartkowy, ang. quartile range - termin ten został po raz pierwszy użyty przez Galtona, 1882) zmiennej jest obliczany jako różnica pomiędzy 75-tym a 25-tym percentylem. Jest to zatem szerokość przedziału wokół mediany, który obejmuje 50% przypadków.

Dodatkowe informacje można znaleźć w rozdziale Statystyki nieparametryczne.

Różnicowanie (w szeregach czasowych). To przekształcenie szeregu czasowego, przekształca szereg wg wzoru: X = X - Xopóźnione. Po różnicowaniu wynikowy szereg będzie miał długość Nopóźnione (gdzie N jest długością szeregu pierwotnego).

Rząd macierzy. Rząd macierzy to liczba liniowo niezależnych wierszy (lub kolumn) macierzy. Jeżeli wszystkie kolumny (lub wiersze) macierzy są liniowo niezależne, to rząd macierzy jest równy liczbie kolumn (lub wierszy). Jeśli rząd macierzy jest mniejszy do liczby kolumn lub wierszy, to mówimy, że jest ona osobliwa.


Rząd. Określa liczbę powtórzeń pewnej czynności. W przypadku sieci neuronowych analizujących szeregi czasowe, przez rząd rozumie się liczbę kolejnych wartości szeregu czasowego wykorzystywanych w charakterze wartości wejściowych.

Rzetelność/niezawodność. Termin ten ma dwa istotnie różne od siebie znaczenia w zależności od kontekstu:

Analiza rzetelności i pozycji. W tym kontekście rzetelność jest definiowana jako stopień, w jakim pomiar dokonany za pomocą skali złożonej z wielu pozycji (np. kwestionariusza) odzwierciedla tzw. prawdziwą wartość cechy w stosunku do błędu. Podobne pojęcie rzetelności skali jest czasem używane przy ocenie dokładności (i rzetelności) urządzeń lub skal wykorzystywanych przy tworzeniu kart kontrolnych.

Dalsze szczegóły można znaleźć w module Analiza rzetelności i pozycji lub w opisach analizy powtarzalności i odtwarzalności pomiarów zawartych w części Analiza procesu.


Analiza Weibulla niezawodności/czasu uszkodzeń. W tym kontekście niezawodność jest definiowana jako funkcja opisująca prawdopodobieństwo awarii (lub śmierci) danego elementu jako funkcji czasu. Dlatego też funkcja niezawodności (oznaczana tradycyjnie jako R(t)) jest dopełnieniem dystrybuanty do jedynki (tzn. R(t)=1-F(t)). Funkcja niezawodności nazywana bywa czasem funkcją przeżycia lub przetrwania (ponieważ wyraża prawdopodobieństwo bezawaryjnej pracy w przedziale czasu t, zob. np. Lee 1992).Zob. także: Analiza Weibulla niezawodności/czasu uszkodzeń w części Analiza procesu.






© Copyright StatSoft, Inc., 1984-2024
STATISTICA is a trademark of StatSoft, Inc.