Metody statystyczne. Prawdopodobieństwo i statystyka – podstawowe fakty Probabilistyczne metody badań statystycznych

W wielu przypadkach w górnictwie konieczne jest badanie nie tylko procesów deterministycznych, ale również losowych. Wszystkie procesy geomechaniczne zachodzą w ciągle zmieniających się warunkach, kiedy pewne zdarzenia mogą, ale nie muszą wystąpić. W takim przypadku konieczne staje się przeanalizowanie połączeń losowych.

Pomimo losowego charakteru zdarzeń, zachowują pewne wzorce brane pod uwagę w teoria prawdopodobieństwa , który bada teoretyczne rozkłady zmiennych losowych i ich cechy. Inna nauka, tak zwana statystyka matematyczna, zajmuje się sposobami przetwarzania i analizowania losowych zdarzeń empirycznych. Te dwie pokrewne nauki stanowią jednolitą matematyczną teorię masowych procesów losowych, która jest szeroko stosowana w badaniach naukowych.

Elementy teorii prawdopodobieństwa i statystyki matematycznej. Pod agregat zrozumieć zbiór jednorodnych zdarzeń zmiennej losowej NS, który stanowi podstawowy materiał statystyczny. Populacja może być ogólna (duża próba n), zawierający najbardziej zróżnicowane warianty zjawiska masowego, oraz selektywny (mała próba n 1), który jest tylko częścią populacji ogólnej.

Prawdopodobieństwo r(NS) rozwój NS to stosunek liczby przypadków n(NS), które prowadzą do wystąpienia zdarzenia NS, do łącznej liczby możliwych przypadków n:

W statystyce matematycznej analogiem prawdopodobieństwa jest pojęcie częstotliwości zdarzenia, które jest stosunkiem liczby przypadków, w których zdarzenie miało miejsce, do całkowitej liczby zdarzeń:

Przy nieograniczonym wzroście liczby zdarzeń częstotliwość dąży do prawdopodobieństwa r(NS).



Załóżmy, że na ryc. 4.11, to częstotliwość charakteryzuje prawdopodobieństwo pojawienia się zmiennej losowej w przedziale і , a gładka krzywa nazywana jest funkcją rozkładu.

Prawdopodobieństwo wystąpienia zmiennej losowej jest ilościowym oszacowaniem możliwości jej wystąpienia. Wiarygodne wydarzenie ma r= 1, niemożliwe zdarzenie - r= 0. Stąd dla zdarzenia losowego i suma prawdopodobieństw wszystkich możliwych wartości.

W badaniach nie wystarczy mieć krzywą rozkładu, ale trzeba znać jej charakterystykę:

a) średnia arytmetyczna -; (4.53)

b) zakres - r= x maks. - x min, które można wykorzystać do przybliżonego oszacowania zmienności zdarzeń, gdzie x max i x min - skrajne wartości mierzonej wartości;

c) oczekiwanie matematyczne -. (4.54)

Dla ciągłych zmiennych losowych oczekiwanie zapisuje się w postaci

, (4.55)

te. jest równa rzeczywistej wartości zaobserwowanych zdarzeń NS, a odcięta odpowiadająca oczekiwaniom nazywana jest centrum dystrybucji.

d) wariancja - , (4.56)

która charakteryzuje rozproszenie zmiennej losowej w stosunku do oczekiwań matematycznych. Wariancja zmiennej losowej jest również nazywana momentem centralnym drugiego rzędu.

Dla ciągłej zmiennej losowej wariancja wynosi

; (4.57)

e) odchylenie standardowe lub standard -

f) współczynnik zmienności (rozproszenie względne) -

, (4.59)

który charakteryzuje intensywność rozpraszania w różnych populacjach i służy do ich porównywania.

Pole pod krzywą rozkładu odpowiada jedności, co oznacza, że ​​krzywa obejmuje wszystkie wartości zmiennych losowych. Można jednak skonstruować dużą liczbę takich krzywych, które będą miały pole równe jeden, tj. mogą mieć różne rozproszenie. Miarą rozproszenia jest wariancja lub odchylenie standardowe (rysunek 4.12).


Powyżej zbadaliśmy główne cechy krzywej rozkładu teoretycznego, które są analizowane przez teorię prawdopodobieństwa. W statystyce wykorzystuje się rozkłady empiryczne, a głównym zadaniem statystyki jest dobór krzywych teoretycznych zgodnie z istniejącym prawem rozkładów empirycznych.

Niech w wyniku n pomiarów zmiennej losowej otrzymamy szereg zmienności NS 1 , NS 2 , NS 3 , …x n... Przetwarzanie takich wierszy ogranicza się do następujących operacji:

- Grupa x ja w przedziale i ustawić dla każdego z nich częstotliwości bezwzględne i względne;

- wartości służą do skonstruowania histogramu schodkowego (ryc. 4.11);

- obliczyć charakterystykę krzywej rozkładu empirycznego: wariancji średniej arytmetycznej D=; odchylenie standardowe.

Wartości D oraz s rozkłady empiryczne odpowiadają wartościom, D(NS) oraz s(NS) rozkład teoretyczny.



Rozważ główne teoretyczne krzywe rozkładu. Najczęściej w badaniach stosuje się prawo rozkładu normalnego (ryc. 4.13), którego równanie w ma postać:

(4.60)

Jeśli wyrównasz oś współrzędnych z punktem m, tj. zaakceptować m(x) = 0 i zaakceptuj, prawo rozkładu normalnego zostanie opisane prostszym równaniem:

Do oszacowania rozproszenia zwykle używa się wartości ... Mniej s, tym mniejsze rozproszenie, tj. obserwacje niewiele się od siebie różnią. Z powiększeniem s wzrasta rozproszenie, wzrasta prawdopodobieństwo błędów, a maksimum krzywej (rzędnej) równe maleje. Dlatego wartość w= 1 / dla 1 nazywa się miarą dokładności. Odchylenia średniokwadratowe odpowiadają punktom przegięcia (obszar zacieniony na rys. 4.12) krzywej rozkładu.

Podczas analizy wielu losowych procesów dyskretnych stosuje się rozkład Poissona (zdarzenia krótkoterminowe występujące w jednostce czasu). Prawdopodobieństwo wystąpienia liczby zdarzeń rzadkich NS= 1, 2, ... dla danego okresu czasu wyraża prawo Poissona (patrz rys. 4.14):

, (4.62)

gdzie NS- ilość wydarzeń w danym okresie czasu T;

λ - gęstość, tj. średnia liczba zdarzeń na jednostkę czasu;

- średnia liczba zdarzeń w danym czasie T;

Dla prawa Poissona wariancja jest równa matematycznemu oczekiwaniu liczby wystąpień zdarzeń w czasie T, tj. ...

Aby zbadać ilościowe cechy niektórych procesów (czas awarii maszyny itp.), stosuje się prawo rozkładu wykładniczego (rysunek 4.15), którego gęstość rozkładu wyraża zależność

gdzie λ - intensywność (średnia liczba) zdarzeń na jednostkę czasu.

W rozkładzie wykładniczym intensywność λ jest odwrotnością matematycznego oczekiwania λ = 1/m(x). Ponadto stosunek jest prawdziwy.

W różnych dziedzinach badań szeroko stosowane jest prawo rozkładu Weibulla (ryc. 4.16):

, (4.64)

gdzie n, μ , Czy parametry prawa; NS- najczęściej kłótnia.

Badając procesy związane ze stopniowym spadkiem parametrów (spadek wytrzymałości skał w czasie itp.), stosuje się prawo rozkładu gamma (ryc. 4.17):

, (4.65)

gdzie λ , a- opcje. Gdyby a= 1, gamma funkcji zamienia się w prawo wykładnicze.

Oprócz powyższych praw stosowane są również inne rodzaje dystrybucji: Pearson, Rayleigh, dystrybucja beta itp.

Analiza wariancji. W badaniach często pojawia się pytanie: w jakim stopniu ten lub inny czynnik losowy wpływa na badany proces? Metody ustalania głównych czynników i ich wpływu na badany proces omówiono w specjalnej części teorii prawdopodobieństwa i statystyki matematycznej - analiza wariancji. Jest jedna rzecz - analiza wielowymiarowa. Analiza wariancji opiera się na wykorzystaniu prawa rozkładu normalnego oraz założeniu, że centra rozkładów normalnych zmiennych losowych są sobie równe. Dlatego wszystkie pomiary można oglądać jako próbkę z tej samej normalnej populacji.

Teoria niezawodności. Metody rachunku prawdopodobieństwa i statystyki matematycznej są często wykorzystywane w teorii niezawodności, która znajduje szerokie zastosowanie w różnych gałęziach nauki i techniki. Niezawodność rozumiana jest jako właściwość obiektu do wykonywania określonych funkcji (utrzymywania ustalonych wskaźników wydajności) przez wymagany okres czasu. W teorii niezawodności awarie traktowane są jako zdarzenia losowe. Do ilościowego opisu uszkodzeń wykorzystywane są modele matematyczne - dystrybuanty przedziałów czasu (rozkład normalny i wykładniczy, Weibulla, rozkład gamma). Zadanie polega na znalezieniu prawdopodobieństw różnych wskaźników.

Metoda Monte Carlo. Do badania złożonych procesów o charakterze probabilistycznym stosuje się metodę Monte Carlo do rozwiązania problemu znalezienia najlepszego rozwiązania z rozważanego zestawu opcji.

Metoda Monte Carlo nazywana jest również metodą modelowania statystycznego. Jest to metoda numeryczna oparta na wykorzystaniu liczb losowych, które symulują procesy probabilistyczne. Matematyczną podstawą metody jest prawo wielkich liczb, które formułuje się następująco: przy dużej liczbie testów statystycznych prawdopodobieństwo, że średnia arytmetyczna zmiennej losowej zmierza do jej matematycznego oczekiwania, jest równe 1:

, (4.64)

gdzie ε jest dowolną małą liczbą dodatnią.

Kolejność rozwiązywania problemów metodą Monte Carlo:

- gromadzenie, przetwarzanie i analiza obserwacji statystycznych;

- wybór głównych i odrzucenie czynników wtórnych oraz sporządzenie modelu matematycznego;

- opracowywanie algorytmów i rozwiązywanie problemów na komputerze.

Aby rozwiązać problemy metodą Monte Carlo, konieczne jest posiadanie szeregu statystycznego, znajomość prawa jego rozkładu, wartości średniej, oczekiwań matematycznych i odchylenia standardowego. Rozwiązanie jest skuteczne tylko przy użyciu komputera.

3. Istota metod probabilistycznych i statystycznych

W jaki sposób podejścia, idee i wyniki teorii prawdopodobieństwa i statystyki matematycznej wykorzystywane są w przetwarzaniu danych – wyniki obserwacji, pomiarów, testów, analiz, eksperymentów w celu podjęcia praktycznie ważnych decyzji?

Bazą jest probabilistyczny model rzeczywistego zjawiska lub procesu, tj. model matematyczny, w którym relacje obiektywne są wyrażane w kategoriach teorii prawdopodobieństwa. Prawdopodobieństwa są używane przede wszystkim do opisu niepewności, które należy wziąć pod uwagę przy podejmowaniu decyzji. Dotyczy to zarówno szans niechcianych (ryzyka), jak i atrakcyjnych („szczęśliwa szansa”). Niekiedy do sytuacji celowo wprowadza się losowość, na przykład poprzez losowanie, losowy wybór jednostek do kontroli, organizowanie loterii czy ankiet konsumenckich.

Teoria prawdopodobieństwa pozwala na obliczenie niektórych prawdopodobieństw, które są interesujące dla badacza. Na przykład na podstawie prawdopodobieństwa wypadnięcia herbu można obliczyć prawdopodobieństwo, że przy 10 rzutach monetą wypadną co najmniej 3 herby. Takie wyliczenie opiera się na modelu probabilistycznym, zgodnie z którym rzuty monetą opisane są schematem niezależnych testów, dodatkowo herb i krata są jednakowo możliwe, a zatem prawdopodobieństwo każdego z tych zdarzeń wynosi ½. Bardziej złożony model to taki, w którym zamiast rzucania monetą rozważa się sprawdzenie jakości jednostki produkcji. Odpowiedni model probabilistyczny opiera się na założeniu, że kontrola jakości różnych elementów produkcji jest opisana przez niezależny schemat testów. W przeciwieństwie do modelu rzucania monetą należy wprowadzić nowy parametr – prawdopodobieństwo rże przedmiot jest uszkodzony. Model zostanie w pełni opisany, jeśli założymy, że wszystkie elementy mają takie samo prawdopodobieństwo wadliwości. Jeśli to ostatnie założenie jest błędne, to liczba parametrów modelu wzrasta. Na przykład możesz założyć, że każdy przedmiot ma swoje własne prawdopodobieństwo wadliwości.

Omówmy model kontroli jakości ze wspólnym prawdopodobieństwem wadliwości dla wszystkich jednostek produktu r... Aby "osiągnąć liczbę" podczas analizy modelu, konieczna jest wymiana r dla jakiegoś konkretnego znaczenia. W tym celu należy wyjść poza model probabilistyczny i sięgnąć do danych uzyskanych podczas kontroli jakości. Statystyka matematyczna rozwiązuje problem odwrotny w stosunku do teorii prawdopodobieństwa. Jego celem jest wyciągnięcie wniosków na temat prawdopodobieństw leżących u podstaw modelu probabilistycznego na podstawie wyników obserwacji (pomiary, analizy, testy, eksperymenty). Na przykład, w oparciu o częstotliwość występowania wadliwych produktów podczas kontroli, można wyciągnąć wnioski dotyczące prawdopodobieństwa wadliwości (patrz omówienie powyżej przy użyciu twierdzenia Bernoulliego). Na podstawie nierówności Czebyszewa wyciągnięto wnioski dotyczące zgodności częstości występowania wadliwych produktów z hipotezą, że prawdopodobieństwo wadliwości przybiera określoną wartość.

Zatem zastosowanie statystyki matematycznej opiera się na probabilistycznym modelu zjawiska lub procesu. Stosowane są dwie równoległe serie pojęć – związane z teorią (model probabilistyczny) i związane z praktyką (przykład wyników obserwacji). Na przykład prawdopodobieństwo teoretyczne odpowiada częstotliwości znalezionej w próbce. Oczekiwanie matematyczne (szereg teoretyczny) odpowiada średniej arytmetycznej z próby (szereg praktyczny). Zazwyczaj charakterystyka próbki jest szacunkami teoretycznymi. Jednocześnie wartości związane z szeregiem teoretycznym „są w głowach badaczy”, odnoszą się do świata idei (według starożytnego greckiego filozofa Platona) i są niedostępne do bezpośredniego pomiaru. Badacze dysponują jedynie przykładowymi danymi, za pomocą których próbują ustalić interesujące ich właściwości teoretycznego modelu probabilistycznego.

Dlaczego potrzebny jest model probabilistyczny? Faktem jest, że tylko za jego pomocą można przenieść właściwości ustalone na podstawie wyników analizy określonej próbki na inne próbki, a także na całą tzw. populację ogólną. Termin „populacja ogólna” jest używany w odniesieniu do dużej, ale skończonej populacji jednostek będących przedmiotem zainteresowania. Na przykład o sumie wszystkich mieszkańców Rosji lub sumie wszystkich konsumentów kawy rozpuszczalnej w Moskwie. Celem badań marketingowych lub sondaży opinii jest przeniesienie wypowiedzi z próby setek lub tysięcy osób do kilkumilionowych populacji. W kontroli jakości partia produktów pełni rolę ogólnej populacji.

Aby przenieść wnioski z próby do większej populacji, konieczne jest takie lub inne założenie o związku cech próby z cechami tej większej populacji. Założenia te oparte są na odpowiednim modelu probabilistycznym.

Oczywiście możliwe jest przetwarzanie przykładowych danych bez użycia konkretnego modelu probabilistycznego. Na przykład możesz obliczyć przykładową średnią arytmetyczną, obliczyć częstotliwość spełnienia określonych warunków itp. Jednak wyniki obliczeń będą dotyczyć tylko określonej próby, przenoszenie uzyskanych za ich pomocą wniosków na jakąkolwiek inną populację jest błędne. Ta czynność jest czasami określana jako „eksploracja danych”. W porównaniu z metodami probabilistyczno-statystycznymi analiza danych ma ograniczoną wartość poznawczą.

Istotą probabilistyczno-statystycznych metod podejmowania decyzji jest więc stosowanie modeli probabilistycznych opartych na ocenie i testowaniu hipotez z wykorzystaniem cech próby.

Podkreślamy, że logika wykorzystania cech próby do podejmowania decyzji na podstawie modeli teoretycznych zakłada jednoczesne zastosowanie dwóch równoległych szeregów pojęć, z których jeden odpowiada modelom probabilistycznym, a drugi przykładowym danym. Niestety, w wielu źródłach literackich, zwykle przestarzałych lub pisanych w duchu przepisu, nie ma rozróżnienia między cechami wybiórczymi a teoretycznymi, co prowadzi czytelników do oszołomienia i błędów w praktycznym stosowaniu metod statystycznych.

Poprzedni

Część 1. Podstawy statystyki stosowanej

1.2.3. Istota probabilistycznych i statystycznych metod podejmowania decyzji

W jaki sposób podejścia, idee i wyniki teorii prawdopodobieństwa i statystyki matematycznej są wykorzystywane w podejmowaniu decyzji?

Bazą jest probabilistyczny model rzeczywistego zjawiska lub procesu, tj. model matematyczny, w którym relacje obiektywne są wyrażane w kategoriach teorii prawdopodobieństwa. Prawdopodobieństwa są używane przede wszystkim do opisu niepewności, które należy wziąć pod uwagę przy podejmowaniu decyzji. Dotyczy to zarówno szans niechcianych (ryzyka), jak i atrakcyjnych („szczęśliwa szansa”). Niekiedy do sytuacji celowo wprowadza się losowość, na przykład poprzez losowanie, losowy wybór jednostek do kontroli, organizowanie loterii czy ankiet konsumenckich.

Teoria prawdopodobieństwa pozwala na obliczenie niektórych prawdopodobieństw, które są interesujące dla badacza. Na przykład na podstawie prawdopodobieństwa wypadnięcia herbu można obliczyć prawdopodobieństwo, że przy 10 rzutach monetą wypadną co najmniej 3 herby. Takie wyliczenie opiera się na modelu probabilistycznym, zgodnie z którym rzuty monetą opisane są schematem niezależnych testów, dodatkowo herb i krata są jednakowo możliwe, a zatem prawdopodobieństwo każdego z tych zdarzeń wynosi ½. Bardziej złożony model to taki, w którym zamiast rzucania monetą rozważa się sprawdzenie jakości jednostki produkcji. Odpowiedni model probabilistyczny opiera się na założeniu, że kontrola jakości różnych elementów produkcji jest opisana przez niezależny schemat testów. W przeciwieństwie do modelu rzucania monetą należy wprowadzić nowy parametr – prawdopodobieństwo rże przedmiot jest uszkodzony. Model zostanie w pełni opisany, jeśli założymy, że wszystkie elementy mają takie samo prawdopodobieństwo wadliwości. Jeśli to ostatnie założenie jest błędne, to liczba parametrów modelu wzrasta. Na przykład możesz założyć, że każdy przedmiot ma swoje własne prawdopodobieństwo wadliwości.

Omówmy model kontroli jakości ze wspólnym prawdopodobieństwem wadliwości dla wszystkich jednostek produktu r... Aby "osiągnąć liczbę" podczas analizy modelu, konieczna jest wymiana r dla jakiegoś konkretnego znaczenia. W tym celu należy wyjść poza model probabilistyczny i sięgnąć do danych uzyskanych podczas kontroli jakości. Statystyka matematyczna rozwiązuje problem odwrotny w stosunku do teorii prawdopodobieństwa. Jego celem jest wyciągnięcie wniosków na temat prawdopodobieństw leżących u podstaw modelu probabilistycznego na podstawie wyników obserwacji (pomiary, analizy, testy, eksperymenty). Na przykład na podstawie częstotliwości występowania wadliwych produktów podczas kontroli można wyciągnąć wnioski dotyczące prawdopodobieństwa wadliwości (patrz powyżej twierdzenie Bernoulliego). Na podstawie nierówności Czebyszewa wyciągnięto wnioski dotyczące zgodności częstości występowania wadliwych produktów z hipotezą, że prawdopodobieństwo wadliwości przybiera określoną wartość.

Zatem zastosowanie statystyki matematycznej opiera się na probabilistycznym modelu zjawiska lub procesu. Stosowane są dwie równoległe serie pojęć – związane z teorią (model probabilistyczny) i związane z praktyką (przykład wyników obserwacji). Na przykład prawdopodobieństwo teoretyczne odpowiada częstotliwości znalezionej w próbce. Oczekiwanie matematyczne (szereg teoretyczny) odpowiada średniej arytmetycznej z próby (szereg praktyczny). Zazwyczaj charakterystyka próbki jest szacunkami teoretycznymi. Jednocześnie wartości związane z szeregiem teoretycznym „są w głowach badaczy”, odnoszą się do świata idei (według starożytnego greckiego filozofa Platona) i są niedostępne do bezpośredniego pomiaru. Badacze dysponują jedynie przykładowymi danymi, za pomocą których próbują ustalić interesujące ich właściwości teoretycznego modelu probabilistycznego.

Dlaczego potrzebny jest model probabilistyczny? Faktem jest, że tylko za jego pomocą można przenieść właściwości ustalone na podstawie wyników analizy określonej próbki na inne próbki, a także na całą tzw. populację ogólną. Termin „populacja ogólna” jest używany w odniesieniu do dużej, ale skończonej populacji jednostek będących przedmiotem zainteresowania. Na przykład o sumie wszystkich mieszkańców Rosji lub sumie wszystkich konsumentów kawy rozpuszczalnej w Moskwie. Celem badań marketingowych lub sondaży opinii jest przeniesienie wypowiedzi z próby setek lub tysięcy osób do kilkumilionowych populacji. W kontroli jakości partia produktów pełni rolę ogólnej populacji.

Aby przenieść wnioski z próby do większej populacji, konieczne jest takie lub inne założenie o związku cech próby z cechami tej większej populacji. Założenia te oparte są na odpowiednim modelu probabilistycznym.

Oczywiście możliwe jest przetwarzanie przykładowych danych bez użycia konkretnego modelu probabilistycznego. Na przykład możesz obliczyć przykładową średnią arytmetyczną, obliczyć częstotliwość spełnienia określonych warunków itp. Jednak wyniki obliczeń będą dotyczyć tylko określonej próby, przenoszenie uzyskanych za ich pomocą wniosków na jakąkolwiek inną populację jest błędne. Ta czynność jest czasami określana jako „eksploracja danych”. W porównaniu z metodami probabilistyczno-statystycznymi analiza danych ma ograniczoną wartość poznawczą.

Istotą probabilistyczno-statystycznych metod podejmowania decyzji jest więc stosowanie modeli probabilistycznych opartych na ocenie i testowaniu hipotez z wykorzystaniem cech próby.

Podkreślamy, że logika wykorzystania cech próby do podejmowania decyzji na podstawie modeli teoretycznych zakłada jednoczesne zastosowanie dwóch równoległych szeregów pojęć, z których jeden odpowiada modelom probabilistycznym, a drugi przykładowym danym. Niestety, w wielu źródłach literackich, zwykle przestarzałych lub pisanych w duchu przepisu, nie ma rozróżnienia między cechami wybiórczymi a teoretycznymi, co prowadzi czytelników do oszołomienia i błędów w praktycznym stosowaniu metod statystycznych.

Poprzedni

Probabilistyczne i statystyczne metody modelowania systemów ekonomicznych


Wstęp


Problem identyfikacji prawa rozkładu obserwowanej zmiennej losowej (identyfikacja strukturalno-parametryczna) z reguły rozumiany jest jako problem wyboru modelu parametrycznego prawa rozkładu prawdopodobieństwa, który najlepiej pasuje do wyników obserwacji eksperymentalnych. Przypadkowe błędy przyrządów pomiarowych nie są tak często zgodne z prawem normalnym, a raczej nie są tak często dobrze opisane przez model prawa normalnego. Urządzenia i systemy pomiarowe opierają się na różnych zasadach fizycznych, różnych metodach pomiarowych i różnych konwersjach sygnałów pomiarowych. Błędy pomiaru jako wielkości są wynikiem wpływu wielu czynników o charakterze losowym i nielosowym, działających stale lub sporadycznie. Jest więc jasne, że tylko przy spełnieniu pewnych warunków wstępnych (teoretycznych i technicznych) błędy pomiaru są wystarczająco dobrze opisane przez model prawa normalnego.

Ogólnie rzecz biorąc, należy rozumieć, że prawdziwe prawo dystrybucji (o ile oczywiście istnieje), opisujące błędy danego systemu pomiarowego, pozostaje (pozostaje) nieznane, pomimo wszystkich naszych prób jego identyfikacji. Na podstawie tych pomiarów i rozważań teoretycznych możemy wybrać tylko taki model probabilistyczny, który w pewnym sensie najlepiej przybliża to prawdziwe prawo. Jeżeli skonstruowany model jest adekwatny, to znaczy zastosowane kryteria nie dają podstaw do jego odrzucenia, to na podstawie tego modelu można obliczyć wszystkie probabilistyczne charakterystyki składowej losowej błędu przyrządu pomiarowego, które są interesujące nas, które będą różnić się od prawdziwych wartości jedynie ze względu na niewykluczony systematyczny (nieobserwowalny lub nierejestrowany) składnik błędu pomiaru. Jego małość charakteryzuje poprawność pomiarów. Zbiór możliwych praw rozkładu prawdopodobieństwa, które można wykorzystać do opisu obserwowanych zmiennych losowych, nie jest ograniczony. Nie ma sensu wyznaczanie celu problemu identyfikacji, aby znaleźć prawdziwe prawo rozkładu obserwowanej wielkości. Możemy tylko rozwiązać problem wyboru najlepszego modelu z zestawu. Na przykład z tego zestawu praw parametrycznych i Zestaw dystrybucji, które są używane w aplikacjach i które można znaleźć w literaturze.

Klasyczne podejście do identyfikacji strukturalno-parametrycznej prawa dystrybucji. Przez podejście klasyczne rozumiemy algorytm wyboru prawa rozkładu, całkowicie oparty na aparacie statystyki matematycznej.


1. Podstawowe pojęcia zdarzeń losowych, wielkości i funkcji


Widzieliśmy już, że w przypadku wielu eksperymentów nie ma różnicy w obliczaniu prawdopodobieństw zdarzeń, podczas gdy elementarne wyniki tych eksperymentów są bardzo różne. Powinniśmy jednak interesować się prawdopodobieństwem zdarzeń, a nie strukturą przestrzeni wyników elementarnych. Dlatego czas we wszystkich takich "podobnych" eksperymentach używać np. liczb zamiast bardzo odmiennych elementarnych wyników. Innymi słowy, każdy elementarny wynik może być powiązany z pewną liczbą rzeczywistą i działać tylko z liczbami.

Niech zostanie podana przestrzeń prawdopodobieństwa.

Definicja 26.Funkcjonować nazywa zmienna losowajeśli dla dowolnego zestawu Borel wiele jest wydarzeniem, tj. należy - algebra .

Wiele składający się z tych elementarnych wyników dla którego należy , nazywa się pełnym przedobrazem zbioru.

Uwaga 9 . Ogólnie niech funkcja działa od wielu w tłumie , i podane -algebry oraz podzbiory oraz odpowiednio. Funkcjonować nazywa wymiernyjeśli dla dowolnego zestawu jego pełny prototyp należy .

Uwaga 10. Czytelnik, który nie chce zawracać sobie głowy abstrakcjami związanymi z -algebry zdarzeń i mierzalności, mogą bezpiecznie założyć, że każdy zbiór elementarnych wyników jest zdarzeniem, a zatem zmienną losową jest arbitralnyfunkcja z v ... W praktyce nie wiąże się to z żadnymi kłopotami, więc wszystko dalej w tym akapicie można pominąć.

Teraz, pozbywszy się nieciekawych czytelników, spróbujmy zrozumieć, dlaczego zmienna losowa potrzebuje mierzalności.

Jeśli podano zmienną losową , może być konieczne obliczenie prawdopodobieństw formy , , , (i ogólnie bardzo różne prawdopodobieństwa wpadnięcia do zbiorów borelowskich na linii). Jest to możliwe tylko wtedy, gdy zbiory pod znakiem prawdopodobieństwa są zdarzeniami – w końcu prawdopodobieństwoistnieje funkcja zdefiniowana tylko na -algebra zdarzeń. Wymóg mierzalności jest równoznaczny z faktem, że dla dowolnego zbioru borelowskiego określa się prawdopodobieństwo.

Możesz poprosić o coś innego w definicji 26. Na przykład, aby zdarzenie było trafieniem w dowolnym przedziale: , lub w dowolnym odstępie półokresowym:.

Sprawdźmy na przykład, że definicje 26 i 27 są równoważne:

Definicja 27. Funkcjonować nazywana jest zmienną losową, jeśli jest realna wiele należy do -algebry .

Dowód równoważność definicji 26, 27.

Gdyby jest zmienną losową w sensie Definicji 26, to będzie zmienną losową w sensie Definicji 27, ponieważ każdy przedział to zestaw Borel.

Udowodnijmy, że odwrotność też jest prawdziwa. Niech na dowolny okres Gotowe ... Musimy udowodnić, że to samo dotyczy wszystkich zbiorów borelowskich.

Zbierz w zestawie wszystkie podzbiory linii rzeczywistej, których odwrotne obrazy są zdarzeniami. Wiele zawiera już wszystkie interwały ... Pokażmy teraz, że zestaw jest -algebra. A-priorytetowe, wtedy i tylko wtedy, gdy zestaw należy .

1. Upewnijmy się, że ... Ale i dlatego.

2. Upewnijmy się, że dla kazdego ... Zostawiać ... Następnie , ponieważ - -algebra.

3. Upewnijmy się, że dla każdego ... Zostawiać dla wszystkich ... Ale - -algebra zatem

Udowodniliśmy, że - -algebra i zawiera wszystkie przedziały na linii. Ale jest najmniejszym z -algebry zawierające wszystkie przedziały na prostej. Stąd, zawiera: .

Podajmy przykłady funkcji mierzalnych i niemierzalnych.

Przykład 25. Rzucamy kostką. Zostawiać i dwie funkcje z v są ustawione tak: , ... Jeszcze nie ustawiono -algebra nie można mówić o mierzalności. Funkcja mierzalna w odniesieniu do niektórych -algebry może nie być taki sam dla drugiego.

Gdyby istnieje zbiór wszystkich podzbiorów , następnie oraz są zmiennymi losowymi, ponieważ każdy zestaw wyników elementarnych należy do łącznie z lub ... Możesz zapisać korespondencję między wartościami zmiennych losowych oraz a prawdopodobieństwa przyjmują te wartości w postaci „Tabele prawdopodobieństwa”lub w skrócie „tabele alokacji”:

Tutaj .


2. Niech -algebra zdarzeń składa się z czterech zestawów:



te. zdarzenie to, oprócz wiarygodnych i niemożliwych zdarzeń, parzysta lub nieparzysta liczba punktów. Upewnijmy się, że przy tak stosunkowo ubogiej -algebra nor ani nie są zmiennymi losowymi, ponieważ są niemierzalne. Weź, powiedz, ... Widzimy to i


2. Charakterystyki liczbowe zmiennych losowych


Wartość oczekiwana.Matematyczne oczekiwanie dyskretnej zmiennej losowej X, która przyjmuje skończoną liczbę wartości xi z prawdopodobieństwami pi, to suma:


(6a)


Matematyczne oczekiwanie ciągłej zmiennej losowej X to całka iloczynu jej wartości x przez gęstość rozkładu prawdopodobieństwa f (x):


(6b)


Przyjmuje się, że całka niewłaściwa (6b) jest zbieżna bezwzględnie (w przeciwnym razie mówi się, że oczekiwanie matematyczne M (X) nie istnieje). Oczekiwanie matematyczne charakteryzuje średnią wartość zmiennej losowej X. Jej wymiar pokrywa się z wymiarem zmiennej losowej. Matematyczne właściwości oczekiwań:



Dyspersja.Wariancja zmiennej losowej X to liczba:



Dyspersja jest cechą rozrzutu wartości zmiennej losowej X względem jej wartości średniej M (X). Wymiar wariancji jest równy kwadratowi wymiaru zmiennej losowej. Na podstawie definicji wariancji (8) i oczekiwania matematycznego (5) dla dyskretnej zmiennej losowej i (6) dla ciągłej zmiennej losowej otrzymujemy podobne wyrażenia dla wariancji:



Tutaj m = M (X).

Właściwości dyspersji:


(10)


Średniokwadratowe odchylenie:


(11)


Ponieważ wymiar odchylenia standardowego jest taki sam jak w przypadku zmiennej losowej, częściej niż wariancja stosowana jako miara rozproszenia.

Momenty dystrybucji.Pojęcia matematycznego oczekiwania i wariancji są szczególnymi przypadkami bardziej ogólnej koncepcji numerycznych charakterystyk zmiennych losowych - momentów rozkładu. Momenty rozkładu zmiennej losowej są wprowadzane jako matematyczne oczekiwania niektórych najprostszych funkcji zmiennej losowej. Tak więc moment porządku k względem punktu x0 jest matematycznym oczekiwaniem M (X - x0) k. Momenty względem początku x = 0 nazywane są momentami początkowymi i są oznaczane:


(12)


Moment początkowy pierwszego rzędu jest środkiem rozkładu rozpatrywanej zmiennej losowej:


(13)


Momenty wokół środka rozkładu x = m nazywamy momentami centralnymi i oznaczamy:


(14)


Z (7) wynika, że ​​centralny moment pierwszego rzędu jest zawsze równy zero:


(15)


Momenty środkowe nie zależą od pochodzenia wartości zmiennej losowej, ponieważ przy przesunięciu o stałą wartość C jej środek rozkładu przesuwa się o tę samą wartość C, a odchylenie od środka nie zmienia się:


X - m = (X - C) - (m - C).


Teraz jest jasne, że wariancja jest punktem centralnym drugiego rzędu:


(16)


Asymetria.Centralny moment trzeciego rzędu:


(17)


służy do oceny asymetrii rozkładu. Jeśli rozkład jest symetryczny względem punktu x = m, to moment centralny trzeciego rzędu będzie równy zero (podobnie jak wszystkie momenty centralne nieparzystego rzędu). Dlatego jeśli centralny moment trzeciego rzędu jest niezerowy, to rozkład nie może być symetryczny. Wielkość asymetrii szacowana jest za pomocą bezwymiarowego współczynnika asymetrii:


(18)


Znak współczynnika asymetrii (18) wskazuje na asymetrię prawostronną lub lewostronną (ryc. 2).


Ryż. 1. Rodzaje asymetrii dystrybucji


Nadmiar.Centralny moment czwartego rzędu:


(19)


służy do oceny tzw. kurtozy, która określa stopień stromości (szczytości) krzywej rozkładu w pobliżu środka rozkładu w stosunku do krzywej rozkładu normalnego. Ponieważ dla rozkładu normalnego , wtedy wartość przyjmuje się jako nadwyżkę:


(20)


Na ryc. 3 przedstawia przykłady krzywych rozkładu z różnymi wartościami kurtozy. Dla rozkładu normalnego E = 0. Krzywe, które mają więcej szczytów niż normalne, mają dodatnią kurtozę, bardziej spłaszczoną - ujemną.


Ryż. 2. Krzywe rozkładu o różnych stopniach nachylenia (kurtoza)


Momenty wyższego rzędu zwykle nie są wykorzystywane w inżynierskich zastosowaniach statystyki matematycznej.

Modadyskretna zmienna losowa jest jej wartością najbardziej prawdopodobną. Mod ciągłej zmiennej losowej to jej wartość, przy której gęstość prawdopodobieństwa jest maksymalna (rys. 2). Jeśli krzywa rozkładu ma jedno maksimum, to rozkład nazywa się unimodalnym. Jeśli krzywa rozkładu ma więcej niż jedno maksimum, wówczas rozkład nazywa się polimodalnym. Czasami zdarzają się rozkłady, których krzywe mają nie maksimum, ale minimum. Takie rozkłady nazywane są antymodalnymi. W ogólnym przypadku tryb i matematyczne oczekiwanie zmiennej losowej nie pokrywają się. W konkretnym przypadku dla modalnego, tj. mając modę, symetryczny rozkład i pod warunkiem, że istnieje matematyczne oczekiwanie, ten ostatni pokrywa się z modą i środkiem symetrii rozkładu.

Medianazmiennej losowej X jest jej wartością Me, dla której zachodzi równość: te. jest równie prawdopodobne, że zmienna losowa X będzie mniej lub więcej Me. Geometrycznie mediana jest odciętą punktu, w którym powierzchnia pod krzywą rozkładu jest zmniejszona o połowę. W przypadku symetrycznego rozkładu modalnego mediana, moda i oczekiwanie matematyczne są takie same.


... Statystyczna estymacja praw rozkładu zmiennych losowych


Zbiór ogólny - nazywa się sumą wszystkich obiektów do zbadania lub możliwymi wynikami wszystkich obserwacji wykonanych w tych samych warunkach na jednym obiekcie.

Populacja próbki lub próbka to zbiór obiektów lub wyników obserwacji obiektu, wybranych losowo z populacji ogólnej.

Wielkość próbkito liczba obiektów lub obserwacji w próbie.

Konkretne wartości próbki nazywane są wartościami obserwowanymi zmiennej losowej X. Wartości obserwowane są zapisywane w protokole. Protokół jest tabelą. Sporządzony protokół jest podstawową formą rejestracji przetworzenia otrzymanego materiału. Aby uzyskać wiarygodne, wiarygodne wnioski, próbka musi być wystarczająco reprezentatywna pod względem wielkości. Duża próbka to nieuporządkowany zestaw liczb. Do badań próbkę doprowadza się do wizualnej uporządkowanej postaci. W tym celu w protokole znajdują się największe i najmniejsze wartości zmiennej losowej. Próbkę posortowaną w porządku rosnącym przedstawiono w tabeli 1.

Tabela 1. Protokół

8,66-5,49-4,11-3,48-2,9-2,32-1,82-1,09-0,440,64-8,31-4,71-3,92-3,41-2,85-2,31-1,82-1,01-0,430,71-8,23-4,68-3,85-3,33-2,83-2,29-1,8-0,99-0,430,73-7,67-4,6-3,85-3,25-2,77-2,27-1,77-0,95-0,310,99-6,64-4,43-3,81-3,08-2,72-2,25-1,73-0,89-0,31,03-6,6-4,38-3,8-3,07-2,67-2,19-1,38-0,70,041,05-6,22-4,38-3,77-3,01-2,6-2,15-1,32-0,560,081,13-5,87-4,25-3,73-3,01-2,49-2,09-1,3-0,510,151,76-5,74-4,18-3,59-2,99-2,37-2,01-1,28-0,490,262,95-5,68-4,14-3,49-2,98-2,33-1,91-1,24-0,480,534,42

Zakres próbkijest różnicą między największą a najmniejszą wartością zmiennej losowej X:

Rozpiętość próbki jest podzielona na k przedziałów - bitów. Liczba cyfr ustalana jest w zależności od wielkości zakresu próbkowania od 8 do 25, w tej pracy kursu przyjmiemy k = 10.

Wtedy długość przedziału będzie równa:

Policzmy liczbę zaobserwowanych wartości w każdym przedziale w protokole, oznaczmy je przez m1, m2,…, m10. ...

Nazywamy mi Trafieniazmienna losowa w i przedziale. Jeżeli dowolna obserwowana wartość zmiennej losowej pokrywa się z końcem przedziału, to ta wartość zmiennej losowej jest umownie odnoszona do jednego z przedziałów.

Po określeniu częstotliwości mi określamy częstotliwośćzmienna losowa, tj. znajdź stosunek częstotliwości mi do całkowitej liczby zaobserwowanych wartości n.

Częstotliwość, warunek kompletności -

Znajdźmy środek każdego interwału:.

Skomponujmy tabelę 2

Tabela wartości granicznych zakresu i odpowiednie częstotliwości , gdzie i = 1, 2, 3,…, k nazywamy szeregiem statystycznym. Graficzna reprezentacja szeregu statystycznego nazywana jest histogramem. Jest on skonstruowany w następujący sposób: wzdłuż osi odciętej wykreśla się odstępy i na każdym takim odstępie, podobnie jak na podstawie, konstruowany jest prostokąt, którego powierzchnia jest równa odpowiedniej częstotliwości.

, - wysokość prostokąta,.


Tabela 2

Numer interwału Lewa granica interwału Prawa granica interwału Przedział Środek interwału Częstotliwość interwału Częstotliwość interwału Wysokość prostokąta 1-8,66-7,352 (-8,66; -7,352) -8.00640.040.03062-7,352-6,044 (-7,352; -6.044) -6.69830 , 030.02293-6,044-4,736 (-6,044; -4,736) -5,3940,040,03064-4,736-3,428 (-4,736; -3,428) -4,082200,20,15295-3,428-2,12 (-3,428; -2,12) -2,774260,260,19886-2,12-0,812 (-2,12; -0,812) -1,4661180,180,13767-0,8120.496 (-0,812; 0,496) -0,158140,140,107080,4961,804 (0,496; 1,804) 1,1590,090.0688891.8043.112 (1,804; 3,112) 2,45810.010.0076103.1124.42 (3,112; 4.42 ) 3.76610.010,0076 Suma 1001

Rysunek 3


Funkcja rozkładu statystycznego to częstotliwość zmiennej losowej, która nie przekracza danej wartości X:

Dla dyskretnej zmiennej losowej X rozkład statystyczny znajduje się wzorem:

Zapiszmy rozkład statystyczny w rozwiniętej postaci:

gdzie jest środkiem przedziału i, a są odpowiednimi częstotliwościami, gdzie i = 1, 2,…, k.

Wykres funkcji rozkładu statystycznego jest linią schodkową, której punkty załamania są punktami środkowymi przedziałów, a końcowe skoki są równe odpowiednim częstotliwościom.


Rysunek 3


Obliczanie cech liczbowych szeregu statystycznego

Statystyczne oczekiwanie matematyczne,

wariancja statystyczna,

Statystyczne odchylenie standardowe.

Oczekiwania statystycznelub statystyczny przeciętnynazywana jest średnią arytmetyczną obserwowanych wartości zmiennej losowej X.

Wariancja statystycznanazywana jest średnią arytmetyczną wielkości lub

Przy dużej wielkości próbki obliczenia według wzorów i prowadzą do kłopotliwych obliczeń. Aby uprościć obliczenia, stosuje się szereg statystyczny z granicami i częste , gdzie i = 1, 2, 3, ..., k, znajdź punkty środkowe przedziałów a potem wszystkie wybory które mieszczą się w przedziale , są zastępowane pojedynczą wartością , wtedy takie wartości będą w każdym przedziale.

gdzie jest średnią wartością odpowiedniego przedziału ;- częstotliwość interwału

Tabela 4. Charakterystyki liczbowe

Częstotliwość PiXiPi (Xi-m) ^ 2 (Xi-m) ^ 2 * Pi1-8.0060.04-0.320231.486911.25952-6.6980.03-0.200918.518560.55563-5.390.04 -0,21568.971940.35894 -4.0820.20-0.81642. 847050.56945-2.7740.26-0.72120.143880.03746-1.4660.18-0.26390.862450.15527 -0,1580,14-0,02215,002740,700481,150,090,103512,564761,130892,4580,010,024623,548500,2355103, 7660,010,037737,953980,3795 Oczekiwania statystyczne -2,3947 Wariancja statystyczna 5,3822 Statystyczne odchylenie standardowe 2,3200

Określa położenie środka grupowania obserwowanych wartości zmiennej losowej.

, scharakteryzować rozrzut obserwowanych wartości zmiennej losowej wokół

W każdym rozkładzie statystycznym nieuchronnie występują elementy przypadku. Jednak przy bardzo dużej liczbie obserwacji wypadki te są wygładzane, a zjawiska losowe ujawniają ich wrodzoną prawidłowość.

Opracowując materiał statystyczny należy zdecydować, jak dobrać krzywą teoretyczną dla danego szeregu statystycznego. Ta krzywa rozkładu teoretycznego powinna wyrażać istotne cechy rozkładu statystycznego - zadanie to nazywa się problemem wygładzania lub spłaszczania szeregów statystycznych.

Czasami ogólna postać rozkładu zmiennej losowej X wynika z samej natury tej zmiennej losowej.

Niech zmienna losowa X będzie wynikiem pomiaru pewnej wielkości fizycznej urządzenia.

X = dokładna wartość wielkości fizycznej + błąd urządzenia.

Błąd przypadkowy urządzenia podczas pomiaru ma charakter totalny i rozkłada się zgodnie z prawem normalnym. W konsekwencji ten sam rozkład ma zmienną losową X, tj. rozkład normalny z gęstością prawdopodobieństwa:


Gdzie , , .


Opcje oraz są wyznaczane w taki sposób, aby liczbowe cechy rozkładu teoretycznego były równe odpowiednim liczbowym cechom rozkładu statystycznego. Przy rozkładzie normalnym zakłada się, że ,,, wtedy funkcja rozkładu normalnego przyjmie postać:

Tabela 5. Krzywa wyrównywania

Numer przedziału Środek przedziału Xi Funkcja tabelaryczna Krzywa normalna 1-8.0060-2,41870.02140.00922-6.6980-1.85490.07140.03083-5.3900-1.29110.17340.07474-4.0820-0.72730.30620.13205- 2.7740-0.16350.39360.1697M-2.394700,39890,17206-1.46600,40030,36820,15877-0,15800 ,96410,25070,108081,15001,52790,12420,053592,45802,09170,044800,0193103,76602,65550,01170,0051

Wykreśl teoretyczną krzywą normalną przez punkty na tym samym wykresie z histogramem serii statystycznej (Błąd! Nie znaleziono źródła odniesienia).


Rysunek 6


Wyrównanie funkcji rozkładu statystycznego

Funkcja rozkładu statystycznego dopasowujemy się do funkcji dystrybucji prawa normalnego:



gdzie ,,jest funkcją Laplace'a.


Tabela 7. Funkcja dystrybucji

Numer przedziału Środek przedziału Xi Funkcja Laplace'a Funkcja dystrybucyjna 1-8.0060-2.4187-0.49220.00782-6.6980-1.8549-0.46820.03183-5.3900-1.2911-0.40170.09834-4.0820-0, 7273-0.26650.2335-2.7740-0.1635-0.06490.4351m-2.3947000.50006-1.46600, 40030,15550,65557-0,15800,96410,33250,832581,15001, 52790,43670,936792,45802,09170,48180,9818103,76602,65550,49600,9960

Budujemy wykres rozkładu teoretycznego w punktach / wraz z wykresem rozkładu statystycznego.


Rysunek 6


Niech zmienna losowa X będzie badana z matematycznym oczekiwaniem i wariancja , oba parametry są nieznane.

Niech x1, x2, x3, ..., xn będzie próbą uzyskaną w wyniku n niezależnych obserwacji zmiennej losowej X. Aby podkreślić losowy charakter wielkości x1, x2, x3, ..., xn, przepisz je w postaci:

X1, X2, X3, ..., Xn, gdzie Xi jest wartością zmiennej losowej X w i-tym eksperymencie.

Na podstawie tych danych eksperymentalnych wymagane jest oszacowanie matematycznego oczekiwania i wariancji zmiennej losowej. Takie oszacowania nazywane są oszacowaniami punktowymi; statystyczne oczekiwanie matematyczne można przyjąć jako oszacowania m i D i wariancji statystycznej, gdzie



Przed eksperymentem próbka X1, X2, X3, ..., Xn jest zbiorem niezależnych zmiennych losowych, które mają matematyczne oczekiwanie i wariancję, a zatem rozkład prawdopodobieństwa jest taki sam jak sama zmienna losowa X. Zatem:


Gdzie i = 1, 2, 3, ..., n.


Na tej podstawie znajdujemy matematyczne oczekiwanie i wariancję zmiennej losowej (wykorzystując właściwości oczekiwań matematycznych).

Zatem matematyczne oczekiwanie średniej statystycznej wynosi jest równa dokładnej wartości matematycznego oczekiwania m mierzonej wartości oraz wariancji średniej statystycznej n razy mniejsza zmienność poszczególnych wyników pomiarów.


w


Oznacza to, że dla dużej próby N, średnie statystyczne jest wartością prawie nielosową, tylko nieznacznie odbiega od dokładnej wartości zmiennej losowej m. To prawo nazywa się prawem wielkich liczb Czebyszewa.

Oszacowania punktowe nieznanych wartości oczekiwań matematycznych i wariancji mają duże znaczenie na początkowym etapie przetwarzania danych statycznych. Ich wadą jest to, że nie wiadomo z jaką dokładnością podają szacowany parametr.

Niech dla danej próbki X1, X2, X3, ..., Xn uzyskamy dokładne oszacowania statystyczne oraz , to cechy liczbowe zmiennej losowej X będą w przybliżeniu równe ... Dla próbki o małej liczebności istotna jest kwestia dokładności oszacowania, ponieważ między m a , D i będą niewystarczające odchylenia. Ponadto przy rozwiązywaniu praktycznych problemów wymagane jest nie tylko znalezienie przybliżonych wartości m i D, ale także ocena ich dokładności i niezawodności. Zostawiać , tj. to oszacowanie punktowe dla m. To oczywiste, że im dokładniej wyznacza m, tym mniejszy moduł różnicy ... Zostawiać , gdzie ?>0, wtedy mniej ?, tym dokładniejsze oszacowanie m. Zatem, ?>0 charakteryzuje dokładność estymacji parametrów. Jednak metody statystyczne nie pozwalają na kategoryczne stwierdzenie, że oszacowanie prawdziwej wartości m jest spełnione , możemy mówić tylko o prawdopodobieństwie ?, z którymi ta nierówność utrzymuje:

Zatem, ?- to jest poziom zaufanialub rzetelność oceny, oznaczający ? są wybierane z góry w zależności od rozwiązywanego problemu. Niezawodność ? zwyczajowo wybiera się 0,9; 0,95; 0,99; 0,999. Zdarzenia z tym prawdopodobieństwem są praktycznie pewne. Dla danego poziomu ufności można znaleźć liczbę?> 0 z .

Wtedy otrzymujemy interwał która obejmuje z prawdopodobieństwem ? prawdziwa wartość matematycznego oczekiwania m, długość tego przedziału wynosi 2 ?. Ten przedział nazywa się przedział ufności... I ten sposób szacowania nieznanego parametru m - interwał.



Niech zostanie podana próbka X1, X2, X3, ..., Xn i niech zostanie znaleziona dla tej próbki, ,.

Wymagane jest znalezienie przedziału ufności dla matematycznego oczekiwania m z poziomem ufności ?. wielkość istnieje losowa wielkość z matematycznym oczekiwaniem, .

Wartość losowa ma charakter kumulacyjny, przy dużej liczebności próby, rozkłada się zgodnie z prawem zbliżonym do normalnego. Wtedy prawdopodobieństwo wpadnięcia zmiennej losowej do przedziału będzie równe:


Gdzie


Gdzie jest funkcją Laplace'a.

Ze wzoru (3) i tablic funkcji Laplace'a znajdujemy liczbę ?>0 i zapisz przedział ufności dla dokładnej wartości zmienna losowa X z rzetelnością?.

W tej pracy semestralnej wartość ? wymienić , a następnie formuła (3) przyjmie postać:

Znajdź przedział ufności , w którym znajduje się oczekiwanie matematyczne. Na ? = 0,99, n = 100, ,.

zgodnie z tabelami Laplace'a znajdujemy:

Stąd? = 0,5986.

Przedział ufności, w którym znajduje się dokładna wartość matematycznego oczekiwania z 99% prawdopodobieństwem.


Wniosek

zmienna losowa rozkład ekonomiczny

Rozwiązywanie problemów identyfikacji strukturalno-parametrycznej przy ograniczonych liczebnościach próby, które z reguły posiadają metrolodzy, zaostrza problem. W tym przypadku jeszcze ważniejsza jest poprawność zastosowania statystycznych metod analizy. wykorzystanie szacunków o najlepszych właściwościach statystycznych i kryteriach o największej mocy.

Przy rozwiązywaniu problemów identyfikacyjnych lepiej oprzeć się na podejściu klasycznym. Przy identyfikacji zaleca się uwzględnienie szerszego zestawu praw dystrybucji, w tym modeli w postaci mieszanin praw. W takim przypadku, dla dowolnego rozkładu empirycznego, zawsze możemy zbudować adekwatny, statystycznie znacznie bardziej uzasadniony model matematyczny.

Należy skupić się na wykorzystaniu i rozwoju systemów informatycznych zapewniających rozwiązywanie problemów identyfikacji strukturalnej i parametrycznej praw dystrybucji dla dowolnej formy rejestrowanych obserwacji (pomiarów), w tym nowoczesnych metod statystycznych. analizy analityczne, skupiają się na szerokim, ale poprawnym wykorzystaniu metod modelowania komputerowego w badaniach. Widzieliśmy już, że w przypadku wielu eksperymentów nie ma różnicy w obliczaniu prawdopodobieństw zdarzeń, podczas gdy elementarne wyniki tych eksperymentów są bardzo różne. Powinniśmy jednak interesować się prawdopodobieństwem zdarzeń, a nie strukturą przestrzeni wyników elementarnych. Dlatego czas we wszystkich takich "podobnych" eksperymentach używać np. liczb zamiast bardzo odmiennych elementarnych wyników. Innymi słowy, każdy elementarny wynik może być powiązany z pewną liczbą rzeczywistą i działać tylko z liczbami.

Jak wykorzystuje się teorię prawdopodobieństwa i statystykę matematyczną? Dyscypliny te są podstawą metod probabilistyczno-statystycznych. podejmowanie decyzji... Aby korzystać z ich aparatu matematycznego, potrzebujesz problemów podejmowanie decyzji wyrażone za pomocą modeli probabilistyczno-statystycznych. Zastosowanie określonej metody probabilistyczno-statystycznej podejmowanie decyzji składa się z trzech etapów:

  • przejście od rzeczywistości ekonomicznej, zarządczej, technologicznej do abstrakcyjnego schematu matematyczno-statystycznego, czyli budowa modelu probabilistycznego układu sterowania, procesu technologicznego, procedury decyzyjne, w szczególności na podstawie wyników kontroli statystycznej itp.;
  • dokonywanie obliczeń i wyciąganie wniosków środkami czysto matematycznymi w ramach modelu probabilistycznego;
  • interpretacja wniosków matematycznych i statystycznych w odniesieniu do rzeczywistej sytuacji i podjęcie właściwej decyzji (np. o zgodności lub niezgodności jakości produktu z ustalonymi wymaganiami, konieczności dostosowania procesu technologicznego itp.), w szczególności, wnioski (o proporcji wadliwych jednostek produktu w partii, o konkretnej formie praw dystrybucji) monitorowane parametry proces technologiczny itp.).

Statystyka matematyczna wykorzystuje pojęcia, metody i wyniki teorii prawdopodobieństwa. Rozważ główne problemy budowania modeli probabilistycznych podejmowanie decyzji w sytuacjach ekonomicznych, zarządczych, technologicznych i innych. Za aktywne i poprawne korzystanie z dokumentów normatywno-technicznych i instruktażowo-metodologicznych dotyczących metod probabilistyczno-statystycznych podejmowanie decyzji wymaga wcześniejszej wiedzy. Musisz więc wiedzieć, w jakich warunkach dany dokument powinien być stosowany, jakie informacje wstępne są niezbędne do jego wyboru i zastosowania, jakie decyzje należy podjąć na podstawie wyników przetwarzania danych itp.

Przykłady zastosowania teorii prawdopodobieństwa i statystyki matematycznej... Rozważmy kilka przykładów, kiedy modele probabilistyczno-statystyczne są dobrym narzędziem do rozwiązywania problemów zarządczych, produkcyjnych, ekonomicznych i narodowych. Na przykład w powieści A.N. „Walking przez agonię” Tołstoja (w. 1) mówi: „Warsztat daje dwadzieścia trzy procent małżeństwa, a ty trzymasz się tej liczby” – powiedział Strukow do Iwana Iljicza.

Powstaje pytanie, jak rozumieć te słowa w rozmowie kierowników fabryk, skoro jedna jednostka produkcyjna nie może być wadliwa w 23%. Może być dobry lub wadliwy. Prawdopodobnie Strukov sprawił, że partia o dużej objętości zawiera około 23% wadliwych elementów. Wtedy pojawia się pytanie, co oznacza „o”? Niech 30 ze 100 przetestowanych jednostek produkcyjnych okaże się wadliwych, albo na 1000-300, albo na 100 000-30 000 itd., czy Strukovowi należy zarzucić kłamstwo?

Albo inny przykład. Moneta do wykorzystania w dużej ilości musi być „symetryczna”, tj. podczas rzucania średnio w połowie skrzynek powinien wypadać herb, aw połowie skrzynek - krata (fraki, liczba). Ale co oznacza „średnia”? Jeśli wykonasz wiele serii po 10 rzutów w każdej serii, często spotkasz się z seriami, w których moneta wypadnie 4 razy z emblematem. W przypadku monety symetrycznej nastąpi to w 20,5% serii. A jeśli na 100 000 rzutów przypada 40 000 herbów, to czy monetę można uznać za symetryczną? Procedura podejmowanie decyzji opiera się na teorii prawdopodobieństwa i statystyce matematycznej.

Omawiany przykład może wydawać się niewystarczająco poważny. Jednak tak nie jest. Losowanie ma szerokie zastosowanie w organizacji przemysłowych eksperymentów techniczno-ekonomicznych, np. przy przetwarzaniu wyników pomiaru wskaźnika jakości (momentu tarcia) łożysk w zależności od różnych czynników technologicznych (wpływ środowiska konserwatorskiego, metody przygotowanie łożysk przed pomiarem, wpływ obciążenia łożyska podczas pomiaru itp.) NS.). Powiedzmy, że konieczne jest porównanie jakości łożysk w zależności od wyników ich przechowywania w różnych olejach konserwacyjnych, tj. w składzie oleje i. Planując taki eksperyment, pojawia się pytanie, które łożyska umieścić w olejku kompozycji, a które w olejku kompozycji, ale w taki sposób, aby uniknąć subiektywizmu i zapewnić obiektywność decyzji.

Odpowiedź na to pytanie można uzyskać poprzez losowanie. Podobny przykład można podać przy kontroli jakości dowolnego produktu. Aby zdecydować, czy kontrolowana partia produktów spełnia ustalone wymagania, czy nie, pobierana jest próbka. Na podstawie wyników pobierania próbek wyciąga się wniosek dotyczący całej partii. W takim przypadku bardzo ważne jest unikanie subiektywizmu w doborze próby, tj. konieczne jest, aby każda pozycja w kontrolowanej partii miała takie samo prawdopodobieństwo wybrania do próbki. W warunkach produkcyjnych dobór jednostek produkcyjnych w próbie odbywa się zwykle nie drogą losowania, ale za pomocą specjalnych tabel liczb losowych lub za pomocą komputerowych czujników liczb losowych.

Podobne problemy z zapewnieniem obiektywności porównania pojawiają się przy porównywaniu różnych schematów. organizacja produkcji, wynagrodzenia, podczas przetargów i konkursów, selekcji kandydatów na wolne stanowiska itp. Wszędzie potrzebne są losowania lub podobne procedury. Wyjaśnijmy na przykładzie identyfikacji najsilniejszych i drugich najsilniejszych drużyn przy organizacji turnieju według systemu olimpijskiego (przegrany zostaje wyeliminowany). Niech silniejsza drużyna zawsze wygrywa słabszą. Jasne jest, że najsilniejsza drużyna na pewno zostanie mistrzem. Druga najsilniejsza drużyna dotrze do finału wtedy i tylko wtedy, gdy przed finałem nie rozegra żadnych meczów z przyszłym mistrzem. Jeśli taki mecz jest planowany, to druga najsilniejsza drużyna nie awansuje do finału. Każdy, kto planuje turniej, może albo „wyeliminować” drugą najsilniejszą drużynę z turnieju przed terminem, gromadząc ją w pierwszym spotkaniu z liderem, albo zapewnić jej drugie miejsce, zapewniając spotkania ze słabszymi drużynami aż do finału. Aby uniknąć subiektywności, losuj. W przypadku turnieju 8-drużynowego prawdopodobieństwo, że dwie najsilniejsze drużyny spotkają się w finale wynosi 4/7. W związku z tym, z prawdopodobieństwem 3/7, druga najsilniejsza drużyna opuści turniej przed terminem.

Każdy pomiar jednostek produktu (za pomocą suwmiarki, mikrometru, amperomierza itp.) zawiera błędy. Aby dowiedzieć się, czy występują błędy systematyczne, konieczne jest wykonanie wielokrotnych pomiarów jednostki produkcyjnej, której charakterystyka jest znana (na przykład standardowa próbka). Należy pamiętać, że oprócz systematyczności pojawia się również błąd przypadkowy.

W związku z tym pojawia się pytanie, jak na podstawie wyników pomiarów stwierdzić, czy występuje błąd systematyczny. Jeśli tylko zwrócimy uwagę, czy błąd uzyskany podczas kolejnego pomiaru jest dodatni czy ujemny, to problem ten można sprowadzić do poprzedniego. Porównajmy bowiem pomiar z rzucaniem monetą, błąd dodatni - z upadkiem herbu, ujemny - z kratką (błąd zerowy przy wystarczającej liczbie podziałek podziałki praktycznie nigdy nie występuje). Wtedy sprawdzenie braku systematycznego błędu jest równoznaczne ze sprawdzeniem symetrii monety.

Celem tego rozumowania jest sprowadzenie problemu sprawdzania braku systematycznego błędu do problemu sprawdzania symetrii monety. Powyższe rozumowanie prowadzi do tak zwanego „kryterium znaku” w statystyce matematycznej.

Wraz ze statystyczną regulacją procesów technologicznych w oparciu o metody statystyki matematycznej opracowywane są zasady i plany statystycznej kontroli procesów, mające na celu terminowe wykrywanie zakłóceń w procesach technologicznych, podejmowanie działań w celu ich dostosowania oraz zapobieganie uwalnianiu produktów, które nie spełniają ustalonych wymagań. Działania te mają na celu zmniejszenie kosztów produkcji i strat z dostaw produktów niespełniających norm. W statystycznej kontroli odbioru, opartej na metodach statystyki matematycznej, opracowywane są plany kontroli jakości poprzez analizę próbek z partii produktów. Trudność polega na umiejętności poprawnego budowania modeli probabilistycznych i statystycznych podejmowanie decyzji, na podstawie którego można odpowiedzieć na powyższe pytania. W statystyce matematycznej opracowano w tym celu modele probabilistyczne i metody testowania hipotez, w szczególności hipotezy, że proporcja wadliwych jednostek produkcyjnych jest równa pewnej liczbie, na przykład (przypomnijmy słowa Strukowa z powieści AN Tołstoj).

Zadania oceniające... W wielu sytuacjach o charakterze zarządczym, przemysłowym, gospodarczym i narodowym pojawiają się problemy różnego rodzaju - problem oceny cech i parametrów rozkładów prawdopodobieństwa.

Spójrzmy na przykład. Załóżmy, że otrzymano do kontroli partię żarówek N. Z tej partii wybrano losowo próbkę n żarówek. Powstaje szereg naturalnych pytań. Jak na podstawie wyników badań elementów próbki określić średnią żywotność lamp elektrycznych iz jaką dokładnością można oszacować tę charakterystykę? Jak zmienia się dokładność po pobraniu większej próbki? Po jakiej liczbie godzin można zagwarantować, że co najmniej 90% żarówek będzie działać dłużej niż godzinę?

Załóżmy, że podczas testowania próbki z dużą ilością lamp elektrycznych lampy elektryczne okazały się wadliwe. Wtedy pojawiają się następujące pytania. Jakie limity można określić dla liczby wadliwych żarówek w partii, poziomu wadliwości itp.?

Lub w analizie statystycznej dokładności i stabilności procesów technologicznych, takich jak: wskaźniki jakości jako średnia monitorowany parametr oraz stopień jego rozprzestrzeniania się w rozważanym procesie. Zgodnie z teorią prawdopodobieństwa, wskazane jest, aby jego matematyczne oczekiwanie wykorzystać jako średnią wartość zmiennej losowej oraz wariancję, odchylenie standardowe lub współczynnik zmienności... Rodzi to pytanie: jak ocenić te cechy statystyczne na podstawie danych przykładowych iz jaką dokładnością można to zrobić? Istnieje wiele podobnych przykładów. Tutaj ważne było pokazanie, w jaki sposób teoria prawdopodobieństwa i statystyki matematycznej można wykorzystać w zarządzaniu produkcją przy podejmowaniu decyzji z zakresu statystycznego zarządzania jakością produktu.

Co to są „statystyki matematyczne”? Statystyka matematyczna rozumiana jest jako „sekcja matematyki poświęcona matematycznym metodom gromadzenia, organizowania, przetwarzania i interpretacji danych statystycznych, a także wykorzystywania ich do wniosków naukowych lub praktycznych. Zasady i procedury statystyki matematycznej oparte są na teorii prawdopodobieństwa , co pozwala na ocenę trafności i rzetelności wniosków uzyskanych w każdym zagadnieniu na podstawie dostępnego materiału statystycznego” [[2.2], s. 326]. W tym przypadku dane statystyczne nazywamy informacją o liczbie obiektów w jakimś mniej lub bardziej rozbudowanym zbiorze, które mają określone cechy.

W zależności od rodzaju rozwiązywanych problemów statystyka matematyczna jest zwykle podzielona na trzy sekcje: opis danych, estymacja i testowanie hipotez.

Ze względu na rodzaj przetwarzanych danych statystycznych statystykę matematyczną dzieli się na cztery obszary:

  • statystyka jednowymiarowa (statystyka zmiennych losowych), w której wynik obserwacji opisany jest liczbą rzeczywistą;
  • wielowymiarowa analiza statystyczna, gdzie wynik obserwacji obiektu jest opisany kilkoma liczbami (wektorem);
  • statystyka procesów losowych i szeregów czasowych, gdzie wynik obserwacji jest funkcją;
  • statystyka obiektów o charakterze nienumerycznym, w której wynik obserwacji ma charakter nienumeryczny, np. jest zbiorem (figurą geometryczną), porządkiem, lub jest uzyskiwany w wyniku pomiaru atrybutem jakościowym .

Historycznie jako pierwsze pojawiły się pewne obszary statystyki obiektów o charakterze nienumerycznym (w szczególności problemy szacowania proporcji małżeństwa i testowania hipotez na jego temat) oraz statystyki jednowymiarowe. Aparat matematyczny jest dla nich prostszy, dlatego na ich przykładzie zwykle demonstrowane są podstawowe idee statystyki matematycznej.

Tylko te metody przetwarzania danych, tj. statystyki matematyczne są dowodami opartymi na modelach probabilistycznych odpowiednich zjawisk i procesów rzeczywistych. Mówimy o modelach zachowań konsumentów, występowaniu zagrożeń, funkcjonowaniu urządzeń technologicznych, uzyskiwaniu wyników eksperymentalnych, przebiegu choroby itp. Model probabilistyczny rzeczywistego zjawiska należy uznać za skonstruowany, jeśli rozważane wielkości i relacje między nimi są wyrażone w kategoriach teorii prawdopodobieństwa. Zgodność z probabilistycznym modelem rzeczywistości, tj. jego adekwatność potwierdza się w szczególności za pomocą statystycznych metod testowania hipotez.

Nieprawdopodobne metody przetwarzania danych mają charakter eksploracyjny, mogą służyć jedynie do wstępnej analizy danych, gdyż nie pozwalają na ocenę trafności i rzetelności wniosków wyciąganych na podstawie ograniczonego materiału statystycznego.

probabilistyczne i metody statystyczne mają zastosowanie wszędzie tam, gdzie możliwe jest zbudowanie i uzasadnienie probabilistycznego modelu zjawiska lub procesu. Ich stosowanie jest obowiązkowe, gdy wnioski wyciągnięte z próbki danych są przenoszone na całą populację (na przykład z próbki na całą partię produktów).

W konkretnych zastosowaniach są używane jako probabilistyczne metody statystyczne powszechne i specyficzne. Na przykład w dziale zarządzanie produkcją, poświęconym statystycznym metodom zarządzania jakością produktu, stosuje się stosowaną statystykę matematyczną (w tym planowanie eksperymentów). Za pomocą jej metod Analiza statystyczna dokładność i stabilność procesów technologicznych oraz statystyczna ocena jakości. Metody szczegółowe obejmują metody statystycznej kontroli akceptacji jakości produktu, statystycznej regulacji procesów technologicznych, oceny i kontroli niezawodności itp.

Stosowane dyscypliny probabilistyczne i statystyczne, takie jak teoria niezawodności i teoria kolejek, są szeroko stosowane. Treść pierwszego z nich wynika z nazwy, drugi to badanie systemów takich jak centrala telefoniczna, która w losowych momentach odbiera połączenia – wymagania abonentów wybierających numery na swoich telefonach. Czas trwania obsługi tych roszczeń, tj. czas trwania rozmów jest również modelowany zmiennymi losowymi. Wielki wkład w rozwój tych dyscyplin wniósł członek korespondent Akademii Nauk ZSRR A.Ya. Chinchin (1894-1959), akademik Akademii Nauk Ukraińskiej SSR B.V. Gnedenko (1912-1995) i inni krajowi naukowcy.

Krótko o historii statystyki matematycznej... Statystyka matematyczna jako nauka zaczyna się od prac słynnego niemieckiego matematyka Karla Friedricha Gaussa (1777-1855), który w oparciu o teorię prawdopodobieństwa zbadał i uzasadnił metoda najmniejszych kwadratów, stworzony przez niego w 1795 roku i używany do przetwarzania danych astronomicznych (w celu wyjaśnienia orbity mniejszej planety Ceres). Jego nazwisko jest często nazywane jednym z najpopularniejszych rozkładów prawdopodobieństwa - normalnym, aw teorii procesów losowych głównym przedmiotem badań są procesy Gaussa.

Pod koniec XIX wieku. - początek XX wieku. duży wkład w statystykę matematyczną wnieśli angielscy badacze, przede wszystkim K. Pearson (1857-1936) i R.A. Fisher (1890-1962). W szczególności Pearson opracował test chi-kwadrat dla hipotez statystycznych, a Fisher opracował analiza wariancji, teoria planowania eksperymentu, metoda estymacji parametrów największej wiarygodności.

W latach 30. XX wieku. Polak Jerzy Neumann (1894-1977) i Anglik E. Pearson opracowali ogólną teorię testowania hipotez statystycznych, a radzieccy matematycy akademik A.N. Kołmogorowa (1903-1987) i członek korespondent Akademii Nauk ZSRR N.V. Smirnov (1900-1966) położył podwaliny pod statystyki nieparametryczne. W latach czterdziestych XX wieku. Rumuński A. Wald (1902-1950) zbudował teorię sekwencyjnej analizy statystycznej.

Statystyki matematyczne rozwijają się obecnie bardzo szybko. Tak więc na przestrzeni ostatnich 40 lat można wyróżnić cztery zasadniczo nowe obszary badań [[2.16]]:

  • opracowywanie i wdrażanie metod matematycznych do planowania eksperymentów;
  • opracowanie statystyki obiektów o charakterze nienumerycznym jako samodzielnego kierunku w stosowanej statystyce matematycznej;
  • opracowanie metod statystycznych, które są stabilne w stosunku do niewielkich odchyleń od zastosowanego modelu probabilistycznego;
  • powszechny rozwój prac nad tworzeniem pakietów oprogramowania komputerowego przeznaczonych do statystycznej analizy danych.

Metody probabilistyczno-statystyczne i optymalizacja... Idea optymalizacji przenika współczesną stosowaną statystykę matematyczną i inne metody statystyczne... Mianowicie - metody planowania eksperymentów, statystyczna kontrola akceptacji, statystyczna regulacja procesów technologicznych itp. Z drugiej strony twierdzenia optymalizacyjne w teorii podejmowanie decyzji np. stosowana teoria optymalizacji jakości produktu oraz wymagania norm przewidują szerokie zastosowanie metod probabilistycznych i statystycznych, przede wszystkim stosowanej statystyki matematycznej.

W zarządzaniu produkcją, w szczególności przy optymalizacji jakości produktów i wymagań normatywnych, szczególnie ważne jest stosowanie metody statystyczne na początkowym etapie cyklu życia produktu, tj. na etapie badań przygotowanie opracowań eksperymentalnych projektów (opracowanie obiecujących wymagań dla produktów, projekt wstępny, specyfikacje techniczne dla opracowania eksperymentalnego projektu). Wynika to z ograniczonych informacji dostępnych na początkowym etapie cyklu życia produktu oraz konieczności przewidywania możliwości technicznych i sytuacji ekonomicznej na przyszłość. Metody statystyczne powinien być stosowany na wszystkich etapach rozwiązywania problemu optymalizacyjnego - przy skalowaniu zmiennych, opracowywaniu modeli matematycznych funkcjonowania produktów i systemów, przeprowadzaniu eksperymentów techniczno-ekonomicznych itp.

Wszystkie obszary statystyki wykorzystywane są w problemach optymalizacyjnych, w tym optymalizacji jakości produktów i wymagań norm. Mianowicie - statystyki zmiennych losowych, wielowymiarowe Analiza statystyczna, statystyka procesów losowych i szeregów czasowych, statystyka obiektów o charakterze nienumerycznym. Wybór metody statystycznej do analizy konkretnych danych jest wskazany do przeprowadzenia zgodnie z zaleceniami [

Udostępnij znajomym lub zachowaj dla siebie:

Ładowanie...