Wielowymiarowe badania statystyczne. Wielowymiarowa analiza statystyczna: Esencja i typy

Analiza dyspersji.

Celem analizy dyspersji jest zweryfikowanie istotności statystycznej różnicy między średnią (dla grup lub zmiennych). To sprawdzenie odbywa się, dzieląc sumę kwadratów do komponentów, tj. Oddzielając ogólną dyspersję (odmiany) z części, z których jeden jest spowodowany przez losowy błąd (że jest zmienność wewnętrzna), a druga jest związana z różnicą średnich wartości. Ten ostatni składnik dyspersji jest następnie wykorzystywany do analizy statystycznego znaczenia różnicy między średnimi wartościami. Jeśli tak jest różnica znacznie, zerowa hipoteza odrzucony I alternatywna hipoteza podejmuje istnienie różnicy między średniej.

Podzielić sumę kwadratów. Aby wybrać objętość N, selektywna dyspersja jest obliczana jako suma kwadratów odchyleń od medium selektywnego, podzielona przez N-1 (ilość próbkowania minus jeden). Tak więc, ze stałym rozmiarem próbki N, dyspersja jest funkcją suma kwadratów (odchylenia). Analiza dyspersji opiera się na oddzieleniu dyspersji na części lub komponenty, tj. Próbka jest podzielona na dwie części, w których obliczana jest średnia i suma kwadratów odchyleń. Obliczanie tych samych wskaźników próbki jako całości daje większą wartość dyspersji, co wyjaśnia rozbieżność między średnimi grupami. W ten sposób analiza dyspersji pozwala wyjaśnić zmienność intragup, które w badaniu całej grupy jako całości nie można zmienić.

Weryfikacja znaczenia w analizie dyspersji opiera się na porównaniu składnika dyspersji ze względu na elementy intergrupy i dyspersji spowodowanej przez rozproszenie intragrupa (zwany średnim kwadratem błędu). Jeśli hipoteza zerowa jest prawdziwa (równość średniej w dwóch populacjach), wówczas możemy spodziewać się stosunkowo niewielkiej różnicy w stosunku do próbkowania ze względu na czysto losową zmienność. W związku z tym, przy czym zerowa hipoteza dyspersja wewnątrzgrupowa będzie praktycznie zbiegać się z ogólną dyspersją obliczoną bez uwzględnienia przynależności Grupy. Uzyskane dyspersje wewnątrzgrupowe można porównać z sprawdzaniem F-Kryterium, czy stosunek dyspersji jest rzeczywiście więcej niż 1.

Zalety: 1) Analiza dyspersji jest znacznie bardziej wydajna, a dla małych próbek, ponieważ bardziej informacyjny; 2) Analiza dyspersji umożliwia wykrywanie efektów interakcjamiędzy czynnikami, a zatem umożliwia sprawdzenie bardziej złożonych hipotez

Metoda składnika głównej polega na liniowej redukcji wymiaru, co definiuje pary ortogonalnych kierunków maksymalnej zmienności danych źródłowych, po którym dane są zaprojektowane do przestrzeni mniejszego wymiaru generowanego przez składniki z największą wariacją.

Metoda głównej składnika jest częścią analizy czynnika, która jest taka, że \u200b\u200bdwie korelowane zmienne są łączone w jeden czynnik. Jeśli przykład z dwoma zmiennymi rozprzestrzenił się na większą liczbę zmiennych, wówczas obliczenia stają się trudniejsze, podstawowa zasada reprezentująca dwie lub więcej zmiennych zależnych przez jeden czynnik pozostaje w mocy.

Przy zmniejszaniu liczby zmiennych, decyzja w dniu, w której procedura jest podkreślająca procedura powinna zostać zatrzymana głównie na punkcie widzenia na temat tego, co jest uważane za mała zmienność "losowa". Dzięki powtarzanym iteracjom czynniki są przydzielane mniejszym i mniejszym dyspersją.

Metoda centroidów do określania czynników.

Metoda Centroid jest używana w analizie klastra. W tej metodzie odległość między dwoma klastrami definiuje się jako odległość między ośrodkami ciężkości z nietypowaną metodą środkową ..

Ważona metoda środkowa (mediana) jest identyczna, aby nie ważona, z wyjątkiem tego, że obliczenia wykorzystują wagi do rozliczenia różnicy między wielkością klastrów (tj. Liczba obiektów w nich). Dlatego też, jeśli są (lub podejrzewane) znaczące różnice w rozmiarach klastrów, ta metoda jest lepsza niż poprzedni.

Analiza klastrów.

Termin analiza klastrowa w rzeczywistości zawiera zestaw różnych algorytmów klasyfikacji. Ogólne pytanie zadawane przez naukowców w wielu obszarach jest jak zorganizować obserwowane dane w strukturach wizualnych, tj. Określ klastry podobnych obiektów. W rzeczywistości analiza klastrowa nie jest tak duża metoda statystyczna, jak "zestaw" różnych algorytmów "dystrybucji obiektów przez klastry". Istnieje punkt widzenia, że \u200b\u200bw przeciwieństwie do wielu innych procedur statystycznych, metody analizy klastrowej są stosowane w większości przypadków, gdy nie ma żadnych hipotezów priori dotyczących zajęć, ale nadal w opisowych etapach badania. Należy rozumieć, że analiza klastra określa "najbardziej ewentualnie znaczące rozwiązanie".

Algorytm gromadzenia drzewa. Celem tego algorytmu polega na łączeniu obiektów w wystarczająco dużych klastrów przy użyciu jakiegoś rodzaju podobieństwa lub odległości między obiektami. Typowym wynikiem takiego klastrowania jest drzewo hierarchiczne, które jest diagramem. Diagram zaczyna się od każdego obiektu w klasie (po lewej stronie wykresu). Teraz wyobraź sobie, że jesteś stopniowo (bardzo małe kroki) "osłabiasz" kryterium, które obiekty są wyjątkowe, a które nie są. Innymi słowy, obniżasz próg związany z rozwiązaniem do łączenia dwóch lub więcej obiektów w jednym klastrze. W rezultacie kojarzysz coraz większą liczbę obiektów i agregatów (łączących) coraz więcej klastrów składających się z coraz bardziej różnych elementów. Wreszcie, na ostatnim kroku wszystkie obiekty są łączone razem. Na tych diagramach poziome osie reprezentują odległość związku (w pionowych tarczy drzewa pionowe osie reprezentują odległość związku). Tak więc, dla każdego węzła w kolumnie (gdzie powstaje nowy klaster), można zobaczyć ilość odległości, dla której odpowiednie elementy są związane z nowym pojedynczym klastrem. Gdy dane mają wyraźną "strukturę" pod względem klastrów obiektów podobnych do siebie, wówczas struktura może być odzwierciedlona w hierarchicznym drzewie z różnymi gałęziami. W wyniku pomyślnej analizy sposobem łączenia, możliwe jest wykrywanie klastrów (gałęzi) i zinterpretować je.

Analiza dyskryminacyjna służy do podjęcia decyzji, w której zmienne są wyróżnione (dyskryminujące) dwie lub więcej wynikające z nich (grupy). Najczęstszym wykorzystaniem analizy dyskryminacyjnej jest włączenie do badania wielu zmiennych w celu określenia tych z nich najlepszym sposobem Oddziel agregat między sobą. Innymi słowy, chcesz zbudować "model", pozwalając najlepiej przewidzieć, do którego kruszywa będzie należeć do jednej lub innej próbki. W następnym rozumowaniu termin "w modelu" zostanie wykorzystany do oznaczenia zmiennych stosowanych w przewidywaniu akcesoriów do agregatu; Powiemy o niewykorzystanych zmiennych, które są "poza modelem".

W analizie zdyskryminujących krok po kroku model dyskryminacji opiera się na krokach. Dokładniej, każdy krok oglądał wszystkie zmienne i jest to, co przyczynia się do największego wkładu w różnicę między agregatami. Ta zmienna musi być zawarta w modelu na tym etapie i idzie do następnego kroku.

Możesz także poruszać się w przeciwnym kierunku, w tym przypadku wszystkie zmienne zostaną najpierw zawarte w modelu, a następnie na każdym kroku zostaną wyeliminowane przez zmienne, które mają niewielki wkład w prognozy. Następnie, w wyniku pomyślnej analizy, można zachować tylko "ważne" zmienne w modelu, to znaczy zmienne, których wkład w dyskryminację jest większy niż reszta.

Ta procedura krok po kroku jest "prowadzona przez" odpowiednią wartość F do włączenia i odpowiedniej wartości F na wyjątek. Wartość f Statystyki dla zmiennej wskazuje na jego statystyczne znaczenie w dyskryminacji między agregatami, czyli, jest to miarę depozytu zmiennej w przewidywaniu członkostwa w agregacie.

W przypadku dwóch grup analiza dyskryminująca może być również traktowana jako procedura regresji wielu. Jeśli kodujesz dwie grupy jako 1 i 2, a następnie użyj tych zmiennych jako zmiennych zależnych w regresji wielokrotnej, a następnie uzyskaj wyniki podobne do tych, które uzyskałyby z pomocą dyskryminacyjnej analizy. Ogólnie rzecz biorąc, w przypadku dwóch agregatów dostosowywać równanie liniowe następującego typu:

Grupa \u003d A + B1 * X1 + B2 * X2 + ... + BM * XM

gdzie jest stała, a B1 ... BM to współczynniki regresji. Interpretacja wyników zadania z dwoma agregatami ściśle podąża za logiką wykorzystania regresji wielokrotnej: zmienne z największymi współczynnikami regresji dokonują największego wkładu w dyskryminację.

Jeśli istnieje więcej niż dwie grupy, możliwe jest oszacowanie więcej niż jednej funkcji dyskryminującej jest podobny do tego, jak to zostało zrobione wcześniej. Na przykład, gdy istnieją trzy agregaty, możesz oszacować: (1) - funkcja dyskryminacji między zestawem 1 a agregatami 2 i 3, przyjęta razem i (2) - inna funkcja dyskryminacji między zestawem 2 a Całkowość 3. Na przykład możesz mieć jedną funkcję dyskryminację między tymi absolwentami liceumKto idzie na studia, przeciwko tym, którzy tego nie robią (ale chcą zdobyć pracę lub iść do szkoły), a druga funkcja dyskryminacji między tymi absolwentami, którzy chcą zdobyć pracę przeciwko tym, którzy chcą iść do szkoły . Współczynniki B w tych dyskryminujących funkcjach można interpretować w taki sam sposób jak wcześniej.

Korelacja kanoniczna.

Analiza kanoniczna przeznaczona jest do analizy zależności między listami zmiennych. Dokładniej, pozwala na zbadanie relacji między dwoma zestawami zmiennymi. Przy obliczaniu korzeni kanonicznych, obliczają wartości własne matrycy korelacji. Wartości te są równe ułamkowi dyspersji ze względu na korelację między odpowiednimi zmiennymi kanonicznymi. W tym przypadku wynikowy odsetek jest obliczany w stosunku do dyspersji zmiennych kanonicznych, tj. Zawieszone kwoty na dwóch zestawach zmiennych; W ten sposób EIGENVALUES nie wykazują wartości bezwzględnej wyjaśnionej w odpowiednich zmiennych kanonicznych.

Jeśli usuniesz pierwiastek kwadratowy z uzyskanych wartości własnych, otrzymujemy zestaw liczb, które można interpretować jako współczynniki korelacji. Ponieważ odnoszą się do zmiennych kanonicznych, nazywane są również korelacjami kanonicznymi. Podobnie jak Eigenvalues, korelacje między zmiennymi kanonicznymi przydzielani przy każdym spadku etapu. Jednak inne zmienne kanoniczne mogą być również znacznie skorelowane, a korelacje te często przyznają wystarczająco znaczącą interpretację.

Kryterium znaczenia korelacji kanonicznej jest stosunkowo niski. Po pierwsze, korelacje kanoniczne są szacowane na siebie w kolejności malejącym. Tylko te korzenie, które były istotne statystycznie pozostają do późniejszej analizy. Chociaż faktycznie obliczenia występują trochę inaczej. Program najpierw szacuje znaczenie całego zestawu korzeni, a następnie znaczenie zestawu pozostawionego po usunięciu pierwszego korzenia, drugiego korzenia itp.

Badania wykazały, że użyte kryterium wykrywa duże korelacje kanoniczne nawet przy małym rozmiarze próbki (na przykład n \u003d 50). Słabe korelacje kanoniczne (na przykład R \u003d 0,3) wymagają dużych rozmiarów próbek (N\u003e 200) do wykrycia w 50% przypadków. Należy pamiętać, że kanoniczne korelacje małego rozmiaru zwykle nie reprezentują wartości praktycznej, ponieważ odpowiada niewielkiej rzeczywistej zmienności danych źródłowych.

Ciężary kanoniczne. Po określeniu liczby znaczących korzeni kanonicznej pytanie powstaje o interpretacji każdego (znaczącego) korzenia. Przypomnijmy, że każdy korzeń w rzeczywistości stanowi dwie ważone ilości, jeden dla każdego zestawu zmiennych. Jednym ze sposobów interpretacji "znaczenia" każdego korzenia kanonicznego jest uwzględnienie skal związanych z każdym zestawem zmiennych. Te ciężary są również zwane skalami kanonicznymi.

Podczas analizy, zwykle, użyj, aby większy ciężar jest (tj. Wartość bezwzględna wagi), tym większy wkład odpowiedniego zmiennej wartości zmiennej kanonicznej.

Jeśli znasz regresję wielokrotną, możesz ubiegać się o interpretacje kanoniczne używane do beta-skal w równaniu wielokrotnego regresji. W pewnym sensie masy kanoniczne są podobne do prywatnych korelacji zmiennych odpowiadających korzeniu kanonicznym. Zatem rozważenie łusek kanonicznych umożliwia zrozumienie "znaczenia" każdego korzenia kanonicznego, tj. Aby zobaczyć, jak określone zmienne w każdym zestawie wpływają na ważoną ilość (to znaczy zmienna kanoniczna).

Metody parametryczne i nie parametryczne do oceny wyników.

Metody parametryczne w oparciu o selektywną dystrybucję niektórych statystyk. Mówiąc krótko, jeśli znasz dystrybucję obserwowanej zmiennej, możesz przewidzieć, jak w przypadku powtarzających się próbek o równej objętości będzie "zachowywać się" Statystyki - I.e. Jak to zostanie dystrybuowane.

W praktyce zastosowanie metod parametrycznych jest ograniczony z powodu wielkości głośności lub próbki dostępnej do analizy; Problemy z dokładnym pomiarem objawów obserwowanego obiektu

W ten sposób konieczne jest, aby obecność procedur, które umożliwiają obsługę danych "niskiej jakości" z próbek małej objętości z zmiennymi, co nie wiadomo o dystrybucji, której lub w ogóle. Metody outorystyczne są po prostu zaprojektowane dla tych sytuacji, często wynikające w praktyce, gdy badacz nie wie nic o parametrach ludności w ramach badań (stąd i nazwa metod - nie-parametryczny). Szczególny język, metody bez parametryczne nie są oparte na oszacowaniu parametrów (takich jak średniej lub odchylenie standardowe) przy opisaniu rozkładu próbki wartości odsetek. Dlatego metody te są czasami zwane również wolne od parametrów lub swobodnie dystrybuowanych.

Zasadniczo, dla każdego kryterium parametrycznego, znajduje się co najmniej jeden nie-parametryczny analogowy. Kryteria te można przypisać jednej z następujących grup:

różnice kryteriów między grupami (niezależne próbki);

kryteria różnice między grupami (próbki zależne);

kryteria relacji między zmiennymi.

Różnice między grupami niezależnymi. Zwykle, gdy istnieją dwie próbki (na przykład mężczyźni i kobiety), które chcesz porównać o średniej wartości niektórych badanej zmiennej, używasz kryterium T dla niezależnego. Alternatywy bez parametryczne dla tego kryterium to: kryterium serii Wald-Wolfovitsa, kryterium U Manna-Whitney i kryterium dwusularowania Kolmogorov-Smirnov. Jeśli masz kilka grup, możesz użyć analizy dyspersji. Jego nie-parametryczne analogi są: analiza dyspersji zakresu Kraklali Wallisa i testu mediany.

Różnice między grupami zależnymi. Jeśli chcesz porównać dwie zmienne związane z tą samą próbką (na przykład matematyczne sukcesy studentów na początku i na końcu semestru), wówczas powszechnie stosowany jest kryterium T-kryterium zależnych. Alternatywne testy nie parametryczne to: kryteria dla znaków i kryterium Willoxona sparowanych porównania. Jeżeli zmienne rozważane z natury są kategoryczne lub są sklasyfikowane (tj. Są przedstawione w postaci częstotliwości w niektórych kategoriach), odpowiednie kryterium chi-kwadratu MCNIARI będzie odpowiednie. Jeśli rozważa się więcej niż dwie zmienne należące do tej samej próbki, analiza dyspersji (ANOVA) jest zwykle stosowana z powtarzającymi się pomiarami. Alternatywną metodą bez parametryczną jest analiza dyspersji do dyspersji rangą kryterium Friedman lub Q Kryterium (ten ostatni jest używany, na przykład, jeśli zmienna jest mierzona w skali nominalnej). Kryterium Q Kohrine jest również używane do oceny zmian częstotliwości (frakcje).

Zależności między zmiennymi. W celu oszacowania zależności (połączenie) między dwiema zmiennymi zazwyczaj obliczają współczynnik korelacji. Nie parametryczne analogi standardowego współczynnika korelacji Pearson są statystykami współczynnika R, TAU Kendalla i Gamma, jeżeli dwa rozważane zmienne z natury są kategoryczne, odpowiednie kryteria nie parametryczne do testowania zależności: Hee-Square, Fi Współczynnik, dokładny Kryterium rybaków. Dodatkowo, kryterium zależności jest dostępne między kilkoma zmiennymi, tak zwany współczynnik pojednawczy Kendalla. Test ten jest często używany do oceny spójności opinii niezależnych ekspertów (sędziów), w szczególności punktów wydanych w tym samym temacie.

Jeśli dane nie są normalnie rozpowszechniane, a w najlepszym razie pomiary, zawierają informacje rankingowe, obliczenie zwykłych statystyk opisowych (na przykład średni, odchylenie standardowe) nie jest zbyt pouczające. Na przykład, w psychometrii dobrze wiadomo, że postrzegana intensywność bodźców (na przykład, postrzegana jasność światła) jest logarytmiczną funkcją rzeczywistej intensywności (jasność mierzona w jednostkach obiektywnych - apartamentów). W ten przykładZwykła ocena średniej (suma wartości podzielonych przez liczbę zachęt) nie podaje prawidłowej idei średniej wartości rzeczywistej intensywności zachęty. (W omawianym przykładzie należy raczej obliczyć średnią geometryczną) pozwalając na przedstawienie więcej danych "pełnego obrazu".

Wprowadzenie PEVM w zarządzaniu gospodarką narodową obejmuje przejście z tradycyjnych metod analizowania przedsiębiorstw w bardziej zaawansowanych modelach zarządzania gospodarką, które umożliwiają ujawnienie jego głębokości.

Szerokie zastosowanie B. badania gospodarcze Metody statystyki matematyczne Umożliwia pogłębienie analizy ekonomicznej, poprawić jakość informacji w planowaniu i przewidywania wskaźników produkcji i analizowania jego skuteczności.

Złożoność i różnorodność stosunków wskaźników ekonomicznych określa wielowymialność znaków i w związku z tym wymaga zastosowania najbardziej złożonych aparatów matematycznych - metody wielowymiarowej analizy statystycznej.

Koncepcja "wielowymiarowej analizy statystycznej" oznacza szereg metod przeznaczonych do zbadania kombinacji znaków powiązanych ze sobą. Rozmawiamy o rozczłonkowaniu (rozłupanie) z rozpatrywanej kombinacji, która jest reprezentowana przez objawy wielowymiarowe na stosunkowo niewielkiej ilości.

Jednocześnie przejście z dużej liczby znaków do mniejszego jest nawiedzane przez cel zmniejszenia ich wymiaru i wzrost kontenera informacyjnego. Taki cel jest osiągnięty przez identyfikację informacji, powtarzane, generowane przez znaki powiązane, ustanawiające możliwość agregacji (stowarzyszenie, sumowanie) dla niektórych znaków. Ten ostatni obejmuje transformację rzeczywistego modelu w modelu z mniejszą liczbą znaków czynników.

Sposób wielowymiarowej analizy statystycznej pozwala zidentyfikować obiektywnie istniejących, ale wyraźnie nie wyrażono wzorców, które objawiają się w niektórych zjawiskach społeczno-ekonomicznych. Ma to do czynienia z tym rozwiązując szereg praktycznych zadań w dziedzinie ekonomii. W szczególności, wspomniany zajmowany, jeżeli konieczne jest gromadzenie (poprawki) w tym samym czasie wartości kilku charakterystyk ilościowych (funkcji) na obiekcie badane, gdy każda cecha jest podatna na niekontrolowaną zmianę (w kontekście obiektów) , pomimo jednorodności obiektów obserwacyjnych.

Na przykład odkrywanie jednorodnych (przez naturalne warunki ekonomiczne i rodzaj specjalizacji) przedsiębiorstwa dla wielu wskaźników wydajności, jesteśmy przekonani, że w przejściu z jednego obiektu do drugiego, prawie każda z wybranych cech (identyczna) ma Nierówne znaczenie, to znaczy, że stwierdza się, aby mówić niekontrolowanym (losowym) rozproszonym. Taka "losowa" charakterystyka znaków, z reguły, podlega niektórym (naturalnym) trendom, zarówno pod względem wystarczająco szczegółowych rozmiarów znaków, wokół których zmienność i pod względem stopnia i współzależności samej zmiany są przenoszone na zewnątrz.

Powyższe prowadzi do definicji wielowymiarowej zmiennej losowej jako zestaw cech ilościowych, z których wartość każdego podlega niekontrolowanej rozproszeniu podczas powtórzeń tego procesu, obserwacja statystyczna, doświadczenie, eksperyment itp.

Wcześniej powiedział, że analiza wielowymiarowa łączy szereg metod; Nazywamy je: analiza czynnika, główną metodę składową, analizę klastrową, rozpoznawaniem obrazu, analizą dyskryminacyjną i itp. Pierwsze trzy metody są rozpatrywane w następujących akapitach.

Jak inna matematyka - metody statystyczneAnaliza wielowymiarowa może być skuteczna w jego zastosowaniu, z zastrzeżeniem wysokiej jakości początkowej informacji i masa danych obserwacyjnych, są przetwarzane za pomocą komputera.

Podstawowe koncepcje metody analizy czynników, istotę zadań rozwiązanych przez nich

Podczas analizy (równochodzie i zbadane), zjawiska społeczne i ekonomiczne są często występują w przypadkach, w których obiektom obserwacji różnorodności (Bagatoparametricity) konieczne jest wykluczenie proporcji parametrów lub zastąpić je mniejszą liczbą pewnych funkcji, bez powodowania Informacje o integralności integralności (pełnej) informacji. Rozwiązanie takiego zadania ma sens w określonym modelu i wynika z jego struktury. Przykład takiego modelu, który jest najbardziej odpowiedni dla wielu prawdziwe sytuacjeJest modelem analizy czynnika, których metody umożliwiają skoncentrowanie znaków (informacje o nich) przez "kondensację" dużej liczby do mniejszej liczby informacji bardziej pojemności. W tym przypadku uzyskane "kondensat" informacji muszą być reprezentowane przez najważniejsze i określające cechy ilościowe.

Koncepcja "analizy czynnika" nie musi być wymieszane z szeroką koncepcją analizy relacji przyczynowych, gdy wpływ różnego czynników (ich kombinacje, kombinacje) jest badany na podstawie produktywnej.

Istotą metody analizy czynnika jest wykluczenie opisu wielu właściwości badanych i wymiany przez jej mniejszą liczbę informacji i bardziej pojemnych zmiennych, które są nazywane czynnikami i odzwierciedlają najważniejsze właściwości zjawisk. Takie zmienne są pewnymi funkcjami znaków źródłowych.

Analiza, zgodnie z Ya. Perch 9, pozwala na pierwsze przybliżone cechy wzorów leżących u podstaw zjawisk, sformułować pierwsze, ogólne wnioski na temat wskazówek, w których należy przeprowadzić dalsze badania. Ponadto wskazuje na główne założenie analizy czynnika, które jest zredukowane do faktu, że zjawisko, pomimo jego heterogeniczności i zmienności można opisać przez niewielką liczbę jednostek funkcjonalnych, parametrów lub czynników. Daty te nazywane są inaczej: wpływ, przyczyny, parametry, jednostki funkcjonalne, zdolności, podstawowe lub niezależne wskaźniki. Wykorzystuje się stosowanie jednego lub innego terminu

Okun I. Analiza czynnika: Per. z. piętro. M.: Statystyki, 1974.- str. 16.

kontekst współczynnika i wiedzy o istocie badanego zjawiska.

Etapy analizy czynników są kolejnymi porównaniem różnych zestawów czynników i opcji do grup z ich włączeniem, wyłączeniem i oceną niezawodności różnic między grupami.

V.M. Zhukovska i I.B. Mutnik 10, mówiąc o istotę zadań analizy czynników, twierdzą, że ten ostatni nie wymaga priori podziału zmiennych na utrzymanie i niezależne, ponieważ wszystkie zmienne są uwzględniane w nim jako równe.

Zadanie analizy czynnika zmniejsza się do pewnej koncepcji, liczby i charakteru najważniejszych i stosunkowo niezależnych cech funkcjonalnych zjawisk, jego liczników lub podstawowych parametrów - czynników. Według autorów ważnych charakterystyczna cecha Analiza czynnikiem jest to, że pozwala na badanie w tym samym czasie duża liczba Zmienne ze sobą zmienne bez założenia o "niezmienne wszystkie inne warunki", tak konieczne przy użyciu wielu innych metod analizy. Jest to wielka zaleta analizy czynników jako cenne narzędzia do badania zjawiska ze względu na złożoną różnorodność i rafinerie połączeń.

Analiza opiera się głównie do monitorowania naturalnej zmienności.

1. Przy użyciu analizy czynników, zestaw zmiennych, które są badane z punktu widzenia linków między nimi nie są wybierani arbitralnie: Ta metoda pozwala określić główne czynniki, które przeprowadzają znaczący wpływ w tym obszarze.

2. Analiza nie wymaga wstępnych hipotez, wręcz przeciwnie, sama może służyć jako hipotezy rozszerzające, a także działać jako kryterium hipotez na podstawie danych uzyskanych przez inne metody.

3. Analiza nie wymaga priori gachyeen, co zmienne są niezależne i zależne, nie przerostowości przyczyny i rozwiązuje kwestię ich zakresu w procesie dalszych badań.

Zwój specyficzne zadaniaRozwiązane zastosowanie metod analizy czynników będą takie (zgodnie z V.M. Zhukovskoy). Wezwijmy główne w dziedzinie badań społeczno-ekonomicznych:

Zhukovskaya V.m., muchnik I.b. Analiza czynnika w badaniach społeczno-ekonomicznych. -Station, 1976. str. 4.

1. Określenie głównych aspektów różnic między obiektami obserwacyjnymi (opis minimalizacji).

2. Sformułowanie hipotez o charakterze różnic między obiektami.

3. Wykrywanie struktury relacji między znakami.

4. Sprawdzanie hipotez na temat relacji i wymienności znaków.

5. Porównanie charakterystycznych konstrukcji ustalonych.

6. Rozbieranie obiektów obserwacyjnych dla typowych funkcji.

Powyższe wskazuje na duże możliwości analizy czynnika

badanie zjawisk społecznych, gdzie z reguły niemożliwe jest kontrolowanie (eksperymentalnie) wpływ poszczególnych czynników.

Jest to dość skuteczne, aby wykorzystać wyniki analizy czynnikowej w wielu modelach regresji.

Posiadanie z góry określonego modelu regresji z korelacji z badanego zjawiska w postaci skorelowanych znaków, przy użyciu analizy czynnika, możesz taki zestaw znaków, aby zmienić w znacznie mniejszej liczbie przez agregację. W tym przypadku należy zauważyć, że taka transformacja nie pogorsza w żaden sposób i wypełnia informacje o rozpatrywanej fenomenonie. Utworzone zagregowane znaki są nieskorelowane i reprezentują liniową kombinację znaków podstawowych. Wraz z formalną stroną matematyczną, ustalanie zadań w tym przypadku może mieć nieskończone rozwiązania. Ale należy pamiętać, że podczas badania zjawisk społeczno-ekonomicznych otrzymane zagregowane objawy muszą mieć ekonomicznie informowany interpretację. Innymi słowy, w każdym przypadku wykorzystania aparatu matematycznego, przede wszystkim przeoczyć wiedzę o ekonomicznej istoty badanej zjawiska.

W ten sposób powyższe wyżej wymieniono powyższe podsumowanie tej analizy czynnika jest specyficzną metodą badania, która prowadzona jest na podstawie arsenału metod statystyki matematycznej.

Nic praktyczne użycie Analiza czynnika po raz pierwszy znaleziono w dziedzinie psychologii. Możliwość minimalizacji duża liczba testy psychologiczne Niewielka liczba czynników umożliwiła wyjaśnienie umiejętności ludzkiej inteligencji.

W badaniu zjawisk społeczno-ekonomicznych, gdzie istnieją trudności w odosobnieniu wpływu poszczególnych zmiennych, można pomyślnie wykorzystać analizę czynnika. Korzystanie z jego technik pozwala na niektóre obliczenia "profil" nieistotnych znaków i kontynuować badania w kierunku pogłębiania.

Skuteczność tej metody jest widoczna w badaniu takich kwestii (problemy): w gospodarce - specjalizacja i koncentracja produkcji, intensywność zarządzania gospodarką, budżet rodzin pracowników, budowa różnych wskaźników uogólniających. itp

Z przedmowa autora
Rozdział 1 Wstęp
1.1. Wielowymiarowa normalna dystrybucja jako model
1.2. Ogólny przegląd metod wielowymiarowych
Literatura
Rozdział 2. Wielowymiarowa dystrybucja normalna
2.1. Wprowadzenie
2.2. Koncepcje związane z wielowymiarowymi dystrybutami
2.3. Wielowymiarowa dystrybucja normalna
2.4. Dystrybucja kombinacji liniowej normalnie rozproszone wartości; niezależność ilości; Prywatne dystrybucje
2.5. Dystrybucje warunkowe i współczynnik współczynnika korelacji
2.6. Charakterystyczna funkcja; Chwile
Literatura
Zadania
Rozdział 3. Szacowanie wektora wartości środkowej i macierzy covariance
3.1. Wprowadzenie
3.2. Szacunki największego wierzenia na wektor średniej i macierzy covariance
3.3. Dystrybucja selektywnego wektora medium; Wniosek o średniej wartości, gdy znana jest macierz Covariance
Literatura
Zadania
Rozdział 4. Dystrybucja i stosowanie selektywnych współczynników korelacji
4.1. Wprowadzenie
4.2. Współczynnik korelacji próbki dwuwymiarowej
4.3. Prywatne współczynniki korelacji
4.4. Wiele współczynnika korelacji.
Literatura
Zadania
Rozdział 5. Uogólnione statystyki T2
5.1. Wprowadzenie
5.2. Uogólnione statystyki T2 i jego dystrybucja
5.3. Aplikacje Statystyki T2.
5.4. Dystrybucja statystyk T2 w obecności konkurencyjnych hipotez; Funkcja zasilania
5.5. Niektóre optymalne kryterium właściwości T2
5.6. Wielowymiarowy problem Berensa - Fisher
Literatura
Zadania
Rozdział 6. Klasyfikacja obserwacji
6.1. Problem klasyfikacji
6.2. Zasady właściwej klasyfikacji
6.3. Metody klasyfikacji obserwacji w przypadku dwóch zestawów ogólnych o znanym dystrybucji prawdopodobieństwa
6.4. Klasyfikacja obserwacji w przypadku dwóch ogólnych agregatów znanych wielowymiarowych normalnych dystrybucji
6.5. Klasyfikacja obserwacji w przypadku dwóch wielowymiarowych normalnych zestawów ogólnych, których parametry są oceniane przez próbkę
6.6. Klasyfikacja obserwacji w przypadku kilku ogólnych zestawów
6.7. Klasyfikacja obserwacji w przypadku kilku wielowymiarowych normalnych agregatów
6.8. Przykład klasyfikacji w przypadku kilku wielowymiarowych normalnych zestawów ogólnych
Literatura
Zadania
Rozdział 7. Dystrybucja matrycy kowariansu próbki i selektywnej uogólnionej dyspersji
7.1. Wprowadzenie
7.2. Dystrybucja życzeń.
7.3. Niektóre właściwości dystrybucji życzeń
7.4. Twierdzenie Kohrena.
7.5. Uogólnione dyspersja
7.6. Dystrybucja zestawu współczynników korelacji w przypadku ukośnej matrycy kowariancji zestawu
Literatura
Zadania
Rozdział 8. Sprawdzanie wspólnych hipotezów liniowych. Analiza dyspersji.
8.1. Wprowadzenie
8.2. Szacunki parametrów wielowymiarowej regresji liniowej
8.3. Kryteria stosunku prawdopodobieństwa do sprawdzania hipotez liniowych dotyczących współczynników regresji
8.4. Chwile postawy wiary w sprawę, gdy hipoteza zerowa jest ważna
8.5. Niektóre dystrybucje wartości
8.6. Asymptotyczna rozkład dystrybucji wiarygodności
8.7. Sprawdzanie hipotez o matrycach współczynników regresji i obszarów zaufania
8.8. Sprawdzanie hipotezy o równości średnich wartości normalnych dystrybucji ze wspólną matrycą kowariancji
8.9. Uogólniona analiza dyspersji.
8.10. Inne kryteria sprawdzania hipotezy liniowej
8.11. Forma kanoniczna
Literatura
Zadania
Rozdział 9. Sprawdzanie hipotezy o niezależności zestawów zmiennych losowych
9.1. Wprowadzenie
9.2. Postawa wiarygodności jako kryterium testowania hipotezy o niezależności zestawów zmiennych losowych
9.3. Chwile związku wiarygodnych, pod warunkiem, że hipoteza zerowa jest ważna
9.4. Niektóre dystrybucje w związku z prawdą
9.5. Asymptotyczna rozkład dystrybucji wartości H (stosunek prawdopodobieństwa)
9.6. Przykład
9.7. Przypadek dwóch zestawów zmiennych losowych
Literatura
Zadania
Rozdział 10. Sprawdzanie hipotez na rzecz równości macierzy kowariancji i na równości jednocześnie wektory średniej wartości i macierzy kowarianów
10.1 Wprowadzenie
10.2 Kryteria testowania hipotez na temat równości kilku macierzy covariance
10.3. Kryteria sprawdzania hipotezy na temat równoważności kilku normalnych agregatów
10.4. Chwile związku prawdy
10.5. Asymptotyczna rozkład funkcji dystrybucji V1 i V
10.6. Przypadek dwóch ogólnych agregatów
10.7. Sprawdzanie hipotezy, że macierz Covariance jest proporcjonalny do określonej matrycy. Spheryczność kryterium
10.8. Sprawdzanie hipotezy, że macierz kowarianci jest równy tej matrycy
10.9. Sprawdzanie hipotezy, że wektor średniej wartości i macierzy kowariancji są odpowiednio równe ten wektor i ta matryca.
Literatura
Zadania
Rozdział 11. Główne składniki
11.1. Wprowadzenie
11.2. Definicja głównych składników agregatu
11.3. Szacunki największego wiary na główne składniki i ich dyspersje
11.4. Obliczanie najwyższych szacunków wiarygodnych dla głównych elementów
11.5. Przykład
Literatura
Zadania
Rozdział 12. Korrelacje kanoniczne i wartości kanoniczne
12.1. Wprowadzenie
12.2. Korelacje kanoniczne i wartości kanonicznych o ogólnym kruszywa
12.3. Ocena korelacji kanonicznych i wartości kanonicznych
12.4. Metoda obliczeń
12.5. Przykład
Literatura
Zadania
Rozdział 13. Dystrybucja niektórych charakterystycznych korzeni i wektorów, które nie zależą od parametrów
13.1. Wprowadzenie
13.2. Przypadek dwóch macierzy żywieniowych
13.3. Przypadek jeden non-zdegenerowanej Wishanta Matrix
13.4. Korelacje kanoniczne
Literatura
Zadania
Rozdział 14. Przegląd niektórych innych prac dotyczących analizy wielowymiarowej
14.1. Wprowadzenie
14.2 Sprawdzanie hipotez na temat rangi i oceny ograniczeń liniowych w zakresie współczynników regresji. Korrelacje kanoniczne i wartości kanoniczne
14.3. Noncentral dystrybucja Wersamta
14.4. Rozkład niektórych charakterystycznych korzeni i wektory zależne od parametrów
14.5. Asymptotyczna dystrybucja niektórych charakterystycznych korzeni i wektory
14.6. Główne składniki
14.7. Analiza czynników
14.8. Równania stochastyczne
14.9. Analiza serii tymczasowej
Literatura
Podanie. Teoria macierzy
1. Definicja matryc. Działania na matrycach.
2. Charakterystyczne korzenie i wektory
3. Łamanie wektory i macierzy do bloków
4. Niektóre wyniki
5. Sposób redukcji dulittla i sposobu zagęszczania wzdłuż osi do rozwiązywania systemów równania liniowe.
Literatura
Indeks tematyczny.

Podstawowe pojęcia i metody analizy statystycznej są przedstawiane wielowymiarowy wyniki techniczny eksperymenty. <...> Istnieją informacje teoretyczne nieruchomości wielowymiarowy Gaussian. dystrybucje. <...> Wynik eksperymentu uznanego na podręcznik jest losowy wektor, Rozpowszechniane zgodnie z normalnym prawem.<...> Wielowymiarowy normalna Gęstość często wynikiem eksperymentu jest całkowity Liczby charakteryzujące niektóre badane obiekt.<...> 4 F x  zapis w postaci ξ  ~ ( Nd.,) μ  ma p-Dimensional. Normalna dystrybucja. Oznacza to, że wektor ξ, ξ) bierze różne wartości, więc możesz o tym mówić losowy wektor 12 składnik wektor , ξ  składnik, ξ  I.E. Ede E   ξ \u003d E E ξ ξ  ξ \u003d E ξ  \u003d μ \u003d ξ - μ ξ - μ () ()  ξP, gdzie e jest znakiem oczekiwanie matematyczne. <...> Niech η będzie str.p.    μ μ \u003d ν + b;   bd bd bη ξ \u003d ', (1.3) Macierz D od (1.2) - symetryczne, dodatnie zdefiniowane, dlatego jest to prawdą o jego reprezentacji D CC '\u003d λ, gdzie C jest prostokątny macierzskomponowany posiadać wektory matryjscy. ; D λ - Diagonal macierz z posiadać liczby λ\u003e i 0 matryjscy. D na głównej przekątnej.<...> Połączenie gęstość jego składnik, 1, η \u003d I IP, określony przez wspólny zasady (Patrz Załącznik), równa 5 (1,4); liniowy konwersja , η , gdzie B oznacza rozmiar matrycy kwadratowej - losowy wektor, wariacje.<...> Ocena parametrów dystrybucji normalnej Niech 12 ξ, Nξξ    rozważania, tj. Przetwarzanie statystyczne jest oszacowanie przeciętnego wektora μ  i ja Nd. . <...> Głównym zadaniem jest podstawa μ \u003d i n  matryca covarycy. . <...> LN ∂ \u003d (1,5) za przepisy prawne różnicowanie Funkcjonalne na argumentach wektorowych lub matrycy (patrz<...> Następnie σ \u003d ξ -ξ ξ - ξ \u003d ξ ξ -ξ ξσς ij nn ki i kj j kk tutaj kiξ - i-i składnik wektor Środkowy i-th składniki wektor . <...> Szacunki Maksymalny gra Coffij / ρ \u003d σ σ σ ma formę IJ ,. IJ II JJ RI J σ σσ  ≠ II dowód jj.<...> Ocena relacji między komponentami normalna wektor Szczegółowa analiza Więzi<...>

MU_K_SEFLAY_KURSE_RATE_ "Multidimensional_strastic_analiza" .pdf

UDC 519.2 BBK 22.172 K27 Recenzent V.yu. Chuev Kartashov Gd, Timonin V.i., Budovskaya L.m. K27 Wielowymiarowa analiza statystyczna: Wskazania metodyczne praca semestralna. - M .: Wydawnictwo MSTU. OGŁOSZENIE Bauman 2007 - 48 P .: IL. Przedstawiono podstawowe koncepcje i metody analizy statystycznej wielowymiarowych wyników eksperymentów technicznych. Informacje teoretyczne są podane na właściwościach wielowymiarowych dystrybucji Gaussa. Dla studentów wydziału nauk podstawowych starszych. Il. 2. bibliog. 5 Nazwa. UDC 519.2 BBK 22.172 © Mstu Ich. OGŁOSZENIE Bauman, 2007.

Str.2.

Spis treści Wprowadzenie .............................................. .. ................................................ 1. ..... .. 3 wielowymiarowych rozkład normalny ..................................... . 4 2. wnioski statystyczne o środku wektora .................................... 17 3. dyskryminacyjnej analiza .. ............................................... ... ............. 23 4. Sposób głównego składnika .......................... ..... ................................ 27 5. korelacje kanoniczne ........ ..... ............................................. ...... 30 6. Wielowymiarowa analiza regresji........................................... 35 7. Analiza czynników .................................................. ........................... 40 Dodatek ..................... .................................................. ........................... 44 Lista referencji ................... . ................................................. . ................ 47 47.

Wprowadzenie

Rozdział 1. Analiza regresji wielokrotnej

Rozdział 2. Analiza klastrów

Rozdział 3. Analiza czynnika

Rozdział 4. Analiza dyskryminacyjna

Bibliografia

Wprowadzenie

Informacje o źródle w badaniach społeczno-ekonomicznych wydają się najczęściej w postaci zestawu obiektów, z których każdy charakteryzuje się szeregiem funkcji (wskaźników). Ponieważ liczba takich obiektów i funkcji może osiągnąć dziesiątki i setki, a analiza wzrokowa tych danych jest nieskuteczna, następnie stężenia redukcji, stężenie danych źródłowych, wykryć strukturę i relacje między nimi w oparciu o budowę Uogólnione cechy zestawu cech i zestawów obiektów. Takie zadania mogą zdecydować metody wielowymiarowej analizy statystycznej.

Wielowymiarowa analiza statystyczna jest częścią statystyk dotyczących metod matematycznych mających na celu identyfikację charakteru i struktury relacji między składnikami badanych i przeznaczonych do uzyskania wniosków naukowych i praktycznych.

Skupienie wielowymiarowej analizy statystycznej jest wypłacana do metod matematycznych do budowy optymalnych planów zbierania, systematyzacji i przetwarzania danych mających na celu określenie charakteru i struktury relacji między składnikami wielowymiarowego charakteru badanego i przeznaczone do uzyskania naukowego i praktycznego wnioski.

Początkowa tablica danych wielowymiarowych do analizy wielowymiarowej jest zwykle wykorzystywana przez wyniki pomiaru komponentu wielowymiarowej funkcji dla każdego obiektów całości w ramach Studium, tj. Sekwencja obserwacji wielowymiarowych. Obsługa wielowymiarowa jest najczęściej interpretowana jako, a sekwencja obserwacji jako próbki od populacji ogólnej. W takim przypadku wybór sposobu przetwarzania danych statystycznych są dokonywane na podstawie pewnych założeń dotyczących charakteru prawa dystrybucyjnego badanego wielowymizacji.

1. wielowymiarowa analiza statystyczna rozkładów wielowymiarowych i ich głównych cech obejmuje sytuacje, w których przetworzone obserwacje mają naturę probabilistyczną, tj. Interpretowane jako próbkę z odpowiedniej populacji ogólnej. Głównymi zadaniami tej podsekcji obejmują: ocena statystycznych badanych rozkładów wielowymiarowych i ich głównych parametrów; Studiuj właściwości stosowanych oceny statystycznych; Badanie dystrybucji prawdopodobieństwa dla wielu statystyk, z którymi są kryteria statystyczne dotyczące sprawdzania różnych hipotez na probibilistycznej charakteru analizowanych danych wielowymiarowych.

2. Wielowymiarowa analiza statystyczna charakteru i struktury powiązań ze sobą składnik badanej funkcji wielowymiarowej łączy koncepcje i wyniki nieodłączne w takich sposobach i modelach, jako analiza, analiza dyspersji, analiza czynnika, analiza czynnika itp. Metody należące do tej grupy obejmują zarówno algorytmy oparte na założeniu prawdopodobieństwa natury danych i metod, które nie pasują do ramy jakiegokolwiek modelu probabilistycznego (te ostatnie są częściej określane jako metody).

3. Modna analiza statystyczna struktury geometrycznej badanego zestawu obserwacji wielowymiarowych łączy pojęcia i wyniki charakterystyczne dla takich modeli i sposobów jako analiza dyskryminująca, analiza klastra, skalowanie wielowymiarowe. Nodin dla tych modeli jest koncepcja odległości lub miary bliskości między analizowanymi elementami jako punktami niektórych przestrzeni. Jednocześnie można je przeanalizować jako obiekty (obie punkty określone w przestrzeni funkcji) i funkcje (jako punkty zdefiniowane w przestrzeni obiektu).

Zastosowana wartość wielowymiarowej analizy statystycznej polega głównie w rozwiązywaniu następujących trzech zadań:

· Zadanie badań statystycznych zależności między rozważnymi wskaźnikami;

· Zadaniem klasyfikacji elementów (obiektów lub znaki);

· Problem zmniejszenia wymiaru charakterystycznej przestrzeni rozważanej i wybór najbardziej informacyjnych funkcji.

Analiza regresji wielu ma na celu skonstruowanie modelu, który umożliwia wartości zmiennych niezależnych, aby uzyskać szacunki wartości zmiennej zależnej.

Regresja logistyczna do rozwiązania zadania klasyfikacji. Jest to rodzaj regresji wielokrotnej, którego celem jest analiza relacji między kilkoma zmiennymi niezależnymi a zmienną zależną.

Analiza czynnika jest przeznaczona przez określenie stosunkowo niewielkiej liczby ukrytych czynników (ukrytych), których zmienność wyjaśnia zmienność wszystkich obserwowanych wskaźników. Analiza czynnika ma na celu zmniejszenie wymiaru rozważanego problemu.

Analiza klastra i dyskryminacyjna mają na celu oddzielenie zestawów obiektów do zajęć, z których każdy powinien obejmować obiekty w pewnym sensie, jednorodnych lub krewnych. Z analizą klastrową nie jest znany z góry, ile grup przedmiotów i tego, co będą woluminami. Dyskryminująca analiza akcji obiektów zgodnie z istniejącymi klasami.

Rozdział 1. Analiza regresji wielokrotnej

Zadanie: Badanie rynku mieszkaniowego w Orel (Radzieckie i Północne obszary).

Tabela pokazuje cenę mieszkań w Orel i dla różnych czynników, co powoduje:

· Powierzchnia całkowita;

· Kuchnia;

· Przestrzeń życiowa;

· Typ domu;

· Liczba pokoi. (Rys. 1)

Figa. 1 Dane źródłowe.

W kolumnie "Dystrykt" używany notacji:

3 - radziecki (Elitę dotyczy centralnych obszarów);

4 - Northern.

W kolumnie "Rodzaj domu":

1 - cegła;

0 - panel.

Wymaga:

1. Przeanalizuj połączenie wszystkich czynników z wskaźnikiem "ceny" i między sobą. Wybierz czynniki najbardziej odpowiednie do konstruowania modelu regresji;

2. Opisz fikcyjną zmienną, która wyświetla mieszkanie na centralne i peryferyjne obszary miasta;

3. Zbuduj model regresji liniowej dla wszystkich czynników, w tym fikcyjnej zmiennej. Oblicz znaczenie ekonomiczne parametrów równania. Oceń jakość modelu, statystyczne znaczenie równania i jego parametrów;

4. Dystrybucja czynników (z wyjątkiem fikcyjnej zmiennej) według stopnia wpływu na cenę "Cena";

5. Zbuduj model regresji liniowej dla najbardziej wpływowych czynników, pozostawiając fikcyjną zmienną w równaniu. Oceń jakość i znaczenie statystyczne równania i jego parametrów;

6. Dosyć wykonalność lub niewłaściwość włączenia do równania n. 3 i 5 fikcyjnej zmiennej;

7. Oceń szacunki przedziału parametrów równania z prawdopodobieństwem 95%;

8. Określ, ile mieszkania będzie kosztować o łącznej powierzchni 74,5 m² w obszarze elitarnym (peryferyjnym).

Występ:

1. Po przeanalizowaniu połączenia wszystkich czynników z wskaźnikiem "ceny" i między sobą czynniki najbardziej odpowiednie do konstruowania modelu regresji zostały wybrane przy użyciu metody instrukcji "do przodu":

A) całkowity obszar;

C) Liczba pokoi.

Dołączone / wykluczone zmienne (A)

zmienna zależna: Cena

2. Zmienna x4 "dzielnica" jest fikcyjną zmienną, ponieważ ma 2 wartości: 3 osoby do dzielnicy centralnej "Radziecki", 4- do dzielnicy peryferyjnej "Północne".

3. Konstruujemy model regresji liniowej dla wszystkich czynników (w tym fikcyjnej zmiennej X4).

Otrzymany model:

Ocena jakości modelu.

Błąd standardowy \u003d 126,477

Współczynnik Darbina - Watson \u003d 2,136

Sprawdź znaczenie równania regresji

Wartość kryterium F-Fisher \u003d 41,687

4. Konstruujemy liniową regresję modelu ze wszystkimi czynnikami (z wyjątkiem fikcyjnej zmiennej x4)

W zależności od stopnia wpływu na wskaźnik "Cena" dystrybuowana:

Najważniejszym czynnikiem jest całkowita powierzchnia (F \u003d 40,806)

Drugim co do wielkości czynnikiem jest liczba pokoi (F \u003d 29,313)

5. W cenę / Zmienne wykluczone

zmienna zależna: Cena

6. Budujemy model regresji liniowej dla najbardziej wpływowych czynników z fikcyjną zmienną, w naszym przypadku jest to jeden z wpływowych czynników.

Otrzymany model:

Y \u003d 348,349 + 35,788 x1 -217,075 x4 +305,687 x7

Ocena jakości modelu.

Współczynnik determinacyjny R2 \u003d 0,807

Pokazuje udział zmienności skutecznej funkcji pod wpływem studyjnych czynników. Dlatego uwzględniono około 89% odmian zmiennej zależnej i jest należne w modelu przez wpływ uwzględnionych czynników.

Wiele współczynnika korelacji r \u003d 0,898

Pokazuje szczelność relacji między zmienną zależną Y ze wszystkimi czynnikami zaangażowanymi w model.

Błąd standardowy \u003d 126,477

Współczynnik Darbina - Watson \u003d 2,136

Sprawdź znaczenie równania regresji

Wartość kryterium F-Fisher \u003d 41,687

Równanie regresji należy uznać za wystarczające, model jest uważany za znaczący.

Najważniejszym czynnikiem jest liczba pomieszczeń (F \u003d 41,687)

Drugim co do wielkości współczynnikiem jest całkowita powierzchnia (F \u003d 40,806)

Trzeci największy obszar współczynnika (F \u003d 3288)

7. Fikcyjna zmienna X4 jest znaczącym czynnikiem, dlatego wskazana jest dołączenie go w równaniu.

Szacunki interwałowe parametrów równania pokazują wyniki prognozowania zgodnie z modelem regresji.

Przy prawdopodobieństwie 95% wdrażanie wdrażania w prognozowanym miesiącu będzie od 540.765 do 1080.147 mln rubli.

8. Oznaczanie kosztów mieszkania w strefie elitarnej

Dla 1 pokój y \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 1

Dla 2 pokoi Y \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 2

Dla 3 pokoi Y \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 3

w peryferyjnym

Za 1 pokój y \u003d 348,349 + 35.788 * 74, 5 - 217,075 * 4 + 305,687 * 1

Dla 2 pokoi Y \u003d 348,349 + 35.788 * 74, 5 - 217,075 * 4 + 305,687 * 2

Dla 3 pokoi Y \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 3

Rozdział 2. Analiza klastrów

Zadanie: Badanie struktury przepływów pieniężnych i oszczędności populacji.

Tabela przedstawia strukturę przepływów pieniężnych i oszczędności ludności przez regiony centralnej dzielnicy federalnej Federacja Rosyjska W 2003 r. W przypadku następujących wskaźników:

· Proszek - zakup towarów i płatności usług;

· Opiv - obowiązkowe płatności i składki;

· Pon - nabywanie nieruchomości;

· PPA - wzrost aktywów finansowych;

· Dr - Zwiększenie pieniędzy (zmniejsz) pieniądze w rękach populacji.

Figa. 8 Dane źródłowe.

Wymaga:

1) Określ optymalną liczbę klastrów do podziału regionów w jednorodne grupy we wszystkich cechach grupowych jednocześnie;

2) Aby sklasyfikować obszary przez metodę hierarchiczną z algorytmem wiązań międzygrupy i wyświetlania wyników jako dendrogramu;

3) przeanalizować główne priorytety przepływów pieniężnych i oszczędności w uzyskanych klastrach;

Występ:

1) Określ optymalną liczbę klastrów do podziału regionów w jednorodne grupy we wszystkich cechach grupowych jednocześnie;

Aby określić optymalną liczbę klastrów, należy użyć hierarchicznej analizy klastrowej i odnoszą się do tabeli kroków Saglomation do kolumny "Czynniki".

Współczynniki te obejmują odległość między dwoma klastrami, określonych na podstawie wybranego zdalnego środka (odległość euklidesa). Na tym etapie, gdy miara odległości między dwoma klastrami zwiększa skoki, które należy przerwać, proces łączenia w nowych klastrów musi zostać zatrzymany.

W rezultacie liczba klastrów jest uważana za optymalną, równą różnicy w liczbie obserwacji (17) i liczby etapu (14), po czym współczynnik zwiększa łopatkę. Zatem optymalna liczba klastrów wynosi 3. (Rys.9)

statystyczna klaster analizy matematycznej

Figa. 9 stół "Saplomation Steps"

2) Aby sklasyfikować obszary przez metodę hierarchiczną z algorytmem wiązań międzygrupy i wyświetlania wyników jako dendrogramu;

Teraz, stosując optymalną liczbę klastrów, przeprowadzamy klasyfikację przez regiony metodą hierarchiczną. W wyjściu odwołujemy się do tabeli "należących do klastrów". (Rys.10)

Figa. 10 tabeli "należący do klastrów"

Na rys. 10 wyraźnie widać, że w 3 dziedzinach klastrów 2 (Kaluga, Moskwa) i Moskwa, 2 Klaster (Bryanskaya, Voronezh, Ivanovo, Lipieck, Orlovskaya, Ryazan, Smoleńska, Tambov, Tverskaya), w 1 klastrze - Belgorod, Vladimirskaya, Kostroma , Kurskaya, Tula, Yaroslavskaya.

Figa. 11 Doddrogram.

3) przeanalizować główne priorytety przepływów pieniężnych i oszczędności, w uzyskanych klastrach;

Aby przeanalizować odebrane klastry, musimy mieć "Średni porównanie". W oknie wyjściowym wyświetlana jest następująca tabela (rys. 12)

Figa. 12 średnich zmiennych

W tabeli "Średnie wartości" możemy śledzić, w jaki sposób struktury mają największy priorytet w dystrybucji przepływów pieniężnych i oszczędności populacji.

Przede wszystkim warto zauważyć, że najwyższy priorytet we wszystkich obszarach jest przeznaczony do zakupu towarów i płatności usług. Większa wartość parametru zajmuje 3 klastra.

2 miejsce zajmuje wzrost aktywów finansowych. Największa wartość W 1 klastrze.

Najmniejszy współczynnik 1 i 2 klastrów w "nabyciu nieruchomości", a w 3 klastrze, ujawniono zauważalny spadek pieniędzy w populacji.

Ogólnie rzecz biorąc, zakup towarów i płatności usług i niewielki zakup nieruchomości ma szczególne znaczenie dla ludności.

4) Porównaj uzyskaną klasyfikację z wynikami zastosowania algorytmu łącza Intagup.

W analizie połączeń międzygrupowych sytuacja praktycznie nie została zmieniona, z wyjątkiem regionu Tambar, który z 2 klastra spadł w 1. (Rys.13)

Figa. 13 Analiza połączeń Intagup

Nie było zmian w tabeli "średnich wartości".

Rozdział 3. Analiza czynnika

Zadanie: Analiza przedsiębiorstw świetlnych.

Istnieją dane ankiet 20 przedsiębiorstw świetlnych (rys. 14) na następujących cechach charakterystycznych:

· X1 - poziom studiów kapitałowych;

· X2 - złożoność jednostki produktów;

· X3 - proporcja materiałów zamówieńowych w całkowitych wydatkach;

· X4 - Współczynnik zmiany sprzętu;

· X5 - składki i wynagrodzenie na pracownika;

· X6 - odsetek utraty małżeństwa;

· X7 - średnia roczna wartość głównych zakładów produkcyjnych;

· X8 - średni roczny fundusz płac;

· X9 - poziom realizacji produktu;

· X10 - wskaźnik stałego składnika aktywów (stosunek aktywów trwałych i innych aktywów trwałych do ich środków własnych);

· X11 - obrót obrotów;

· X12 - Koszty nieprodukcyjne.

Rys.14 Dane początkowe.

Wymaga:

1. Aby przeprowadzić analizę czynników następujących zmiennych: 1,3,5-7, 9, 11.12, ujawnić i interpretować objawy czynników;

2. Określ najbardziej prosperujące i obiecujące przedsiębiorstwa.

Występ:

1. Aby przeprowadzić analizę czynników następujących zmiennych: 1,3,5-7, 9, 11.12, ujawniają i interpretować znaki czynników.

Analiza czynnika to zestaw metod, które na podstawie rzeczywiście istniejących wiązań obiektów (funkcji), umożliwiają identyfikację utajonego (niejawnego) uogólniające cechy struktury organizacyjnej.

W oknie dialogowym analizy czynnika wybierz nasze zmienne, określ niezbędne parametry.

Figa. 15 pełna dyspersja

Według tabeli "Pełna wyjaśniona dyspersja" widać, że 3 czynniki wyjaśniające 74,8% odmiany zmiennych - konstruowany model jest całkiem dobry.

Teraz interpretuje czynniki na "matrycy obracanych komponentów": (rys. 16).

Figa. 16 Matryx obrócony komponenty

Czynnik 1 jest najbardziej ściśle związany z poziomem sprzedaży produktów i ma odwróć zależność z kosztów nieroduktywnych.

Współczynnik 2 jest najbardziej ściśle związany z ciężką ciężkością materiałów zamówień w całkowitym kosztom i specyficzną masę utraty małżeństwa i ma przeciwną zależność od składek i wynagrodzeń na pracownika.

Współczynnik 3 jest najbardziej ściśle związany z poziomem badań funduszy i obrotów kapitału obrotowego i ma przeciwną zależność od średniej rocznej wartości głównych zakładów produkcyjnych.

2. Określ najbardziej prosperujące i obiecujące przedsiębiorstwa.

W celu zidentyfikowania najzdolniejszych przedsiębiorstw przeprowadzimy sortowanie danych 3 oznak czynszowych. (Rys.17)

Należy wziąć pod uwagę najzdolniejsze przedsiębiorstwa: 13,4,5, ponieważ w ogóle 3 czynniki ich wskaźniki zajmują najwyższe i stabilne pozycje.

Rozdział 4. Analiza dyskryminacyjna

Ocena zdolności kredytowej podmiotów prawnych w banku komercyjnym

Jako znaczące wskaźniki charakteryzujące kondycję finansową organizacji pożyczkowych, sześć wskaźników jest wybranych przez Bank (Tabela 4.1.1):

Qr (x1) - współczynnik pilnej płynności;

CR (x2) - bieżący stosunek płynności;

EQ / TA (X3) - współczynnik niezależności finansowej;

TD / EQ (X4) - łączne zobowiązania do kapitału;

Ros (x5) - rentowność sprzedaży;

Tłuszcz (x6) - obrót środków trwałych.

Tabela 4.1.1. Wstępne dane


Wymaga:

Na podstawie analizy dyskryminacyjnej przy użyciu pakietu SPSS określić, która z czterech kategorii obejmuje trzech kredytobiorców ( osoby prawne) Kto pragnie uzyskać pożyczkę w banku komercyjnym:

§ Grupa 1 - z doskonałymi wskaźnikami finansowymi;

§ Grupa 2 - z dobrymi wskaźnikami finansowymi;

§ Grupa 3 - ze złymi wskaźnikami finansowymi;

§ Grupa 4 - z bardzo złymi wskaźnikami finansowymi.

Zgodnie z wynikami obliczeń konstruuj funkcje dyskryminujące; Oceń swoje znaczenie w współczynniku Wilx (λ). Zbuduj mapę percepcji i wykresu wzajemna lokalizacja obserwacje w przestrzeni trzech funkcji. Wykonać interpretację wyników analizy.

Postęp:

W celu ustalenia, który z czterech kategorii obejmuje trzech kredytobiorców, którzy chcą otrzymać pożyczkę w banku komercyjnym, zbudujemy dyskryminującą analizę, która pozwala określić, który z wcześniej zidentyfikowanych zestawów (próbek szkoleniowych) powinien zawierać nowych klientów.

Jako zmienna zależna wybierz grupę, do której kredytobiorca może obejmować w zależności od jego wskaźników finansowych. Z danych zadań każda grupa przypisuje odpowiednią ocenę 1, 2, 3 i 4.

Niedowartościowe współczynniki kanoniczne funkcji dyskryminujących pokazanych na FIG. 4.1.1, są używane do zbudowania równania funkcji dyskryminacyjnych D1 (X), D2 (X) i D3 (X):

3.) D3 (x) \u003d


1

(Stały)

Figa. 4.1.1. Kanoniczne współczynniki funkcji dyskryminujących

Figa. 4.1.2. Lambda Wilksa.

Jednakże, ponieważ znaczenie współczynnika Wilx (Rys. 4.1.2) drugich i trzecich funkcji ponad 0,001, są one niewłaściwe dla dyskryminacji.

Dane tabeli "Wyniki klasyfikacji" (Rys. 4.1.3) sugerują, że dla obserwacji 100% klasyfikacja przeprowadza się prawidłowo, wysoka dokładność osiąga się we wszystkich czterech grupach (100%).

Figa. 4.1.3. Wyniki klasyfikacji

Informacje na temat rzeczywistych i przewidywanych grup dla każdego kredytobiorcy przedstawiono w tabeli "Statystyki motorowe" (Rys. 4.1.4).

W wyniku analizy dyskryminacji najbardziej prawdopodobieństwo nowych kredytobiorców banków do podzbioru treningowego M1 - pierwszego, drugiego i trzeciego kredytobiorcy (numer seryjny 41, 42, 43) są klasyfikowane jako podzbiór M1 z odpowiednimi prawdopodobieństwem 100 %.

Numer obserwacji

Rzeczywista grupa

Grupa uchwytowa

Przewidywana grupa

niewyraźny

niewyraźny

niewyraźny

Figa. 4.1.4. Statystyki wyjściowe.

Współrzędne centroidów przez grupy są podane w tabeli "Funkcje w ogólnych grupach środkowych" (Rys. 4.1.5). Są one używane do zastosowania centroidów do karty percepcyjnej (Rys. 4.1.6).

1

Figa. 4.1.5. Funkcje w grupach grupowych

Figa. 4.1.6. Mapa percepcji dla dwóch funkcji dyskryminowych D1 (X) i D2 (X) (* - Grupa Centroid)

Pole "karty terytorialnej" jest podzielone przez funkcje dyskryminacyjne na cztery obszary: w lewej części znajdują się głównie obserwacje czwartej grupy kredytobiorców z bardzo słabymi wskaźnikami finansowymi, w prawej części - pierwsza grupa z doskonałymi wskaźnikami finansowymi, W środkowej i dolnej części - trzecia i druga grupa kredytobiorców odpowiednio ze złymi i dobrymi wskaźnikami finansowymi.

Figa. 4.1.7. Diagram rozpraszania dla wszystkich grup

Na rys. 4.1.7 przedstawia kombinowany harmonogram dystrybucji wszystkich grup kredytobiorców razem z jego centroidami; Może być stosowany do przeprowadzenia porównawczej analizy wizualnej charakteru wzajemnej lokalizacji banku kredytobiorców w wskaźnikach finansowych. W prawej części harmonogramu istnieją kredytobiorcy o wysokich wskaźnikach, po lewej - z niską, a w środkowej części - ze średnimi wskaźnikami finansowymi. Ponieważ zgodnie z wynikami obliczeń, druga dyskryminowana funkcja D2 (X) była nieznaczna, wówczas różnice we współrzędnych środków centroidów wzdłuż tej osi są nieznaczne.

Oszacowanie zdolności kredytowej osób fizycznych w banku komercyjnym

Departament Kredytów Banku komercyjnego przeprowadził przykładową ankietę 30 swoich klientów (jednostki). Na podstawie danych przedanalizowanych kredytobiorcy oszacowano na sześciu wskaźnikach (tabela 4.2.1):

X1 - kredytobiorca wziął wcześniej pożyczkę w bankach komercyjnych;

X2 - Średni miesięczny dochód rodziny kredytobiorcy, tysiącami rubli;

X3 - termin (okres) spłaty pożyczki, lat;

X4 - wielkość pożyczki wydanej, tysiąc rubli;

X5 - skład rodziny kredytobiorcy, ludzie;

X6 - Wiek kredytobiorcy, lat.

Jednocześnie określono trzy grupy kredytobiorców z prawdopodobieństwem zwrotu pożyczki:

§ Grupa 1 - niskie prawdopodobieństwo spłaty pożyczki;

§ Grupa 2 - ze średnim prawdopodobieństwem spłaty pożyczki;

§ Grupa 3 - z dużym prawdopodobieństwem spłaty pożyczki.

Wymaga:

Na podstawie analizy dyskryminacyjnej przy użyciu pakietu SPSS konieczne jest klasyfikację trzech klientów bankowych (dzięki prawdopodobieństwu spłaty pożyczki), tj. Ocenić przynależność każdego z nich do jednej z trzech grup. Zgodnie z obliczeniem jest istotna, aby zbudować znaczące funkcje dyskryminujące, ich znaczenie do oszacowania według współczynnika Wilx (λ). W przestrzeni dwóch funkcji dyskryminacyjnych dla każdej grupy konstruuj diagramy wzajemnej lokalizacji obserwacji i kombinowanego wykresu. Oceń lokalizację każdego kredytobiorcy na tych diagramach. Wykonać interpretację wyników analizy.

Tabela 4.2.1. Wstępne dane

Postęp:

Aby zbudować analizę dyskryminacyjną, jako zmienną zależną, wybieramy prawdopodobieństwo terminowej spłaty pożyczki przez klienta. Biorąc pod uwagę, że może być niski, średni i wysoki, każda kategoria przypisuje odpowiednią oszacowanie 1,2 i 3.

Niedowartościowe współczynniki kanoniczne funkcji dyskryminujących pokazanych na FIG. 4.2.1, używany do zbudowania równania funkcji dyskryminacyjnych D1 (X), D2 (X):

2.) D2 (x) \u003d

Figa. 4.2.1. Kanoniczne współczynniki funkcji dyskryminujących

Figa. 4.2.2. Lambda Wilksa.

W przypadku współczynnika Wilx (Rys. 4.2.2) dla drugiej funkcji, znacząco więcej niż 0,001, dlatego jest niepraktyczne dla dyskryminacji.

Dane tabeli "Wyniki klasyfikacji" (Rys. 4.2.3) wskazują, że przez 93,3% obserwacji, klasyfikacja przeprowadza się prawidłowo, wysoka dokładność osiąga się w pierwszej i drugiej dokładności (100% i 91,7%), mniej dokładnych wyników uzyskane w trzeciej grupie (88, 9%).

Figa. 4.2.3. Wyniki klasyfikacji

Informacje na temat rzeczywistych i przewidywanych grup dla każdego klienta przedstawiono w tabeli "Statystyki LOT" (Rys. 4.2.4).

W wyniku analizy dyskryminacyjnej przynależności nowych klientów banku do podzbioru szkoleniowego M3 - pierwszego, drugiego i trzeciego klienta (numer seryjny 31, 32, 33) przypisuje się podzbiór m3 z odpowiednim Prawdopodobieństwa 99%, 99% i 100%.

Numer obserwacji

Rzeczywista grupa

Grupa uchwytowa

Przewidywana grupa

niewyraźny

niewyraźny

niewyraźny

Figa. 4.2.4. Statystyki wyjściowe.

Prawdopodobieństwo spłaty pożyczki

Figa. 4.2.5. Funkcje w grupach grupowych

Współrzędne centroidów według grup znajdują się w tabeli "Funkcje w grupie ogólnej" (Rys. 4.2.5). Są one używane do zastosowania centroidów do karty percepcyjnej (Rys. 4.2.6).

Pole "karty terytorialnej" jest podzielone przez funkcje dyskryminujące na trzy obszary: po lewej stronie głównie obserwuje pierwszą grupę klientów o bardzo niskim prawdopodobieństwie spłaty pożyczki, w prawej części trzeciej grupy za pomocą duże prawdopodobieństwo, w grupie Klientów w średnim drugiej, odpowiednio średnie prawdopodobieństwo zwrotu pożyczki.

Na rys. 4.2.7 (A - C) odzwierciedla lokalizację klientów każdej z trzech grup w płaszczyźnie dwóch funkcji dyskryminacyjnych D1 (X) i D2 (X). Zgodnie z tymi grafiką, możliwe jest przeprowadzenie szczegółowej analizy prawdopodobieństwa spłaty pożyczki w każdej grupie, aby ocenić charakter dystrybucji klientów i ocenić stopień ich oddalenia z odpowiedniego środka centroidu.

Figa. 4.2.6. Mapa percepcji dla trzech funkcji dyskryminacyjnych D1 (X) i D2 (X) (* - Grupa Centroidowa)

Również na rys. 4.2.7 (d) W tym samym układzie współrzędnych, połączone harmonogram dystrybucji wszystkich grup klientów jest podawany wraz z jego centroidami; Może być używany do przeprowadzenia porównawczej analizy wizualnej charakteru wzajemnej lokalizacji Grupy Klienta Banku o różnych prawdopodobieństwach spłaty kredytowej. Po lewej stronie wykresu istnieją kredytobiorcy z dużym prawdopodobieństwem spłaty kredytu, po prawej - z niską, a w środkowej części - ze średnim prawdopodobieństwem. Ponieważ zgodnie z wynikami obliczeń, druga dyskryminowana funkcja D2 (X) była nieznaczna, wówczas różnice we współrzędnych środków centroidów wzdłuż tej osi są nieznaczne.

Figa. 4.2.7. Lokalizacja obserwacji na płaszczyźnie dwóch funkcji dyskryminujących dla grup o niskiej (a), średnie (b), wysoki (c) prawdopodobieństwo spłaty pożyczki i dla wszystkich grup (g)

Bibliografia

1. "wielowymiarowa analiza statystyczna w zadaniach gospodarczych. Symulacja komputerowa w SPSS ", 2009

2. Orlov A.I. "Statystyki stosowane" M.: Wydawnictwo "Egzamin", 2004

3. Fisher R.a. "Metody statystyczne naukowców", 1954

4. Kalinina V.N., Soloviev V.I. "Wprowadzenie do wielowymiarowej analizy statystycznej" Guide, 2003 samouczek;

5. Akhim Büul, Peter Tsofel, "SPSS: Informacje o przetwarzaniu Art" Diasoft Diasoft, 2005;

6. http://ru.wikipedia.org/wiki.

Udostępnij znajomym lub zapisz dla siebie:

Ładowanie...