Współczynnik korelacji 1 oznacza. Jak obliczyć współczynnik korelacji liniowej

Analiza regresji pozwala oszacować jak jedna zmienna zależy od drugiej oraz jaki jest rozrzut wartości zmiennej zależnej wokół prostej określającej zależność. Te oszacowania i związane z nimi przedziały ufności przewidują wartość zmiennej zależnej i określają dokładność tej prognozy.

wyniki Analiza regresji można przedstawić jedynie w dość złożonej formie cyfrowej lub graficznej. Często jednak interesuje nas nie przewidywanie wartości jednej zmiennej przez wartość innej, ale po prostu charakterystyka ścisłości (siły) połączenia między nimi, wyrażona jednocześnie jedną liczbą.

Ta cecha nazywana jest współczynnikiem korelacji, zwykle oznaczana jest literą g. Współczynnik korelacji wynosi

Może przyjmować wartości od -1 do +1. Znak współczynnika korelacji wskazuje kierunek połączenia (do przodu lub do tyłu), a wartość bezwzględną - szczelność połączenia. Współczynnik równy -1 definiuje związek, który jest tak ścisły, jak jeden równy 1. W przypadku braku związku współczynnik korelacji wynosi zero.

Na ryc. Rysunek 8.10 pokazuje przykłady zależności i odpowiadające im wartości r. Rozważymy dwa współczynniki korelacji.

Współczynnik korelacji Pearsona ma na celu opisanie komunikacja liniowa cechy ilościowe; jak regresja
analizy, wymaga rozkładu normalnego. Kiedy mówimy po prostu o „współczynniku korelacji”, prawie zawsze mamy na myśli współczynnik korelacji Pearsona i dokładnie to zrobimy.

Współczynnik korelacji rang Spearmana może być stosowany, gdy zależność jest nieliniowa, i to nie tylko dla cech ilościowych, ale także dla cech porządkowych. Jest to metoda nieparametryczna i nie wymaga żadnego szczególnego typu dystrybucji.

O znakach ilościowych, jakościowych i porządkowych mówiliśmy już w Ch. 5. Cechy ilościowe to wspólne dane liczbowe, takie jak wzrost, waga, temperatura. Wartości cechy ilościowej można ze sobą porównać i powiedzieć, która z nich jest większa, ile i ile razy. Na przykład, jeśli jeden Marsjanin waży 15 g, a drugi 10, to pierwszy jest cięższy niż drugi i półtora raza i 5 g. ile razy. W medycynie znaki porządkowe są dość powszechne. Na przykład wyniki wymazu cytologicznego z pochwy ocenia się według następującej skali: 1) normalna, 2) łagodna dysplazja, 3) umiarkowana dysplazja, 4) ciężka dysplazja, 5) rak in situ. Zarówno znaki ilościowe, jak i porządkowe można ułożyć w kolejności - na tym własność wspólna ustalono dużą grupę kryteriów nieparametrycznych, w tym współczynnik korelacji rang Spearmana. Z innymi kryteriami nieparametrycznymi zapoznamy się w rozdz. 10.

Współczynnik korelacji Pearsona

A jednak, dlaczego nie można użyć analizy regresji do opisania ścisłości relacji? Resztowe odchylenie standardowe można wykorzystać jako miarę ścisłości związku. Jeśli jednak zamienimy miejscami zmiennych zależnych i niezależnych, to odchylenie standardowe reszt, podobnie jak inne wskaźniki analizy regresji, będzie inne.

Spójrz na ryc. 8.11. Na podstawie próbki 10 znanych nam Marsjan skonstruowano dwie linie regresji. W jednym przypadku waga jest zmienną zależną, w drugim jest zmienną niezależną. Linie regresji są wyraźnie różne



20

Jeśli zamienisz x i y, równanie regresji będzie inne, ale współczynnik korelacji pozostanie taki sam.

są oczekiwane. Okazuje się, że związek między wzrostem a wagą jest jeden, a waga z wzrostem jest inna. Asymetria analizy regresji sprawia, że ​​trudno jest użyć jej bezpośrednio do scharakteryzowania siły związku. Współczynnik korelacji, choć jego idea wywodzi się z analizy regresji, jest wolny od tej wady. Podajemy formułę.

r Y (X - X) (Y - Y)

& ((- X) S (y - Y) 2 "

gdzie X i Y to średnie wartości zmiennych X i Y. Wyrażenie na r "symetrycznie" - zmieniając miejsca X i Y, otrzymujemy tę samą wartość. Współczynnik korelacji przyjmuje wartości od -1 do +1. Im bliższy związek, tym większa wartość bezwzględna współczynnika korelacji. Znak wskazuje kierunek komunikacji. Dla r> 0 mówią o bezpośredniej korelacji (przy wzroście jednej zmiennej druga również rośnie), dla r Weźmy przykład z 10 Marsjanami, co już rozważaliśmy z punktu widzenia analizy regresji. Obliczmy współczynnik korelacji. Dane początkowe i pośrednie wyniki obliczeń przedstawiono w tabeli. 8.3. Wielkość próbki n = 10, średnia wysokość

X = £ X / n = 369/10 = 36,9 i waga Y = £ Y / n = 103,8 / 10 = 10,38.

Znajdujemy U - X) (Y - Y) = 99,9, U - X) 2 = 224,8, £ (Y - Y) 2 = 51,9.

Otrzymane wartości podstawiamy do wzoru na współczynnik korelacji:

224,8 x 51,9 ''

Wartość r jest bliska 1, co wskazuje na ścisły związek między wzrostem a wagą. Aby lepiej zorientować się, który współczynnik korelacji należy uznać za duży, a który za nieistotny, spójrz

Tabela 8.3. Obliczanie współczynnika korelacji
x Y X-X Y–Y (X–X) (Y–Y) (X-X) 2 (T-Y) 2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


te na stole. 8.4 - pokazuje współczynniki korelacji dla przykładów, które omówiliśmy wcześniej.

Związek między regresją a korelacją

Pierwotnie wykorzystaliśmy wszystkie przykłady współczynników korelacji (tabela 8.4) do skonstruowania linii regresji. Rzeczywiście, istnieje ścisły związek między współczynnikiem korelacji a parametrami analizy regresji, którą teraz zademonstrujemy. Różne sposoby prezentowania współczynnika korelacji, które otrzymamy w tym samym czasie, pozwolą lepiej zrozumieć znaczenie tego wskaźnika.

Przypomnijmy, że równanie regresji ma na celu zminimalizowanie sumy kwadratów odchyleń od linii regresji.


Oznaczmy tę minimalną sumę kwadratów jako S (wartość ta nazywa się resztową sumą kwadratów). Suma kwadratów odchyleń wartości zmiennej zależnej Y od jej średniej Y będzie oznaczona przez S ^. Następnie:

Wielkość r2 nazywana jest współczynnikiem determinacji - jest to po prostu kwadrat współczynnika korelacji. Współczynnik determinacji pokazuje siłę połączenia, ale nie jego kierunek.

Z powyższego wzoru widać, że jeśli wartości zmiennej zależnej leżą na linii regresji, to S = 0, a więc r = +1 lub r = -1, czyli istnieje zależność liniowa między zmienną zależną i niezależną. Dowolna wartość zmiennej niezależnej może służyć do dokładnego przewidywania wartości zmiennej zależnej. Wręcz przeciwnie, jeśli zmienne w ogóle nie są ze sobą powiązane, to Soci = SofSisi Potem r = 0.

Widać też, że współczynnik determinacji jest równy tej części całkowitej wariancji S^, która jest spowodowana lub, jak mówią, wyjaśniona regresją liniową.

Resztowa suma kwadratów S jest powiązana z wariancją resztową s2y \ x relacją Socj = (n - 2) s ^, a całkowita suma kwadratów S ^ z wariancją s2 relacją S ^ = (n - 1) s2. W tym przypadku

r2 = 1 _ n _ 2 sy \ x n _1 sy

Wzór ten pozwala ocenić zależność współczynnika korelacji od proporcji wariancji resztowej w wariancji całkowitej

six / s2y Im mniejsza proporcja, tym większy (w wartości bezwzględnej) współczynnik korelacji i odwrotnie.

Zadbaliśmy o to, aby współczynnik korelacji odzwierciedlał ścisłość liniowej zależności zmiennych. Natomiast, jeśli chodzi o przewidywanie wartości jednej zmiennej na podstawie wartości innej, on
współczynnik korelacji nie powinien być nadmiernie zależny. Na przykład dane na ryc. 8,7 odpowiada bardzo wysokiemu współczynnikowi korelacji (r=0,92), jednak szerokość obszaru ufności wartości pokazuje, że niepewność predykcji jest dość znaczna. Dlatego nawet przy dużym współczynniku korelacji należy obliczyć obszar ufności.


Na koniec przedstawiamy stosunek współczynnika korelacji do współczynnika nachylenia prostej regresji b:

gdzie b jest nachyleniem linii regresji, sx i sY są odchyleniami standardowymi zmiennych.

Jeśli nie weźmiemy pod uwagę przypadku sx = 0, to współczynnik korelacji wynosi zero wtedy i tylko wtedy, gdy b = 0. Teraz wykorzystamy ten fakt do oceny statystycznej istotności korelacji.

Statystyczna istotność korelacji

Ponieważ b = 0 implikuje r = 0, hipoteza braku korelacji jest równoważna hipotezie o zerowym nachyleniu linii regresji. Dlatego, aby ocenić statystyczną istotność korelacji, możemy użyć znanego nam wzoru do oceny statystycznej istotności różnicy między b i zerem:

Tutaj liczba stopni swobody v = n - 2. Jeśli jednak współczynnik korelacji został już obliczony, wygodniej jest zastosować wzór:

Liczba stopni swobody tutaj również wynosi v = n - 2.

Z zewnętrzną odmiennością tych dwóch wzorów na t są one identyczne. Rzeczywiście, z faktu, że


r 2 _ 1 - n_ 2 Sy] x_

Podstawienie sy ^ x we ​​wzorze błędu standardowego

Tłuszcz zwierzęcy i rak piersi

Badania na zwierzętach laboratoryjnych wykazały, że wysoka zawartość tłuszczu zwierzęcego w diecie zwiększa ryzyko raka piersi. Czy to uzależnienie obserwuje się u ludzi? K. Carroll zebrał dane na temat spożycia tłuszczów zwierzęcych i śmiertelności z powodu raka piersi dla 39 krajów. Wynik pokazano na ryc. 8.12A. Współczynnik korelacji między spożyciem tłuszczu zwierzęcego a śmiertelnością z powodu raka piersi wyniósł 0,90. Oszacujmy istotność statystyczną korelacji.

0,90 1 - 0,902 39 - 2

Wartość krytyczna t przy liczbie stopni swobody v = 39 - 2 = 37 jest równa 3,574, czyli mniej niż uzyskana przez nas. Zatem przy poziomie istotności 0,001 można argumentować, że istnieje korelacja między spożyciem tłuszczów zwierzęcych a śmiertelnością z powodu raka piersi.

Sprawdźmy teraz, czy śmiertelność jest związana ze spożyciem tłuszczów roślinnych? Odpowiednie dane pokazano na ryc. 8.12B. Współczynnik korelacji wynosi 0,15. Następnie

1 - 0,152 39 - 2

Nawet na poziomie istotności 0,10 obliczona wartość t jest mniejsza niż wartość krytyczna. Korelacja nie jest istotna statystycznie.

Współczynnik korelacji to stopień powiązania między dwiema zmiennymi. Jego obliczenie daje wyobrażenie o tym, czy istnieje związek między dwoma zestawami danych. W przeciwieństwie do regresji korelacja nie przewiduje wartości wielkości. Jednak obliczenie współczynnika jest ważnym etapem wstępnym Analiza statystyczna... Na przykład stwierdziliśmy, że współczynnik korelacji między poziomem bezpośrednich inwestycji zagranicznych a tempem wzrostu PKB jest wysoki. Daje nam to wyobrażenie, że aby zapewnić dobrobyt, konieczne jest stworzenie przyjaznego klimatu specjalnie dla zagranicznych przedsiębiorców. Na pierwszy rzut oka nie taki oczywisty wniosek!

Korelacja i przyczynowość

Być może nie ma ani jednej sfery statystyki, która byłaby tak mocno zakorzeniona w naszym życiu. Współczynnik korelacji jest stosowany we wszystkich obszarach wiedzy publicznej. Jego główne niebezpieczeństwo polega na tym, że często spekuluje się jego wysokie wartości, aby przekonać ludzi i skłonić ich do pewnych wniosków. Jednak w rzeczywistości silna korelacja wcale nie wskazuje na związek przyczynowy między wielkościami.

Współczynnik korelacji: wzór Pearsona i Spearmana

Istnieje kilka głównych wskaźników charakteryzujących związek między dwiema zmiennymi. Historycznie pierwszy to współczynnik korelacji liniowej Pearsona. Odbywa się w szkole. Został opracowany przez K. Pearsona i J. Youla na podstawie prac ks. Galtona. Ten stosunek pozwala zobaczyć związek między liczby wymierne które zmieniają się racjonalnie. Jest zawsze większa niż -1 i mniejsza niż 1. Liczba ujemna wskazuje na odwrotną zależność. Jeśli współczynnik wynosi zero, to nie ma związku między zmiennymi. Kruk Liczba dodatnia- odbywa się bezpośrednio stosunek proporcjonalny między badanymi ilościami. Współczynnik korelacji rang Spearmana upraszcza obliczenia, budując hierarchię wartości zmiennych.

Relacje między zmiennymi

Korelacja pomaga odpowiedzieć na dwa pytania. Pierwszy to związek między zmiennymi dodatnimi lub ujemnymi. Po drugie, jak silne jest uzależnienie. Analiza korelacji to potężne narzędzie, dzięki któremu możesz uzyskać te ważne informacje. Łatwo zauważyć, że dochody i wydatki gospodarstw domowych proporcjonalnie spadają i rosną. Ten związek jest uważany za pozytywny. Wręcz przeciwnie, gdy cena produktu rośnie, popyt na niego spada. Ta relacja nazywana jest negatywną. Wartości współczynników korelacji mieszczą się w przedziale od -1 do 1. Zero oznacza brak związku pomiędzy badanymi wartościami. Im bliżej wartości skrajnych jest otrzymany wskaźnik, tym silniejsza zależność (ujemna lub dodatnia). O braku zależności świadczy współczynnik od -0,1 do 0,1. Należy rozumieć, że taka wartość wskazuje jedynie na brak połączenia liniowego.

Funkcje aplikacji

Zastosowanie obu wskaźników wiąże się z pewnymi założeniami. Po pierwsze, obecność silnego wiązania nie prowadzi do tego, że jedna wielkość determinuje drugą. Równie dobrze może istnieć trzecia wielkość, która definiuje każdy z nich. Po drugie, wysoki współczynnik korelacji Pearsona nie wskazuje na związek przyczynowy między badanymi zmiennymi. Po trzecie, pokazuje niezwykle liniową zależność. Korelację można wykorzystać do oceny znaczących danych ilościowych (np. ciśnienie atmosferyczne temperatura), a nie kategorie takie jak płeć czy ulubiony kolor.

Współczynnik korelacji wielokrotnej

Pearson i Spearman zbadali związek między tymi dwiema zmiennymi. Ale jak postępować, jeśli jest ich trzy lub nawet więcej. Tutaj pojawia się współczynnik korelacji wielokrotnej. Na przykład na produkt narodowy brutto wpływają nie tylko bezpośrednie inwestycje zagraniczne, ale także polityka monetarna i fiskalna państwa oraz poziom eksportu. Tempo wzrostu i wielkość PKB są wypadkową interakcji wielu czynników. Należy jednak rozumieć, że model korelacji wielokrotnej opiera się na wielu uproszczeniach i założeniach. Po pierwsze, eliminowana jest współliniowość między wielkościami. Po drugie, związek między zmiennymi zależnymi i wpływającymi jest uważany za liniowy.

Obszary zastosowania analizy korelacji i regresji

Ta metoda znajdowania zależności między wartościami jest szeroko stosowana w statystyce. Najczęściej stosuje się go w trzech głównych przypadkach:

  1. Aby przetestować związek przyczynowy między wartościami dwóch zmiennych. W rezultacie badacz ma nadzieję znaleźć zależność liniową i wyprowadzić wzór opisujący te relacje między wielkościami. Ich jednostki miary mogą być różne.
  2. Aby sprawdzić, czy istnieje związek między wartościami. W takim przypadku nikt nie określa, która zmienna jest zależna. Może się okazać, że o wartości obu wielkości decyduje inny czynnik.
  3. Aby wyprowadzić równanie. W takim przypadku możesz po prostu podstawić do niego liczby i poznać wartości nieznanej zmiennej.

Mężczyzna w poszukiwaniu związku przyczynowego

Świadomość jest zaaranżowana w taki sposób, że zdecydowanie musimy wyjaśniać wydarzenia, które dzieją się wokół. Człowiek zawsze szuka związku między obrazem świata, w którym żyje, a otrzymywanymi informacjami. Często mózg tworzy porządek z chaosu. Z łatwością dostrzega związek przyczynowy tam, gdzie go nie ma. Naukowcy muszą specjalnie nauczyć się przezwyciężać tę tendencję. Umiejętność obiektywnej oceny powiązań między danymi jest niezbędna w karierze akademickiej.

Stronniczość mediów

Zastanów się, jak obecność korelacji może zostać błędnie zinterpretowana. Grupa Brytyjscy studenci ze złym zachowaniem pytano, czy ich rodzice palili. Następnie test został opublikowany w gazecie. Wyniki wykazały silną korelację między paleniem przez rodziców a przestępczością ich dzieci. Prowadzący to badanie profesor zasugerował nawet umieszczenie ostrzeżenia na paczkach papierosów. Z tym wnioskiem wiąże się jednak szereg problemów. Po pierwsze, korelacja nie wskazuje, która z wielkości jest niezależna. Można więc przyjąć, że uzależnienie rodziców jest spowodowane nieposłuszeństwem dzieci. Po drugie, nie można z całą pewnością stwierdzić, że oba problemy nie pojawiły się z powodu jakiegoś trzeciego czynnika. Na przykład rodziny o niskich dochodach. Należy zwrócić uwagę na emocjonalny aspekt wstępnych ustaleń profesora, który prowadził badania. Był zagorzałym przeciwnikiem palenia. Nic więc dziwnego, że w ten sposób zinterpretował wyniki swoich badań.

wnioski

Błędna interpretacja korelacji jako związku przyczynowego między dwiema zmiennymi może prowadzić do kłopotliwych błędów badawczych. Problem polega na tym, że leży ona w samym rdzeniu ludzkiej świadomości. Wiele sztuczek marketingowych opiera się na tej funkcji. Zrozumienie różnicy między przyczynowością a korelacją pozwala na racjonalną analizę informacji, jak w Życie codzienne i w karierze zawodowej.

Współczynnik korelacji Jest wartością, która może wahać się od +1 do –1. W przypadku całkowitej korelacji dodatniej współczynnik ten wynosi plus 1 (mówią, że wraz ze wzrostem wartości jednej zmiennej wzrasta wartość innej zmiennej), a przy całkowitej korelacji ujemnej minus 1 (wskazują sprzężenia zwrotnego, czyli wraz ze wzrostem wartości jednej zmiennej wartości drugiej maleją).

Ex1.:

Wykres zależności nieśmiałości i dyplomacji. Jak widać, punkty (obiekty) nie są rozmieszczone chaotycznie, ale są ułożone wokół jednej linii i patrząc na tę linię możemy powiedzieć, że im wyższa jest wyrażana nieśmiałość danej osoby, tym większa depresja, czyli te zjawiska są ze sobą powiązane.

Ex2 .: Harmonogram nieśmiałości i towarzyskości. Widzimy, że wraz ze wzrostem nieśmiałości maleje towarzyskość. Ich współczynnik korelacji wynosi -0,43. Zatem współczynnik korelacji większy od 0 do 1 wskazuje na zależność wprost proporcjonalną (im więcej... tym więcej...), a współczynnik od -1 do 0 wskazuje na zależność odwrotną proporcjonalną (im więcej... tym mniej). ...)

Jeśli współczynnik korelacji wynosi 0, obie zmienne są od siebie całkowicie niezależne.

Łącze korelacji- jest to zależność, w której wpływ poszczególnych czynników przejawia się jedynie jako trend (średnio) w masowej obserwacji danych rzeczywistych. Przykładem zależności korelacyjnej może być zależność między wielkością aktywów banku a wysokością zysku banku, wzrostem wydajności pracy i stażem pracy pracowników.

Stosowane są dwa systemy klasyfikacji korelacji według ich siły: ogólny i szczegółowy.

Ogólna klasyfikacja korelacji: 1) silne lub bliskie o współczynniku korelacji r> 0,70, 2) średnia 0,500,70, a nie tylko korelacja wysoki poziom znaczenie.

Poniższa tabela zawiera nazwy współczynników korelacji dla różnych typów skal.

Skala dychotomiczna (1/0) Skala rangowa (porządkowa)
Skala dychotomiczna (1/0) Współczynnik asocjacji Pearsona, współczynnik koniugacji czterokomórkowej Pearsona. Korelacja biserialna
Skala rangowa (porządkowa) Korelacja rang-biserial. Współczynnik korelacji rang Spearmana lub Kendalla.
Skala interwałowa i bezwzględna Korelacja biserialna Wartości skali interwałowej są konwertowane na rangi i stosowany jest współczynnik rangi Współczynnik korelacji Pearsona (współczynnik korelacji liniowej)

Na r=0 nie ma korelacji liniowej. W tym przypadku średnie grupowe zmiennych pokrywają się z ich średnimi ogólnymi, a linie regresji są równoległe do osi współrzędnych.

Równość r=0 mówi tylko o braku zależności korelacji liniowej (zmienne nieskorelowane), ale ogólnie nie o braku korelacji, a tym bardziej zależności statystycznej.

Czasami wniosek, że nie ma korelacji, jest ważniejszy niż obecność silnej korelacji. Zerowa korelacja między dwiema zmiennymi może świadczyć o braku wpływu jednej zmiennej na drugą, pod warunkiem, że ufamy wynikom pomiarów.

W SPSS: 11.3.2 Współczynniki korelacji

Do tej pory wyjaśniliśmy jedynie sam fakt istnienia statystycznej zależności między tymi dwiema cechami. Następnie spróbujemy dowiedzieć się, jakie wnioski można wyciągnąć na temat siły lub słabości tej zależności, a także jej rodzaju i kierunku. Kryteria kwantyfikacji związku między zmiennymi nazywane są współczynnikami korelacji lub miarami łączności. Dwie zmienne są ze sobą dodatnio skorelowane, jeśli istnieje między nimi bezpośredni, jednokierunkowy związek. W relacji jednokierunkowej małe wartości jednej zmiennej odpowiadają małym wartościom innej zmiennej, duże wartości odpowiadają dużym. Dwie zmienne są ze sobą ujemnie skorelowane, jeśli istnieje między nimi odwrotna, wielokierunkowa zależność. W relacji wielokierunkowej małe wartości jednej zmiennej odpowiadają dużym wartościom innej zmiennej i odwrotnie. Wartości współczynników korelacji zawsze mieszczą się w przedziale od -1 do +1.

Współczynnik Spearmana jest używany jako współczynnik korelacji między zmiennymi należącymi do skali porządkowej, a współczynnik korelacji Pearsona (moment produktów) dla zmiennych należących do skali interwałowej. Należy pamiętać, że każdą zmienną dychotomiczną, czyli zmienną należącą do skali nominalnej i posiadającą dwie kategorie, można uznać za porządkową.

Najpierw sprawdzimy, czy istnieje korelacja między zmiennymi płci i psychiki z pliku studium.sav. W tym przypadku weźmiemy pod uwagę, że dychotomiczną zmienną płeć można uznać za liczbę porządkową. Wykonaj następujące kroki:

Wybierz Tabele przestawne... z paska poleceń Analizuj

· Przenieś zmienną sex na listę stringów, a zmienną psyche na listę kolumn.

· Kliknij przycisk Statystyka.... W oknie dialogowym Tabele przestawne: Statystyka zaznacz pole Korelacje. Potwierdź swój wybór przyciskiem Kontynuuj.

· W oknie dialogowym Tabele przestawne nie wyprowadzaj tabel, zaznaczając pole wyboru Pomiń tabele. Kliknij przycisk OK.

Obliczone zostaną współczynniki korelacji Spearmana i Pearsona, a ich istotność zostanie sprawdzona:

/ SPSS 10

Zadanie nr 10 Analiza korelacji

Koncepcja korelacji

Korelacja lub współczynnik korelacji jest miarą statystyczną probabilistyczny relacje między dwiema zmiennymi, mierzone na skalach ilościowych. W przeciwieństwie do zależności funkcjonalnej, w której każda wartość jednej zmiennej odpowiada ściśle określone wartość innej zmiennej, połączenie probabilistyczne charakteryzuje się tym, że każdej wartości jednej zmiennej odpowiada wiele znaczeń Kolejna zmienna, Przykładem związku probabilistycznego jest związek między wzrostem a wagą osób. Oczywiste jest, że osoby o różnej wadze mogą mieć ten sam wzrost i odwrotnie.

Korelacja jest wartością z przedziału od -1 do + 1 i jest oznaczona literą r. Co więcej, jeśli wartość jest bliższa 1, oznacza to obecność silnego wiązania, a jeśli bliższa 0, to słabe. Wartość korelacji poniżej 0,2 uważana jest za słabą korelację, powyżej 0,5 za wysoką. Jeżeli współczynnik korelacji jest ujemny, oznacza to sprzężenie zwrotne: im wyższa wartość jednej zmiennej, tym niższa wartość drugiej.

W zależności od przyjętych wartości współczynnika r można wyróżnić różne rodzaje korelacji:

Silna pozytywna korelacja jest określona przez wartość r = 1. Termin „ścisły” oznacza, że ​​wartość jednej zmiennej jest jednoznacznie określona przez wartości innej zmiennej, a termin „ pozytywny "-że wraz ze wzrostem wartości jednego zmienna wartość druga zmienna również rośnie.

Silna korelacja to abstrakcja matematyczna i praktycznie nie występuje w prawdziwych badaniach.

Pozytywna korelacja odpowiada wartościom 0

Brak korelacji jest określona przez wartość r = 0. Zerowy współczynnik korelacji oznacza, że ​​wartości zmiennych nie są w żaden sposób powiązane.

Brak korelacji h o : 0 r xy =0 sformułowane jako odbicie zero hipotezy w analizie korelacji.

Ujemna korelacja: -1

Silna negatywna korelacja jest określona przez wartość r = -1. Jest to, podobnie jak ścisła korelacja pozytywna, abstrakcja i nie znajduje wyrazu w badaniach praktycznych.

Tabela 1

Rodzaje korelacji i ich definicje

Sposób obliczania współczynnika korelacji zależy od rodzaju skali, za pomocą której mierzone są wartości zmiennej.

Współczynnik korelacji rosoba jest podstawowy i może być stosowany dla zmiennych o nominalnych i częściowo uporządkowanych skalach przedziałowych, których rozkład wartości odpowiada normalnemu (korelacja momentów iloczynu). Współczynnik korelacji Pearsona daje dość dokładne wyniki w przypadkach nienormalnych rozkładów.

W przypadku rozkładów, które nie są normalne, zaleca się stosowanie współczynników korelacji rang Spearmana i Kendalla. Są one klasyfikowane, ponieważ program wstępnie klasyfikuje skorelowane zmienne.

Program SPSS oblicza korelację rSpeaker w następujący sposób: najpierw zmienne są tłumaczone na rangi, a następnie do rang stosowany jest wzór Pearsona.

Korelacja zaproponowana przez M. Kendalla opiera się na założeniu, że kierunek połączenia można ocenić porównując parami ze sobą podmioty. Jeśli dla pary podmiotów zmiana X pokrywa się w kierunku, a zmiana Y zbiega się, oznacza to pozytywną zależność. Jeśli nie pasuje, to o negatywnym związku. Współczynnik ten jest używany głównie przez psychologów pracujących na małych próbach. Ponieważ socjologowie pracują z dużymi ilościami danych, trudno jest wyliczyć pary, zidentyfikować różnicę we względnych częstościach i inwersjach wszystkich par badanych w próbie. Najczęstsze są kursy. Osoba.

Ponieważ współczynnik korelacji rPirson jest współczynnikiem głównym i może być stosowany (z pewnym błędem zależnym od rodzaju skali i poziomu nieprawidłowości w rozkładzie) dla wszystkich zmiennych mierzonych na skalach ilościowych, rozważymy przykłady jego zastosowania i porównamy wyniki uzyskane z wynikami pomiarów dla innych współczynników korelacji.

Wzór na obliczenie współczynnika r- Osoba:

r xy = ∑ (Xi-Xav) ∙ (Yi-Yav) / (N-1) ∙ σ x ∙ σ y ∙

Gdzie: Xi, Yi- Wartości dwóch zmiennych;

Xср, Yср - średnie wartości dwóch zmiennych;

σ x, σ y - odchylenia standardowe,

N to liczba obserwacji.

Korelacje parami

Na przykład chcielibyśmy dowiedzieć się, w jaki sposób odpowiedzi odnoszą się między Różne rodzaje tradycyjne wartości w wyobrażeniach uczniów o idealnym miejscu pracy (zmienne: a9.1, a9.3, a9.5, a9.7), a następnie o stosunku wartości liberalnych (a9.2, a9 .4, a9.6, a9.osiem) . Zmienne te są mierzone na 5-okresowych skalach uporządkowanych.

Stosujemy procedurę: „Analiza”,  „Korelacje”,  „Sparowane”. Domyślnie coeff. Pearson jest zainstalowany w oknie dialogowym. Używamy współczynnika. osoba

Badane zmienne są przenoszone do okna wyboru: a9.1, a9.3, a9.5, a9.7

Klikając OK otrzymujemy kalkulację:

Korelacje

a9.1.t. Jak ważna jest wystarczająca ilość czasu na życie rodzinne i osobiste?

Korelacja Pearsona

Zn (2-stronny)

a9.3.t. Jak ważne jest, aby nie bać się utraty pracy?

Korelacja Pearsona

Zn (2-stronny)

a9.5.t. Jak ważne jest posiadanie szefa, który skonsultuje się z tobą przy podejmowaniu tej czy innej decyzji?

Korelacja Pearsona

Zn (2-stronny)

a9.7.t. Jak ważna jest praca w zgranym zespole, aby czuć się jego częścią?

Korelacja Pearsona

Zn (2-stronny)

** Korelacja jest istotna przy 0,01 (dwustronnie).

Tabela wartości ilościowych skonstruowanej macierzy korelacji

Korelacje cząstkowe:

Najpierw zbudujmy korelację parami między tymi dwiema zmiennymi:

Korelacje

c8. Poczuj się blisko tych, którzy mieszkają w pobliżu sąsiadów

Korelacja Pearsona

Zn (2-stronny)

c12. Poczuj się blisko swojej rodziny

Korelacja Pearsona

Zn (2-stronny)

**. Korelacja jest istotna na poziomie 0,01 (dwustronna).

Następnie korzystamy z procedury konstruowania korelacji cząstkowej: „Analiza”,  „Korelacje”,  „Prywatne”.

Załóżmy, że wartość „Ważne, aby samodzielnie określić i zmienić kolejność swojej pracy” w odniesieniu do wskazanych zmiennych będzie decydującym czynnikiem, pod wpływem którego wcześniej zidentyfikowana zależność zniknie lub będzie nieistotna.

Korelacje

Wykluczone zmienne

c8. Poczuj się blisko tych, którzy mieszkają w pobliżu sąsiadów

c12. Poczuj się blisko swojej rodziny

c16. Poczuj się blisko ludzi, którzy mają taki sam majątek jak ty

c8. Poczuj się blisko tych, którzy mieszkają w pobliżu sąsiadów

Korelacja

Znaczenie (2-stronne)

c12. Poczuj się blisko swojej rodziny

Korelacja

Znaczenie (2-stronne)

Jak widać z tabeli, pod wpływem zmiennej kontrolnej zależność nieznacznie spadła: z 0,120 do 0,102. Ten niewielki spadek nie pozwala jednak stwierdzić, że wcześniej zidentyfikowana zależność jest odzwierciedleniem fałszywa korelacja, ponieważ pozostaje wystarczająco wysoka i pozwala obalać hipotezę zerową z zerowym błędem.

Współczynnik korelacji

Najdokładniejszym sposobem określenia gęstości i charakteru korelacji jest znalezienie współczynnika korelacji. Współczynnik korelacji to liczba określona wzorem:


gdzie r xy jest współczynnikiem korelacji;

x i -wartości pierwszej cechy;

i -wartości drugiej cechy;

Przeciętny wartości arytmetyczne pierwszy znak

Średnia arytmetyczna wartości drugiej cechy

Aby skorzystać ze wzoru (32), konstruujemy tabelę, która zapewni niezbędną sekwencję przy przygotowywaniu liczb do znalezienia licznika i mianownika współczynnika korelacji.

Jak widać ze wzoru (32), kolejność działań jest następująca: znajdujemy średnie arytmetyczne obu znaków x i y, znajdujemy różnicę między wartościami cechy a jej średnią (x і -) i у і -), następnie znajdujemy ich iloczyn (x і -) ( y i -) - suma ostatniego daje licznik współczynnika korelacji. Aby znaleźć jego mianownik, należy podnieść do kwadratu różnicę (x i -) i (y i -), znaleźć ich sumy i wyciągnąć pierwiastek kwadratowy z ich iloczynu.

Tak więc na przykład 31 znalezienie współczynnika korelacji zgodnie ze wzorem (32) można przedstawić w następujący sposób (tabela 50).

Otrzymana liczba współczynnika korelacji umożliwia ustalenie obecności, szczelności i charakteru związku.

1. Jeżeli współczynnik korelacji wynosi zero, nie ma związku między cechami.

2. Jeżeli współczynnik korelacji jest równy jeden, to zależność między cechami jest tak duża, że ​​przechodzi w funkcjonalną.

3. Wartość bezwzględna współczynnika korelacji nie wykracza poza przedział od zera do jednego:

Pozwala to skupić się na ścisłej relacji: im bliższy zeru współczynnik, tym słabszy związek, a im bliższy jedności, tym bliższy związek.

4. Znak współczynnika korelacji „plus” oznacza korelację bezpośrednią, znak „minus” - odwrotność.

Tabela 50

x ja w ja (x i-) (w ja -) (x i -) (y i -) (x i -) 2 (yi-) 2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Zatem współczynnik korelacji obliczony w przykładzie 31 wynosi r xy = +0,9. pozwala na wyciągnięcie następujących wniosków: istnieje korelacja między wielkością siły mięśni prawej i lewej ręki u badanych uczniów (współczynnik r xy = + 0,9 jest niezerowy), zależność jest bardzo bliska (współczynnik r xy = + 0,9 jest bliski jedności), korelacja jest bezpośrednia (współczynnik r xy = +0,9 dodatni), tj. wraz ze wzrostem siły mięśni jednej ręki siła drugiej ręki rośnie.

Obliczając współczynnik korelacji i wykorzystując jego właściwości, należy wziąć pod uwagę, że wnioski dają prawidłowe wyniki, gdy cechy mają rozkład normalny i gdy uwzględni się zależność między dużą liczbą wartości obu cech.

W rozważanym przykładzie 31 analizowanych jest tylko 7 wartości obu znaków, co oczywiście nie wystarcza do takich badań. W tym miejscu ponownie przypominamy, że przykłady w tej książce ogólnie, a w tym rozdziale w szczególności, mają charakter ilustracji metod, a nie szczegółowej prezentacji jakichkolwiek eksperymenty naukowe... W rezultacie brana jest pod uwagę niewielka liczba wartości cech, pomiary są zaokrąglane - wszystko po to, aby nie zaciemniać idei metody uciążliwymi obliczeniami.

Szczególną uwagę należy zwrócić na istotę rozważanego związku. Współczynnik korelacji nie może prowadzić do poprawnych wyników badań, jeśli analiza związku między cechami zostanie przeprowadzona formalnie. Wróćmy jeszcze raz do przykładu 31. Oba rozważane znaki były wartościami siły mięśni prawej i lewej ręki. Wyobraźmy sobie, że pod znakiem xi w przykładzie 31 (14,0; 14,2; 14,9 ... ... 18,1) mamy na myśli długość przypadkowo złowionej ryby w centymetrach, a pod znakiem y i (12,1 ; 13,8; 14,2 .. ... 17,4) to waga przyrządów w laboratorium w kilogramach. Formalnie posługując się aparatem obliczeniowym do wyznaczenia współczynnika korelacji i otrzymawszy w tym przypadku również r xy = + 0 > 9, musieliśmy dojść do wniosku, że istnieje ścisły związek o charakterze bezpośrednim między długością ryby a masą ryby. urządzenia. Bezsens takiego wniosku jest oczywisty.

Aby uniknąć formalnego podejścia do posługiwania się współczynnikiem korelacji, należy zastosować każdą inną metodę - matematyczną, logiczną, eksperymentalną, teoretyczną - w celu ujawnienia możliwości korelacji między znakami, czyli wykrycia organicznej jedności znaków. Dopiero wtedy można rozpocząć analizę korelacji i ustalić wielkość i charakter relacji.

W statystyce matematycznej istnieje również pojęcie wielokrotna korelacja- związek między trzema lub więcej cechami. W takich przypadkach stosuje się współczynnik korelacji wielokrotnej, składający się z opisanych powyżej współczynników korelacji parami.

Na przykład współczynnik korelacji trzech znaków - x i, i, z i - wynosi:

gdzie R xyz jest współczynnikiem korelacji wielokrotnej, wyrażającym zależność cechy x i od cech y i oraz z i;

r xy jest współczynnikiem korelacji między znakami x i oraz y i;

r xz jest współczynnikiem korelacji między znakami Xi i Zi;

r yz - współczynnik korelacji między cechami y i, z i

Analiza korelacji to:

Analiza korelacji

Korelacja- statystyczny związek dwóch lub więcej zmiennych losowych (lub ilości, które można uznać za takie z pewnym akceptowalnym stopniem dokładności). Co więcej, zmiany jednej lub więcej z tych wartości prowadzą do systematycznej zmiany innej lub innych wartości. Współczynnik korelacji służy jako matematyczna miara korelacji dwóch zmiennych losowych.

Korelacja może być dodatnia i ujemna (możliwa jest również sytuacja, w której nie ma zależności statystycznej – np. dla niezależnych zmiennych losowych). Ujemna korelacja - korelacja, w której wzrost jednej zmiennej wiąże się ze spadkiem innej zmiennej, podczas gdy współczynnik korelacji jest ujemny. Pozytywna korelacja - korelacja, w której wzrost jednej zmiennej wiąże się ze wzrostem innej zmiennej, a współczynnik korelacji jest dodatni.

Autokorelacja - zależność statystyczna między zmiennymi losowymi z tego samego szeregu, ale przyjmowana z przesunięciem np. dla procesu losowego - z przesunięciem w czasie.

Metoda przetwarzania danych statystycznych, polegająca na badaniu współczynników (korelacji) między zmiennymi, nazywa się analiza korelacji.

Współczynnik korelacji

Współczynnik korelacji lub sparowany współczynnik korelacji w teorii prawdopodobieństwa i statystyce jest wskaźnikiem charakteru zmian dwóch zmiennych losowych. Współczynnik korelacji jest oznaczony łacińską literą R i może przyjmować wartości od -1 do +1. Jeżeli wartość bezwzględna jest bliższa 1, oznacza to obecność silnego związku (o współczynniku korelacji równy jeden mówić o funkcjonalnym połączeniu), a jeśli jest bliższy 0, to słaby.

Współczynnik korelacji Pearsona

Dla wartości metrycznych stosuje się współczynnik korelacji Pearsona, którego dokładny wzór wprowadził Francis Galton:

Pozwalać x,Y- dwie zmienne losowe zdefiniowane na tej samej przestrzeni prawdopodobieństwa. Wtedy ich współczynnik korelacji określa wzór:

,

gdzie cov oznacza kowariancję, a D oznacza wariancję lub równoważnie

,

gdzie symbol oznacza oczekiwanie matematyczne.

Aby graficznie przedstawić taką zależność, można użyć prostokątnego układu współrzędnych z osiami, które odpowiadają obu zmiennym. Każda para wartości oznaczona jest określonym symbolem. Taka fabuła nazywana jest „działką punktową”.

Sposób obliczania współczynnika korelacji zależy od rodzaju skali, do której należą zmienne. Do pomiaru zmiennych w skalach interwałowych i ilościowych konieczne jest więc wykorzystanie współczynnika korelacji Pearsona (korelacja momentów pracy). Jeżeli przynajmniej jedna z tych dwóch zmiennych ma skalę porządkową lub nie ma rozkładu normalnego, należy zastosować korelację rang Spearmana lub korelację τ (tau) Kendala. W przypadku, gdy jedna z dwóch zmiennych jest dychotomiczna, stosuje się punktową korelację dwuwierszową, a jeśli obie zmienne są dychotomiczne: czteropolową korelację. Obliczanie współczynnika korelacji między dwiema niedychotomicznymi zmiennymi ma sens tylko wtedy, gdy związek między nimi jest liniowy (jednokierunkowy).

Współczynnik korelacji Kendalla

Używany do pomiaru wzajemnego nieporządku.

Współczynnik korelacji Spearmana

Właściwości współczynnika korelacji

  • Cauchy - nierówność Bunyakowskiego:
jeśli przyjmiemy kowariancję jako iloczyn skalarny dwóch zmiennych losowych, to norma zmienna losowa będzie równy , a konsekwencją nierówności Cauchy'ego - Bunyakowskiego będzie :. , gdzie . Ponadto w tym przypadku znaki i k dopasować: .

Analiza korelacji

Analiza korelacji- sposób przetwarzania danych statystycznych, polegający na badaniu współczynników ( korelacje) między zmiennymi. W tym przypadku współczynniki korelacji są porównywane między jedną parą lub wieloma parami cech w celu ustalenia zależności statystycznych między nimi.

Cel analiza korelacji- podać informacje o jednej zmiennej za pomocą innej zmiennej. W przypadkach, w których możliwe jest osiągnięcie celu, mówią, że zmienne korelat... W samym ogólna perspektywa przyjęcie hipotezy o obecności korelacji oznacza, że ​​zmiana wartości zmiennej A nastąpi jednocześnie z proporcjonalną zmianą wartości B: jeśli obie zmienne rosną, to korelacja jest dodatnia jeśli jedna zmienna rośnie, a druga maleje, korelacja jest ujemna.

Korelacja odzwierciedla jedynie liniową zależność wartości, ale nie odzwierciedla ich funkcjonalnej łączności. Na przykład, jeśli obliczysz współczynnik korelacji między wartościami A = sin(x) oraz b = Cos(x), wtedy będzie bliski zeru, tj. nie ma zależności między wielkościami. Tymczasem wielkości A i B są oczywiście funkcjonalnie powiązane zgodnie z prawem sin 2(x) + Cos 2(x) = 1.

Ograniczenia analizy korelacji



Wykresy rozkładów par (x, y) z odpowiednimi współczynnikami korelacji x i y dla każdej z nich. Zauważ, że współczynnik korelacji odzwierciedla zależność liniową (wiersz górny), ale nie opisuje krzywej zależności (wiersz środkowy) iw ogóle nie nadaje się do opisu złożonych, nieliniowych zależności (wiersz dolny).
  1. Zastosowanie jest możliwe, jeśli istnieje wystarczająca liczba przypadków do badania: dla określonego typu współczynnika korelacji wynosi od 25 do 100 par obserwacji.
  2. Drugie ograniczenie wynika z hipotezy analizy korelacji, która opiera się na: liniowa zależność zmiennych... W wielu przypadkach, gdy wiadomo, że zależność istnieje, analiza korelacji może nie dać wyników tylko dlatego, że zależność jest nieliniowa (wyrażona np. w formie paraboli).
  3. Sam fakt korelacji nie daje podstaw do stwierdzenia, która ze zmiennych poprzedza lub powoduje zmiany lub że zmienne są ogólnie powiązane przyczynowo, np. w wyniku działania trzeciego czynnika.

Obszar zastosowań

Ta metoda przetwarzania danych statystycznych jest bardzo popularna w ekonomii i nauki społeczne(w szczególności w psychologii i socjologii), choć zakres stosowania współczynników korelacji jest szeroki: kontrola jakości wyrobów przemysłowych, metalurgia, agrochemia, hydrobiologia, biometria i inne.

Popularność metody wynika z dwóch punktów: współczynniki korelacji są stosunkowo łatwe do obliczenia, ich zastosowanie nie wymaga specjalnego przygotowania matematycznego. W połączeniu z łatwością interpretacji, łatwość stosowania współczynnika doprowadziła do jego szerokiego zastosowania w dziedzinie statystycznej analizy danych.

Fałszywa korelacja

Często kusząca prostota badań korelacyjnych skłania badacza do wyciągania fałszywych, intuicyjnych wniosków o występowaniu związku przyczynowego między parami znaków, podczas gdy współczynniki korelacji ustalają jedynie związki statystyczne.

We współczesnej metodologii ilościowej nauk społecznych faktycznie odrzucono próby ustalenia związków przyczynowych między obserwowanymi zmiennymi. metody empiryczne... Dlatego też, gdy badacze nauk społecznych mówią o ustaleniu zależności między badanymi zmiennymi, implikuje się albo ogólne założenie teoretyczne, albo zależność statystyczną.

Zobacz też

  • Funkcja autokorelacji
  • Funkcja korelacji krzyżowej
  • Kowariancja
  • Współczynnik determinacji
  • Analiza regresji

Fundacja Wikimedia. 2010.

Korelacja to stopień powiązania między 2 lub więcej niezależnymi zjawiskami.

Korelacja jest pozytywna i negatywna.

Dodatnia korelacja (bezpośrednia) występuje, gdy 2 zmienne zmieniają się jednocześnie w tych samych kierunkach (dodatnim lub ujemnym). Na przykład związek między liczbą użytkowników wchodzących na stronę z wyników wyszukiwania a obciążeniem serwera: im więcej użytkowników, tym większe obciążenie.

Korelacja jest ujemna (odwrotna) jeśli zmiana w jednej wielkości prowadzi do przeciwnej zmiany w innej. Na przykład wraz ze wzrostem obciążeń podatkowych firm maleją ich zyski. Im więcej podatków, tym mniej pieniędzy na rozwój.

Skuteczność korelacji jako narzędzia statystycznego polega na umiejętności wyrażenia związku między dwiema zmiennymi za pomocą współczynnika korelacji.

Współczynnik korelacji (CC) mieści się w zakresie liczb od -1 do 1.

Gdy wartość KK jest równa 1, należy rozumieć, że przy każdej zmianie 1. zmiennej następuje równoważna zmiana 2. zmiennej w tym samym kierunku.


Jeżeli wartość KK wynosi -1, to z każdą zmianą następuje równoważna zmiana drugiej zmiennej w przeciwnym kierunku.


Im korelacja jest bliższa -1 lub 1, tym silniejszy związek między zmiennymi. Gdy wartość wynosi zero (lub jest bliska 0), nie ma znaczącej zależności między dwiema zmiennymi lub jest bardzo minimalna.

Ta metoda przetwarzania informacji statystycznych jest popularna w naukach ekonomicznych, technicznych, społecznych i innych ze względu na prostotę obliczania QC, łatwość interpretacji wyników oraz brak konieczności opanowania matematyki na wysokim poziomie.

Korelacja odzwierciedla jedynie związek między zmiennymi i nie mówi o związkach przyczynowych: dodatnia lub ujemna korelacja między dwiema zmiennymi niekoniecznie oznacza, że ​​zmiana jednej zmiennej powoduje zmianę drugiej.

Np. istnieje dodatnia korelacja między wzrostem wynagrodzeń menedżerów sprzedaży a jakością obsługi klienta (poprawa jakości obsługi, praca z zastrzeżeniami, wiedza pozytywne cechy produkt w porównaniu z konkurencją) przy odpowiedniej motywacji personelu. Wzrost sprzedaży, a co za tym idzie wynagrodzeń menedżerów, nie oznacza, że ​​menedżerowie poprawili jakość pracy z klientami. Jest prawdopodobne, że duże zamówienia przyszły przypadkowo i zostały wysłane, dział marketingu zwiększył budżet reklamowy lub wydarzyło się coś innego.

Być może istnieje jakaś trzecia zmienna, która wpływa na przyczynę obecności lub braku korelacji.

Współczynnik korelacji nie jest obliczany:

  • gdy związek między dwiema zmiennymi nie jest liniowy, na przykład kwadratowy;
  • dane zawierają więcej niż 1 obserwację dla każdego przypadku;
  • zdarzają się anormalne obserwacje (wybuchy, „renegaci”);
  • dane zawierają odrębne podgrupy obserwacji.

KURS PRACA

Temat: Analiza korelacji

Wstęp

1. Analiza korelacji

1.1 Pojęcie korelacji

1.2 Ogólna klasyfikacja korelacji

1.3 Pola korelacji i cel ich budowy

1.4 Etapy analizy korelacji

1.5 Współczynniki korelacji

1.6 Znormalizowany współczynnik korelacji Brave-Pearson

1.7 Współczynnik korelacji rang Spearmana

1.8 Podstawowe własności współczynników korelacji

1.9 Sprawdzanie istotności współczynników korelacji

1.10 Wartości krytyczne współczynnika korelacji par

2. Planowanie eksperymentu na wielu odmianach

2.1 Problem stan

2.2 Określenie środka planu (poziom podstawowy) i poziomu zmienności czynników

2.3 Budowanie macierzy planowania

2.4 Sprawdzanie jednorodności dyspersji i jednorodności pomiaru w różnych seriach

2.5 Współczynniki równania regresji

2.6 Dyspersja odtwarzalności

2.7 Sprawdzanie istotności współczynników równania regresji

2.8 Sprawdzanie adekwatności równania regresji

Wniosek

Bibliografia

WPROWADZANIE

Projektowanie eksperymentów to dyscyplina matematyczno-statystyczna, która bada metody racjonalnej organizacji badanie eksperymentalne- od optymalnego doboru badanych czynników i określenia rzeczywistego planu eksperymentu zgodnie z jego celem, po metody analizy wyników. Początek planowania eksperymentu zapoczątkowały prace angielskiego statystyka R. Fishera (1935), który podkreślał, że racjonalne planowanie eksperymentu daje nie mniej znaczący wzrost dokładności oszacowań niż optymalne przetwarzanie pomiaru wyniki. W latach 60. XX wieku było współczesna teoria planowanie eksperymentu. Jej metody są ściśle związane z teorią aproksymacji funkcji i programowaniem matematycznym. Tworzone są optymalne projekty i badane są ich właściwości dla szerokiej klasy modeli.

Planowanie eksperymentu to wybór planu eksperymentu, który spełnia określone wymagania, zestawu działań mających na celu opracowanie strategii eksperymentu (od uzyskania informacji a priori do uzyskania działającego modelu matematycznego lub określenia optymalnych warunków). Jest to celowa kontrola eksperymentu, która jest realizowana w warunkach niepełnej wiedzy o mechanizmie badanego zjawiska.

W procesie pomiarów, późniejszej obróbki danych, a także formalizacji wyników w postaci modelu matematycznego powstają błędy i część informacji zawartych w danych wyjściowych zostaje utracona. Zastosowanie eksperymentalnych metod planowania pozwala określić błąd modelu matematycznego i ocenić jego adekwatność. Jeżeli dokładność modelu okaże się niewystarczająca, to zastosowanie eksperymentalnych metod planowania pozwala na modernizację modelu matematycznego o dodatkowe eksperymenty bez utraty dotychczasowych informacji i przy minimalnych kosztach.

Celem planowania eksperymentu jest znalezienie takich warunków i zasad przeprowadzania eksperymentów, w których przy najmniejszym nakładzie pracy można uzyskać rzetelną i rzetelną informację o obiekcie, a także przedstawić te informacje w zwartej i wygodnej formie z ilościowym ocena dokładności.

Wśród głównych metod planowania stosowanych w różne etapy badania wykorzystuje:

Planowanie eksperymentu przesiewowego, którego głównym znaczeniem jest wybór z całego zestawu czynników grupy czynników istotnych, które podlegają dalszym szczegółowe studium;

Zaprojektowanie eksperymentu do analizy wariancji, tj. sporządzanie planów obiektów z uwzględnieniem wskaźników jakości;

Planowanie eksperymentu regresji, który pozwala uzyskać modele regresji (wielomian i inne);

Planowanie eksperymentu ekstremalnego, w którym głównym zadaniem jest eksperymentalna optymalizacja obiektu badawczego;

Planowanie w badaniu procesów dynamicznych itp.

Celem studiowania dyscypliny jest przygotowanie studentów do wykonywania czynności produkcyjnych i technicznych w swojej specjalności z wykorzystaniem metod teorii planowania i nowoczesnych Technologie informacyjne.

Cele dyscypliny: nauka nowoczesne metody planowanie, organizowanie i optymalizowanie eksperymentu naukowo-przemysłowego, przeprowadzanie eksperymentów i przetwarzanie uzyskanych wyników.

1. ANALIZA KORELACJI

1.1 Koncepcja korelacji

Badacza często interesuje, w jaki sposób dwie lub więcej zmiennych w jednej lub kilku badanych próbach jest ze sobą powiązanych. Na przykład, czy wzrost może wpływać na wagę osoby, a ciśnienie może wpływać na jakość produktu?

Ten rodzaj relacji między zmiennymi nazywa się korelacją lub korelacją. Korelacja to spójna zmiana dwóch cech, odzwierciedlająca fakt, że zmienność jednej cechy jest zbieżna ze zmiennością drugiej.

Wiadomo na przykład, że przeciętnie istnieje dodatnia zależność między wzrostem ludzi a ich masą ciała i taka, że ​​im większy wzrost, tym większa waga osoby. Istnieją jednak wyjątki od tej reguły, gdy stosunkowo niscy ludzie mają nadwagę i odwrotnie, astenicy, o wysokim wzroście, mają niską wagę. Powodem takich wyjątków jest to, że każdy znak biologiczny, fizjologiczny lub psychologiczny jest determinowany wpływem wielu czynników: środowiskowych, genetycznych, społecznych, ekologicznych itp.

Powiązania korelacji to zmiany probabilistyczne, które można badać tylko na reprezentatywnych próbach za pomocą metod statystyka matematyczna... Oba terminy — korelacja i korelacja — są często używane zamiennie. Zależność oznacza wpływ, związek oznacza każdą uzgodnioną zmianę, którą można przypisać setkom powodów. Zależności korelacji nie można uznać za dowód związku przyczynowego, wskazują one jedynie, że zmianom jednej cechy z reguły towarzyszą pewne zmiany w innej.

Zależność korelacji - są to zmiany, które wprowadzają wartości jednej cechy do prawdopodobieństwa wystąpienia różne znaczenia kolejny znak.

Zadanie analizy korelacji sprowadza się do ustalenia kierunku (dodatniego lub ujemnego) i formy (liniowej, nieliniowej) zależności pomiędzy zmiennymi cechami, pomiaru jej szczelności, a na końcu sprawdzenia poziomu istotności otrzymanych współczynników korelacji.

Powiązania korelacji różnią się formą, kierunkiem i stopniem (siłą) .

W formie korelacja może być prosta lub zakrzywiona. Na przykład związek między liczbą treningów na symulatorze a liczbą poprawnie rozwiązanych problemów w sesji kontrolnej może być prosty. Na przykład zależność między poziomem motywacji a efektywnością wykonywania zadań może być krzywoliniowa (rysunek 1). Wraz ze wzrostem motywacji najpierw wzrasta wydajność zadania, następnie osiągany jest optymalny poziom motywacji, który odpowiada maksymalnej wydajności zadania; dalszemu wzrostowi motywacji towarzyszy już spadek wydajności.

Rysunek 1 - Związek między skutecznością rozwiązania problemu a siłą tendencji motywacyjnej

W kierunku korelacji związek może być dodatni („bezpośredni”) i ujemny („odwrotny”). Przy dodatniej korelacji liniowo-liniowej wyższe wartości jednej cechy odpowiadają większej wysokie wartości druga, a niższe wartości jednej cechy są niskimi wartościami drugiej (rysunek 2). Przy ujemnej korelacji stosunki ulegają odwróceniu (rysunek 3). Przy korelacji dodatniej współczynnik korelacji ma znak dodatni, przy korelacji ujemnej znak ujemny.

Rysunek 2 - Bezpośrednia korelacja

Rysunek 3 - Odwrotna korelacja


Rysunek 4 - Brak korelacji

Stopień, siła lub szczelność korelacji określa wartość współczynnika korelacji. Siła połączenia nie zależy od jego kierunku i jest określona przez wartość bezwzględną współczynnika korelacji.

1.2 Ogólna klasyfikacja korelacji

W zależności od współczynnika korelacji rozróżnia się następujące korelacje:

Silna lub ciasna ze współczynnikiem korelacji r> 0,70;

Średnia (przy 0,50

Umiarkowane (przy 0,30

Słaby (przy 0,20

Bardzo słaby (przy r<0,19).

1.3 Pola korelacji i cel ich budowy

Korelację bada się na podstawie danych eksperymentalnych, którymi są zmierzone wartości (x i, y i) dwóch cech. Jeśli danych eksperymentalnych jest niewiele, dwuwymiarowy rozkład empiryczny jest reprezentowany jako podwójna seria wartości x i i y i. W tym przypadku zależność korelacji między cechami można opisać na różne sposoby. Związek między argumentem a funkcją można określić za pomocą tabeli, formuły, wykresu itp.

Analiza korelacji, podobnie jak inne metody statystyczne, opiera się na wykorzystaniu modeli probabilistycznych opisujących zachowanie badanych cech w pewnej populacji ogólnej, z których uzyskuje się wartości eksperymentalne x i oraz y i. Gdy bada się korelację między cechami ilościowymi, których wartości można dokładnie zmierzyć w jednostkach skali metrycznej (metry, sekundy, kilogramy itp.), bardzo często model dwuwymiarowej populacji ogólnej o rozkładzie normalnym przyjęty. Taki model przedstawia zależność pomiędzy zmiennymi x i oraz y i graficznie w postaci miejsca punktów w prostokątnym układzie współrzędnych. Ten wykres jest również nazywany wykresem punktowym lub polem korelacji.
Ten model dwuwymiarowego rozkładu normalnego (pole korelacji) pozwala na wizualną graficzną interpretację współczynnika korelacji, ponieważ rozkład w agregacie zależy od pięciu parametrów: μ x, μ y - wartości średnie (oczekiwania matematyczne); σ x, σ y to odchylenia standardowe zmiennych losowych X i Y, a p to współczynnik korelacji, który jest miarą związku między zmiennymi losowymi X i Y.
Jeżeli p = 0, to wartości x i, y i, otrzymane z dwuwymiarowej populacji normalnej, znajdują się na wykresie we współrzędnych x, y w obrębie obszaru ograniczonego okręgiem (rysunek 5, a). W tym przypadku nie ma korelacji między zmiennymi losowymi X i Y i nazywa się je nieskorelowanymi. Dla dwuwymiarowego rozkładu normalnego niekorelacja oznacza jednocześnie niezależność zmiennych losowych X i Y.

Udostępnij znajomym lub zachowaj dla siebie:

Ładowanie...