7 współczynnik korelacji. Kryterium korelacji Pearsona

Badając zdrowie publiczne i ochronę zdrowia w celach naukowych i praktycznych, badacz często musi przeprowadzić analizę statystyczną relacji między wskaźnikami czynnikowymi i efektywnymi populacji statystycznej (związek przyczynowy) lub określić zależność równoległych zmian w kilku cechach ta populacja w jakiejś trzeciej ilości (z ich wspólnej przyczyny). Konieczna jest umiejętność zbadania cech tego połączenia, określenia jego wielkości i kierunku, a także oceny jego niezawodności. W tym celu stosuje się metody korelacji.

  1. Rodzaje przejawów ilościowych relacji między znakami
    • łącze funkcjonalne
    • link korelacji
  2. Definicje funkcjonalne i korelacji

    Połączenie funkcjonalne- ten rodzaj relacji między dwoma znakami, gdy każda wartość jednego z nich odpowiada ściśle określonej wartości drugiego (powierzchnia koła zależy od promienia koła itp.). Połączenie funkcjonalne jest typowe dla procesów fizycznych i matematycznych.

    Łącze korelacji- taki związek, w którym każda konkretna wartość jednego znaku odpowiada kilku wartościom innego powiązanego z nim znaku (relacja między wzrostem a masą ciała osoby; związek między temperaturą ciała a tętnem itp.). Korelacja jest typowa dla procesów biomedycznych.

  3. Praktyczne znaczenie ustalenia korelacji... Ujawnienie związku przyczynowo-skutkowego między objawami czynnikowymi i wypadkowymi (przy ocenie rozwoju fizycznego, określenie związku między warunkami pracy, życiem codziennym i stanem zdrowia, przy określaniu zależności częstości zachorowań od wieku, stażu pracy , obecność zagrożeń przemysłowych itp.)

    Zależność równoległych zmian w kilku cechach od jakiejś trzeciej wartości. Na przykład pod wpływem wysokich temperatur w warsztacie zachodzą zmiany ciśnienie krwi lepkość krwi, tętno itp.

  4. Wartość charakteryzująca kierunek i siłę związku między znakami... Współczynnik korelacji, który w jednej liczbie daje wyobrażenie o kierunku i sile związku między znakami (zjawiskami), granice jego wahań od 0 do ± 1
  5. Metody reprezentacji korelacji
    • wykres (wykres punktowy)
    • Współczynnik korelacji
  6. Kierunek korelacji
    • proste
    • odwrócić
  7. Siła korelacji
    • silny: ± 0,7 do ± 1
    • średnia: ± 0,3 do ± 0,699
    • słaby: 0 do ± 0,299
  8. Metody wyznaczania współczynnika korelacji i wzory
    • metoda kwadratów (metoda Pearsona)
    • metoda rangowa (metoda Spearmana)
  9. Wymagania metodologiczne dotyczące stosowania współczynnika korelacji
    • pomiar związku jest możliwy tylko w populacjach jednorodnych jakościowo (np. pomiar związku między wzrostem a masą ciała w populacjach jednorodnych pod względem płci i wieku)
    • obliczenia można wykonać za pomocą wartości bezwzględnych lub pochodnych
    • do obliczenia współczynnika korelacji, niezgrupowane seria wariacji(wymóg ten ma zastosowanie tylko przy obliczaniu współczynnika korelacji metodą kwadratową)
    • liczba obserwacji nie mniej niż 30
  10. Rekomendacje stosowania metody korelacji rang (metoda Spearmana)
    • gdy nie ma potrzeby dokładnego ustalania siły połączenia, a jedynie dane orientacyjne
    • gdy cechy są reprezentowane nie tylko przez wartości ilościowe, ale także przez wartości atrybutywne
    • gdy seria dystrybucji funkcji ma otwarte opcje (na przykład doświadczenie zawodowe do 1 roku itp.)
  11. Zalecenia dotyczące stosowania metody kwadratów (metoda Pearsona)
    • gdy wymagane jest dokładne ustalenie siły połączenia między znakami
    • kiedy znaki są tylko ilościowe
  12. Metodologia i procedura obliczania współczynnika korelacji

    1) Metoda kwadratowa

    2) Metoda rankingowa

  13. Schemat oceny korelacji przez współczynnik korelacji
  14. Obliczanie błędu współczynnika korelacji
  15. Ocena rzetelności współczynnika korelacji uzyskanego metodą korelacji rang i metodą kwadratów

    Metoda 1
    Wiarygodność określa wzór:

    Kryterium t szacowane jest według tabeli wartości t z uwzględnieniem liczby stopni swobody (n - 2), gdzie n to liczba sparowanych opcji. Kryterium t musi być równe lub większe od kryterium tabelarycznego, odpowiadające prawdopodobieństwu p ≥99%.

    Metoda 2
    Rzetelność ocenia się za pomocą specjalnej tabeli standardowych współczynników korelacji. W tym przypadku taki współczynnik korelacji uważa się za wiarygodny, gdy dla pewnej liczby stopni swobody (n – 2) jest równy lub większy niż współczynnik tabelaryczny odpowiadający stopniowi bezbłędnej predykcji p ≥95%.

w sprawie zastosowania metody kwadratów

Zadanie: obliczyć współczynnik korelacji, określić kierunek i siłę związku między ilością wapnia w wodzie a twardością wody, jeśli znane są następujące dane (tabela 1). Oceń niezawodność połączenia. Wyciągnij wniosek.

Tabela 1

Uzasadnienie wyboru metody. Do rozwiązania problemu wybrano metodę kwadratów (Pearson), ponieważ każdy ze znaków (twardość wody i ilość wapnia) ma wyrażenie liczbowe; brak otwartej opcji.

Rozwiązanie.
Kolejność obliczeń opisano w tekście, wyniki przedstawiono w tabeli. Po zbudowaniu rzędów sparowanych porównywalnych atrybutów oznacz je przez x (twardość wody w stopniach) i przez y (ilość wapnia w wodzie w mg/l).

Twardość wody
(w stopniach)
Ilość wapnia w wodzie
(w mg/l)
d x d w d x x d y d x 2 d r 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
M x = x / n М у = Σ у / n Σ d x x d y = 7078 Σ d x 2 = 982 Σ d r 2 = 51056
M x = 120/6 = 20 Mr = 852/6 = 142
  1. Określ średnie wartości M x w opcji wiersza „x” i M y w opcji wiersza „y” za pomocą wzorów:
    M x = Σx / n (kolumna 1) i
    М у = Σу / n (kolumna 2)
  2. Znajdź odchylenie (d x i d y) każdej opcji od wartości obliczonej średniej w wierszu „x” i w wierszu „y”
    d x = x - M x (wykres 3) i d y = y - M y (wykres 4).
  3. Znajdź iloczyn odchyleń d x x d y i zsumuj je: Σ d x x d y (kolumna 5)
  4. Podnieś do kwadratu każde odchylenie d x i d y i zsumuj ich wartości wzdłuż wiersza „x” i wiersza „y”: d x 2 = 982 (kolumna 6) i Σ d y 2 = 51056 (kolumna 7).
  5. Określ iloczyn Σ d x 2 х Σ d y 2 i wyodrębnij z tego produktu Pierwiastek kwadratowy
  6. Otrzymane wartości Σ (d x x d y) i √ (Σd x 2 x Σd y 2) podstawiamy we wzorze na obliczenie współczynnika korelacji:
  7. Określ wiarygodność współczynnika korelacji:
    Pierwsza metoda. Znajdź błąd współczynnika korelacji (mr xy) i kryterium t ze wzorów:

    Kryterium t = 14,1, co odpowiada prawdopodobieństwu bezbłędnej prognozy p>99,9%.

    Drugi sposób. Wiarygodność współczynnika korelacji ocenia się zgodnie z tabelą „Standardowe współczynniki korelacji” (patrz Załącznik 1). Przy liczbie stopni swobody (n - 2) = 6 - 2 = 4, nasz obliczony współczynnik korelacji r xy = + 0,99 jest większy niż współczynnik tabelaryczny (r tab = + 0,917 przy p = 99%).

    Wniosek. Im więcej wapnia w wodzie, tym jest twardsza (wiązanie prosty, mocny i niezawodny: rxy = + 0,99, p> 99,9%).

    w sprawie stosowania metody rang

    Zadanie: wykorzystanie metody rang do ustalenia kierunku i siły związku między stażem pracy w latach a częstością urazów, jeśli uzyska się następujące dane:

    Uzasadnienie wyboru metody: do rozwiązania problemu można wybrać tylko metodę korelacji rang, ponieważ pierwszy rząd znaku „doświadczenie zawodowe w latach” ma otwarte warianty (doświadczenie zawodowe do 1 roku i 7 lub więcej lat), co nie pozwala na zastosowanie dokładniejszej metody - metody kwadratów - na ustalenie związku między porównane znaki.

    Rozwiązanie... Kolejność obliczeń podano w tekście, wyniki przedstawiono w tabeli. 2.

    Tabela 2

    Doświadczenie zawodowe w latach Liczba urazów Liczby porządkowe (rangi) Różnica rang Różnica rang do kwadratu
    x Tak d (x-y) d 2
    Do 1 roku 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 i więcej 6 5 1 +4 16
    d 2 = 38,5

    Standardowe współczynniki korelacji uznane za wiarygodne (według L.S.Kaminsky'ego)

    Liczba stopni swobody - 2 Poziom prawdopodobieństwa p (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Własow W.W. Epidemiologia. - M .: GEOTAR-MED, 2004 .-- 464 s.
    2. Lisitsyn Yu.P. Zdrowie publiczne i opieka zdrowotna. Podręcznik dla uczelni. - M .: GEOTAR-MED, 2007 .-- 512 s.
    3. Medyk V.A., Yuriev V.K. Przebieg wykładów z zakresu zdrowia publicznego i ochrony zdrowia: Część 1. Zdrowie publiczne. - M .: Medycyna, 2003 .-- 368 s.
    4. Minyaev V.A., Vishnyakov N.I. oraz inne organizacje zajmujące się medycyną społeczną i ochroną zdrowia (Przewodnik w 2 tomach). - SPb, 1998.-528 s.
    5. Kucherenko V.Z., Agarkov N.M. i inne Organizacja higieny społecznej i opieki zdrowotnej ( Instruktaż) - Moskwa, 2000 .-- 432 s.
    6. S. Glantza. Statystyki biomedyczne. Na z angielskiego. - M., Praktika, 1998 .-- 459 s.

Współczynnik korelacji odzwierciedla stopień powiązania między dwoma wskaźnikami. Zawsze przyjmuje wartość od -1 do 1. Jeśli współczynnik znajduje się w pobliżu 0, to mówią, że nie ma związku między zmiennymi.

Jeśli wartość jest bliska jedności (na przykład od 0,9), to istnieje silna bezpośrednia zależność między obserwowanymi obiektami. Jeśli współczynnik jest zbliżony do innego skrajny punkt zakres (-1), to istnieje silna odwrotna zależność między zmiennymi. Gdy wartość jest gdzieś pośrodku od 0 do 1 lub od 0 do -1, mówimy o słabym połączeniu (do przodu lub do tyłu). Ten związek zwykle nie jest brany pod uwagę: uważa się, że nie istnieje.

Obliczanie współczynnika korelacji w Excelu

Rozważmy przykładowo metody obliczania współczynnika korelacji, cechy bezpośrednich i odwrotnych zależności między zmiennymi.

Wartości wskaźników x i y:

Y jest zmienną niezależną, x jest zmienną zależną. Konieczne jest znalezienie siły (silna / słaba) i kierunku (przód / tył) połączenia między nimi. Wzór na współczynnik korelacji wygląda tak:


Aby łatwiej było to zrozumieć, podzielmy go na kilka prostych elementów.

Pomiędzy zmiennymi ustala się silny bezpośredni związek.

Wbudowana funkcja CORREL pozwala uniknąć skomplikowanych obliczeń. Obliczmy za jego pomocą współczynnik korelacji par w Excelu. Nazywamy mistrzem funkcji. Znajdujemy właściwy. Argumenty funkcji to tablica wartości y i tablica wartości x:

Pokażmy wartości zmiennych na wykresie:


Istnieje silny związek między y i x, ponieważ linie biegną prawie równolegle do siebie. Związek jest bezpośredni: rosnący y - rosnący x, malejący y - malejący x.



Macierz współczynników korelacji parami w Excelu

Macierz korelacji jest tabelą, na przecięciu wierszy i kolumn znajdują się współczynniki korelacji między odpowiadającymi im wartościami. Budowanie go dla kilku zmiennych ma sens.

Macierz współczynników korelacji w Excelu jest budowana za pomocą narzędzia Correlation z pakietu Data Analysis.


Stwierdzono silny bezpośredni związek między wartościami y i x1. Między x1 a x2 istnieje silna pętla sprzężenia zwrotnego. Praktycznie nie ma związku z wartościami w kolumnie x3.

Zawiadomienie! Rozwiązanie twojego Szczególnym zadaniem będzie wyglądać podobnie ten przykład, w tym wszystkie tabele i teksty objaśniające przedstawione poniżej, ale biorąc pod uwagę Twoje oryginalne dane ...

Zadanie:
Istnieje powiązana próbka 26 par wartości (x k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Wymagane jest obliczenie / zbudowanie:
- Współczynnik korelacji;
- przetestować hipotezę o zależności zmiennych losowych X i Y, na poziomie istotności α = 0,05;
- współczynniki równania regresji liniowej;
- wykres punktowy (pole korelacji) i wykres liniowy regresji;

ROZWIĄZANIE:

1. Oblicz współczynnik korelacji.

Współczynnik korelacji jest wskaźnikiem wzajemnego probabilistycznego wpływu dwóch zmiennych losowych. Współczynnik korelacji R może brać wartości od -1 przed +1 ... Jeśli wartość bezwzględna jest bliższa 1 , to jest to dowód na silny związek między wielkościami, a jeśli jest bliższy 0 - wtedy oznacza to słabe połączenie lub jego brak. Jeśli wartość bezwzględna R jest równy jeden, wtedy możemy mówić o funkcjonalnym związku między wielkościami, to znaczy, że jedna wielkość może być wyrażona przez inną za pomocą funkcji matematycznej.


Współczynnik korelacji można obliczyć za pomocą następujących wzorów:
n
Σ
k = 1
(xk-Mx) 2, σ y 2 =
M x =
1
n
n
Σ
k = 1
x k, Mój =

lub według wzoru

R x, y =
M xy - M x M r
S x S y
(1.4), gdzie:
M x =
1
n
n
Σ
k = 1
x k, Mój =
1
n
n
Σ
k = 1
y k, M xy =
1
n
n
Σ
k = 1
x k y k (1.5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
r k 2 - M r 2 (1.6)

W praktyce do obliczenia współczynnika korelacji często stosuje się wzór (1.4), ponieważ wymaga mniej obliczeń. Jeśli jednak kowariancja została wcześniej obliczona cov (X, Y), korzystniej jest zastosować wzór (1.1), ponieważ oprócz rzeczywistej wartości kowariancji można również wykorzystać wyniki obliczeń pośrednich.

1.1 Obliczmy współczynnik korelacji ze wzoru (1.4), w tym celu obliczamy wartości x k 2, y k 2 i x k y k i wpisujemy je w tabeli 1.

Tabela 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Obliczamy M x według wzoru (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,50000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. W podobny sposób obliczamy M y.

1.3.1. Dodaj wszystkie elementy po kolei y k

y 1 + y 2 +… + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793.000000

1.3.2. Podziel otrzymaną sumę przez liczbę elementów próbki

793.00000 / 26 = 30.50000

Mr = 30,50000

1.4. W podobny sposób obliczamy M xy.

1.4.1. Zsumuj kolejno wszystkie elementy szóstej kolumny tabeli 1 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Podziel otrzymaną sumę przez liczbę elementów

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Obliczamy wartość S x 2 według wzoru (1.6.).

1.5.1. Zsumuj kolejno wszystkie elementy czwartej kolumny tabeli 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Podziel otrzymaną sumę przez liczbę elementów

17256.91000 / 26 = 663.72731

1.5.3. Odejmij kwadrat M x od ostatniej liczby, aby uzyskać wartość S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Obliczamy wartość S y 2 według wzoru (1.6.).

1.6.1. Zsumuj kolejno wszystkie elementy piątej kolumny tabeli 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Podziel otrzymaną sumę przez liczbę elementów

24191.84000 / 26 = 930.45538

1.6.3. Odejmij kwadrat M y od ostatniej liczby, aby otrzymać wartość S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Obliczmy iloczyn wielkości S x 2 i S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Wyciągnijmy pierwiastek kwadratowy z ostatniej liczby, otrzymamy wartość S x S y.

S x S y = 0,36951

1.9. Obliczmy wartość współczynnika korelacji ze wzoru (1.4.).

R = (785.10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ODPOWIEDŹ: R x, y = -0,720279

2. Sprawdź istotność współczynnika korelacji (sprawdź hipotezę zależności).

Ponieważ oszacowanie współczynnika korelacji jest obliczane na próbie skończonej, a zatem może odbiegać od jego ogólnej wartości, konieczne jest sprawdzenie istotności współczynnika korelacji. Sprawdzenie odbywa się za pomocą kryterium t:

t =
R x, y
n - 2
1 - R 2 x, y
(2.1)

Wartość losowa T podąża za rozkładem t-Studenta i zgodnie z tabelą rozkładów t należy znaleźć wartość krytyczną kryterium (t cr.α) na danym poziomie istotności α. Jeżeli moduł t obliczony ze wzoru (2.1) okaże się być mniejszy niż t cr Α, to zależności między zmienne losowe X i Y nie są. W przeciwnym razie dane eksperymentalne nie stoją w sprzeczności z hipotezą o zależności zmiennych losowych.


2.1. Wartość kryterium t obliczamy ze wzoru (2.1) otrzymujemy:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Wyznaczmy z tablicy rozkładów t wartość krytyczną parametru t cr

Poszukiwana wartość t cr Α znajduje się na przecięciu prostej odpowiadającej liczbie stopni swobody i kolumny odpowiadającej danemu poziomowi istotności α.
W naszym przypadku liczba stopni swobody to n - 2 = 26 - 2 = 24 i α = 0.05 , co odpowiada wartości krytycznej kryterium t cr α = 2.064 (patrz tabela 2)

Tabela 2 t-rozkład

Liczba stopni swobody
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Porównajmy wartość bezwzględną kryterium t i t cr. Α

Wartość bezwzględna kryterium t jest nie mniejsza niż krytyczne t = 5,08680, t cr Α = 2,064, zatem dane eksperymentalne, z prawdopodobieństwem 0,95(1 - α), nie zaprzeczaj hipotezie na zależności zmiennych losowych X i Y.

3. Oblicz współczynniki równania regresji liniowej.

Równanie regresji liniowej to równanie linii prostej, które przybliża (w przybliżeniu opisuje) zależność między zmiennymi losowymi X i Y. Jeżeli założymy, że X jest wolne i Y jest zależne od X, to równanie regresji zostanie zapisane w następujący sposób


Y = a + b X (3.1), gdzie:

b =R x, y
σ y
σ x
= R x, y
S y
S x
(3.2),
a = M r - b M x (3.3)

Współczynnik obliczony ze wzoru (3.2) b zwany współczynnikiem regresji liniowej. W niektórych źródłach a nazywa się stałym współczynnikiem regresji i b odpowiednio zmienne.

Błędy predykcji Y dla danej wartości X obliczane są ze wzorów:

Nazywana jest również wielkość σ y / x (wzór 3.4) resztkowe odchylenie standardowe, charakteryzuje odejście wartości Y od linii regresji opisanej równaniem (3.1) przy ustalonej (podanej) wartości X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Wyodrębnijmy pierwiastek kwadratowy z ostatniej liczby - otrzymujemy:
S y / S x = 0,55582

3.3 Oblicz współczynnik b według wzoru (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Oblicz współczynnik a według wzoru (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Oszacuj błędy równania regresji.

3.5.1 Z S y 2 wyciągamy pierwiastek kwadratowy, który otrzymujemy:

= 0.31437
3.5.4 Obliczmy błąd względny według wzoru (3.5)

δ r / x = (0,31437 / 30,50000) 100% = 1,03073%

4. Zbuduj wykres punktowy (pole korelacji) i wykres liniowy regresji.

Wykres punktowy to obraz graficzny odpowiednie pary (x k, y k) w postaci punktów na płaszczyźnie, we współrzędnych prostokątnych z osiami X i Y. Pole korelacji jest jedną z graficznych reprezentacji powiązanej (sparowanej) próbki. Linia regresji jest wykreślana w tym samym układzie współrzędnych. Skale i punkty początkowe na osiach powinny być starannie dobrane, aby wykres był jak najbardziej przejrzysty.

4.1. Znajdź minimalny i maksymalny element próbki X to odpowiednio 18. i 15. element, x min = 22,10000 i x max = 26,60000.

4.2. Znajdujemy minimalny i maksymalny element próbki Y, to jest odpowiednio 2 i 18 element, y min = 29,40000 i ymax = 31,60000.

4.3. Na osi odciętej zaznaczamy punkt początkowy nieco na lewo od punktu x 18 = 22,10000 i taką skalę, aby punkt x 15 = 26,60000 zmieścił się na osi, a pozostałe punkty były wyraźnie wyróżnione.

4.4. Na osi rzędnych zaznacz punkt początkowy nieco na lewo od punktu y2 = 29,40000 i taką skalę, aby punkt y18 = 31,60000 zmieścił się na osi, a pozostałe punkty były wyraźnie wyróżnione.

4.5. Na odciętej umieszczamy wartości xk, a na rzędnej wartości yk.

4.6. Umieść punkty (x 1, y 1), (x 2, y 2),…, (x 26, y 26) na płaszczyźnie współrzędnych. Otrzymujemy diagram rozrzutu (pole korelacji), pokazany na poniższym rysunku.

4.7. Narysujmy linię regresji.

Aby to zrobić, znajdź dwa różne punkty o współrzędnych (x r1, y r1) i (x r2, y r2) spełniających równanie (3.6), narysuj je na płaszczyźnie współrzędnych i narysuj przez nie linię prostą. Przyjmij wartość x min = 22,10000 jako odciętą pierwszego punktu. Podstaw wartość x min do równania (3.6), otrzymujemy rzędną pierwszego punktu. Mamy więc punkt o współrzędnych (22.10000, 31.96127). W podobny sposób otrzymujemy współrzędne drugiego punktu, wpisując jako odciętą wartość x max = 26,60000. Drugim punktem będzie: (26.60000, 30.15970).

Linia regresji jest pokazana na poniższym rysunku w kolorze czerwonym.

Zauważ, że linia regresji zawsze przechodzi przez punkt średniej wartości X i Y, tj. ze współrzędnymi (M x, M y).

06.06.2018 16 235 0 Igor

Psychologia i społeczeństwo

Wszystko na świecie jest ze sobą połączone. Każda osoba, na poziomie intuicji, stara się znaleźć relacje między zjawiskami, aby móc na nie wpływać i je kontrolować. Pojęcie, które odzwierciedla tę zależność, nazywa się korelacją. Co to w uproszczeniu oznacza?

Treść:

Koncepcja korelacji

Korelacja (od łacińskiego „correlatio” - stosunek, relacja)- termin matematyczny oznaczający miarę statystycznej zależności probabilistycznej między zmiennymi losowymi (zmiennymi).



Przykład: weźmy dwa rodzaje relacji:

  1. Najpierw- długopis w dłoni osoby. W którym kierunku porusza się ręka, w którym kierunku jest rączka. Jeśli ręka jest w spoczynku, pióro również nie napisze. Jeśli osoba naciśnie go trochę mocniej, ślad na papierze będzie bogatszy. Ten rodzaj relacji odzwierciedla silny związek i nie jest skorelowany. Ta relacja jest funkcjonalna.
  2. Drugi widok- związek między poziomem wykształcenia osoby a czytaniem literatury. Nie wiadomo z góry, która z osób czyta więcej: z wyższa edukacja lub bez niego. Związek ten jest przypadkowy lub stochastyczny, bada go nauka statystyczna zajmująca się wyłącznie zjawiskami masowymi. Jeżeli obliczenia statystyczne pozwolą wykazać korelację między poziomem wykształcenia a czytaniem literatury, to pozwoli to na dowolne przewidywanie, przewidywanie prawdopodobieństwa wystąpienia zdarzeń. W tym przykładzie z dużym prawdopodobieństwem można argumentować, że osoby z wyższym wykształceniem, bardziej wykształcone, częściej czytają książki. Ale ponieważ połączenie między tymi parametrami nie działa, możemy się mylić. Zawsze można obliczyć prawdopodobieństwo takiego błędu, które będzie wyjątkowo małe i nazywa się poziomem istotności statystycznej (p).

Przykłady związku między Zjawiska naturalne są:łańcuch pokarmowy w przyrodzie, ciało ludzkie, które składa się z połączonych ze sobą układów narządów i funkcjonujących jako całość.

Codziennie mamy do czynienia z zależnością korelacyjną w Życie codzienne: między pogodą a dobry humor, prawidłowe formułowanie celów i ich osiąganie, pozytywne nastawienie i szczęście, poczucie szczęścia i dobrobytu finansowego. Ale szukamy powiązań, opierając się nie na matematycznych obliczeniach, ale na mitach, intuicji, przesądach, jałowych spekulacjach. Zjawiska te bardzo trudno przełożyć na język matematyczny, wyrazić w liczbach, zmierzyć. Inna sprawa, gdy analizujemy zjawiska, które można obliczyć, przedstawić w postaci liczb. W tym przypadku możemy określić korelację za pomocą współczynnika korelacji (r), który odzwierciedla siłę, stopień, szczelność i kierunek korelacji między zmiennymi losowymi.

Silna korelacja między zmiennymi losowymi- dowód na istnienie jakiegoś statystycznego związku konkretnie między tymi zjawiskami, ale tego związku nie można przenieść na te same zjawiska, ale na inną sytuację. Często badacze, uzyskawszy w swoich obliczeniach istotną korelację między dwiema zmiennymi, w oparciu o prostotę analizy korelacji, formułują fałszywe intuicyjne założenia o istnieniu związków przyczynowych między znakami, zapominając, że współczynnik korelacji ma charakter probabilistyczny.

Przykład: liczba rannych w warunkach oblodzenia oraz liczba wypadków drogowych wśród pojazdów. Wartości te będą ze sobą skorelowane, chociaż absolutnie nie są ze sobą powiązane, a jedynie mają związek ze wspólną przyczyną tych zdarzenia losowe- lodowate warunki. Jeżeli analiza nie wykazała związku korelacyjnego między zjawiskami, nie świadczy to jeszcze o braku związku między nimi, który może być złożony nieliniowo, nieujawniony za pomocą obliczeń korelacyjnych.




Jako pierwsi do obiegu naukowego wprowadzili pojęcie korelacji Francuzi paleontolog Georges Cuvier... W XVIII w. wyprowadził prawo korelacji części i narządów organizmów żywych, dzięki czemu ze znalezionych części ciała (szczątków) możliwe stało się przywrócenie wyglądu całego skamieniałego stworzenia, zwierzęcia. W statystyce termin korelacja został po raz pierwszy użyty w 1886 roku przez angielskiego naukowca Francis Galton... Ale nie mógł wydedukować dokładnego wzoru na obliczenie współczynnika korelacji, ale zrobił to jego uczeń - słynny matematyk i biolog Karl Pearson.

Rodzaje korelacji

Według ważności- bardzo znaczące, znaczące i nieistotne.

Wyświetlenia

co jest r

Szczególnie ważny

r odpowiada poziomowi istotności statystycznej p<=0,01

Istotne

r odpowiada p<=0,05

Nieistotny

r nie osiąga p>0,1

Negatywny(spadek wartości jednej zmiennej prowadzi do wzrostu poziomu innej: im więcej fobii ma dana osoba, tym mniejsze prawdopodobieństwo zajęcia pozycji lidera) i pozytywnej (jeśli wzrost jednej wartości pociąga za sobą wzrost poziom innego: im bardziej jesteś zdenerwowany, tym większe prawdopodobieństwo zachorowania). Jeśli nie ma związku między zmiennymi, to taka korelacja nazywana jest zerem.

Liniowy(gdy jedna wielkość rośnie lub maleje, druga również rośnie lub maleje) i nieliniowa (gdy, gdy zmienia się jedna wielkość, charakteru zmiany drugiej nie można opisać za pomocą zależności liniowej, wówczas stosowane są inne prawa matematyczne - wielomian, zależność hiperboliczna).

Siłą.

Szanse




W zależności od skali, do której należą badane zmienne, obliczane są różne typy współczynników korelacji:

  1. Współczynnik korelacji Pearsona, współczynnik liniowej korelacji par lub korelacja momentów produktów oblicza się dla zmiennych z interwałowymi i ilościowymi skalami pomiarowymi.
  2. Współczynnik korelacji rang Spearmana lub Kendalla - gdy przynajmniej jedna z wartości ma skalę porządkową lub nie ma rozkładu normalnego.
  3. Współczynnik korelacji punktowej dwurzędowej (współczynnik korelacji znaków Fechnera) - jeśli jedna z dwóch wartości jest dychotomiczna.
  4. Współczynnik korelacji czteropolowej (współczynnik korelacji wielu rang (zgodność) - jeśli dwie zmienne są dychotomiczne).

Współczynnik Pearsona odnosi się do wskaźników korelacji parametrycznej, cała reszta - do wskaźników nieparametrycznych.

Współczynnik korelacji mieści się w przedziale od -1 do +1. Przy całkowitej korelacji dodatniej r = +1, przy całkowicie ujemnej - r = -1.

Formuła i obliczenia





Przykłady

Konieczne jest określenie związku między dwiema zmiennymi: poziomem rozwoju intelektualnego (zgodnie z przeprowadzonym testem) i liczbą opóźnień w miesiącu (zgodnie z zapisami w czasopiśmie edukacyjnym) wśród uczniów.

Dane początkowe przedstawia tabela:

Dane IQ (x)

Dane dotyczące liczby spóźnionych przyjazdów (y)

Suma

1122

Przeciętny

112,2


Aby dać poprawną interpretację otrzymanego wskaźnika, należy przeanalizować znak współczynnika korelacji (+ lub -) oraz jego wartość bezwzględną (modulo).

Zgodnie z tabelą klasyfikacji współczynników korelacji według siły wnioskujemy, że rxy = -0,827 jest silną ujemną zależnością korelacji. Tak więc liczba spóźnionych studentów jest bardzo silnie uzależniona od ich poziomu rozwoju intelektualnego. Można powiedzieć, że uczniowie z wysokim IQ rzadziej spóźniają się na zajęcia niż uczniowie z niskim IQ.



Współczynnik korelacji może być wykorzystany zarówno przez naukowców do potwierdzenia lub obalenia założenia o zależności dwóch wielkości lub zjawisk i zmierzenia ich siły, istotności, jak i przez studentów do prowadzenia badań empirycznych i statystycznych z różnych przedmiotów. Należy pamiętać, że ten wskaźnik nie jest idealnym narzędziem, jest obliczany tylko do pomiaru siły zależności liniowej i zawsze będzie wartością probabilistyczną z pewnym błędem.

Analiza korelacji stosowana jest w następujących obszarach:

  • nauki ekonomiczne;
  • astrofizyka;
  • nauki społeczne (socjologia, psychologia, pedagogika);
  • agrochemia;
  • metaloznawstwo;
  • przemysł (do kontroli jakości);
  • hydrobiologia;
  • biometria itp.

Przyczyny popularności metody analizy korelacji:

  1. Względna prostota obliczania współczynników korelacji nie wymaga specjalnego wykształcenia matematycznego.
  2. Pozwala na obliczenie zależności między masowymi zmiennymi losowymi, które są przedmiotem analiz nauk statystycznych. W związku z tym metoda ta stała się powszechna w dziedzinie badań statystycznych.

Mam nadzieję, że możesz teraz odróżnić funkcjonalną od korelacji i wiedzieć, że kiedy słyszysz o korelacji w telewizji lub czytasz w prasie, oznacza to pozytywną i wystarczająco znaczącą relację między tymi dwoma.

W statystykach Współczynnik korelacji (język angielski Współczynnik korelacji) służy do testowania hipotezy o istnieniu związku między dwiema zmiennymi losowymi, a także pozwala oszacować jej siłę. W teorii portfela ten wskaźnik jest zwykle używany do określenia charakteru i siły związku między zwrotem z papieru wartościowego (aktywa) a zwrotem z portfela. Jeśli rozkład tych zmiennych jest normalny lub zbliżony do normalnego, należy użyć Współczynnik korelacji Pearsona, który jest obliczany według następującego wzoru:

Odchylenie standardowe stopy zwrotu z akcji Spółki A wyniesie 0,6398, akcji Spółki B 0,5241 a portfela 0,5668. ( Jak obliczane jest odchylenie standardowe, można odczytać)

Współczynnik korelacji zwrotu z akcji Spółki A i zwrotu z portfela wyniesie -0,864, a z akcji Spółki B 0,816.

RA = -0,313 / (0,6389 * 0,5668) = -0,864

RB = 0,242 / (0,5241 * 0,5668) = 0,816

Można stwierdzić, że istnieje dość silna zależność między zwrotem portfela a zwrotem z akcji Spółki A i Spółki B. Jednocześnie zwrot z akcji Spółki A wykazuje wielokierunkowy ruch ze zwrotem portfela, a zwrot z akcji Spółki B jest jednokierunkowy.

Podziel się ze znajomymi lub zachowaj dla siebie:

Ładowanie...