7 współczynnik korelacji. Kryterium korelacji Pearsona

Badając zdrowie publiczne i ochronę zdrowia w celach naukowych i praktycznych, badacz często musi przeprowadzić analizę statystyczną relacji między wskaźnikami czynnikowymi i efektywnymi populacji statystycznej (związek przyczynowy) lub określić zależność równoległych zmian w kilku cechach ta populacja w jakiejś trzeciej ilości (z ich wspólnej przyczyny). Konieczna jest umiejętność zbadania cech tego połączenia, określenia jego wielkości i kierunku, a także oceny jego niezawodności. W tym celu stosuje się metody korelacji.

Rodzaje przejawów ilościowych relacji między znakami
- łącze funkcjonalne
- link korelacji
Definicje funkcjonalne i korelacji
Połączenie funkcjonalne- ten rodzaj relacji między dwoma znakami, gdy każda wartość jednego z nich odpowiada ściśle określonej wartości drugiego (powierzchnia koła zależy od promienia koła itp.). Połączenie funkcjonalne jest typowe dla procesów fizycznych i matematycznych.
Łącze korelacji- taki związek, w którym każda konkretna wartość jednego znaku odpowiada kilku wartościom innego powiązanego z nim znaku (relacja między wzrostem a masą ciała osoby; związek między temperaturą ciała a tętnem itp.). Korelacja jest typowa dla procesów biomedycznych.
Praktyczne znaczenie ustalenia korelacji... Ujawnienie związku przyczynowo-skutkowego między objawami czynnikowymi i wypadkowymi (przy ocenie rozwoju fizycznego, określenie związku między warunkami pracy, życiem codziennym i stanem zdrowia, przy określaniu zależności częstości zachorowań od wieku, stażu pracy , obecność zagrożeń przemysłowych itp.)
Zależność równoległych zmian w kilku cechach od jakiejś trzeciej wartości. Na przykład pod wpływem wysokich temperatur w warsztacie zachodzą zmiany ciśnienie krwi lepkość krwi, tętno itp.
Wartość charakteryzująca kierunek i siłę związku między znakami... Współczynnik korelacji, który w jednej liczbie daje wyobrażenie o kierunku i sile związku między znakami (zjawiskami), granice jego wahań od 0 do ± 1
Metody reprezentacji korelacji
- wykres (wykres punktowy)
- Współczynnik korelacji
Kierunek korelacji
- proste
- odwrócić
Siła korelacji
- silny: ± 0,7 do ± 1
- średnia: ± 0,3 do ± 0,699
- słaby: 0 do ± 0,299
Metody wyznaczania współczynnika korelacji i wzory
- metoda kwadratów (metoda Pearsona)
- metoda rangowa (metoda Spearmana)
Wymagania metodologiczne dotyczące stosowania współczynnika korelacji
- pomiar związku jest możliwy tylko w populacjach jednorodnych jakościowo (np. pomiar związku między wzrostem a masą ciała w populacjach jednorodnych pod względem płci i wieku)
- obliczenia można wykonać za pomocą wartości bezwzględnych lub pochodnych
- do obliczenia współczynnika korelacji, niezgrupowane seria wariacji(wymóg ten ma zastosowanie tylko przy obliczaniu współczynnika korelacji metodą kwadratową)
- liczba obserwacji nie mniej niż 30
Rekomendacje stosowania metody korelacji rang (metoda Spearmana)
- gdy nie ma potrzeby dokładnego ustalania siły połączenia, a jedynie dane orientacyjne
- gdy cechy są reprezentowane nie tylko przez wartości ilościowe, ale także przez wartości atrybutywne
- gdy seria dystrybucji funkcji ma otwarte opcje (na przykład doświadczenie zawodowe do 1 roku itp.)
Zalecenia dotyczące stosowania metody kwadratów (metoda Pearsona)
- gdy wymagane jest dokładne ustalenie siły połączenia między znakami
- kiedy znaki są tylko ilościowe
Metodologia i procedura obliczania współczynnika korelacji
1) Metoda kwadratowa
2) Metoda rankingowa
Schemat oceny korelacji przez współczynnik korelacji
Obliczanie błędu współczynnika korelacji
Ocena rzetelności współczynnika korelacji uzyskanego metodą korelacji rang i metodą kwadratów
Metoda 1
Wiarygodność określa wzór:
Kryterium t szacowane jest według tabeli wartości t z uwzględnieniem liczby stopni swobody (n - 2), gdzie n to liczba sparowanych opcji. Kryterium t musi być równe lub większe od kryterium tabelarycznego, odpowiadające prawdopodobieństwu p ≥99%.
Metoda 2
Rzetelność ocenia się za pomocą specjalnej tabeli standardowych współczynników korelacji. W tym przypadku taki współczynnik korelacji uważa się za wiarygodny, gdy dla pewnej liczby stopni swobody (n – 2) jest równy lub większy niż współczynnik tabelaryczny odpowiadający stopniowi bezbłędnej predykcji p ≥95%.

w sprawie zastosowania metody kwadratów

Zadanie: obliczyć współczynnik korelacji, określić kierunek i siłę związku między ilością wapnia w wodzie a twardością wody, jeśli znane są następujące dane (tabela 1). Oceń niezawodność połączenia. Wyciągnij wniosek.

Tabela 1

Uzasadnienie wyboru metody. Do rozwiązania problemu wybrano metodę kwadratów (Pearson), ponieważ każdy ze znaków (twardość wody i ilość wapnia) ma wyrażenie liczbowe; brak otwartej opcji.

Rozwiązanie.
Kolejność obliczeń opisano w tekście, wyniki przedstawiono w tabeli. Po zbudowaniu rzędów sparowanych porównywalnych atrybutów oznacz je przez x (twardość wody w stopniach) i przez y (ilość wapnia w wodzie w mg/l).

Twardość wody (w stopniach)	Ilość wapnia w wodzie (w mg/l)	d x	d w	d x x d y	d x 2	d r 2
4 8 11 27 34 37	28 56 77 191 241 262	-16 -12 -9 +7 +14 +16	-114 -86 -66 +48 +98 +120	1824 1032 594 336 1372 1920	256 144 81 49 196 256	12996 7396 4356 2304 9604 14400
M x = x / n	М у = Σ у / n			Σ d x x d y = 7078	Σ d x 2 = 982	Σ d r 2 = 51056
M x = 120/6 = 20	Mr = 852/6 = 142

Określ średnie wartości M x w opcji wiersza „x” i M y w opcji wiersza „y” za pomocą wzorów:
M x = Σx / n (kolumna 1) i
М у = Σу / n (kolumna 2)
Znajdź odchylenie (d x i d y) każdej opcji od wartości obliczonej średniej w wierszu „x” i w wierszu „y”
d x = x - M x (wykres 3) i d y = y - M y (wykres 4).
Znajdź iloczyn odchyleń d x x d y i zsumuj je: Σ d x x d y (kolumna 5)
Podnieś do kwadratu każde odchylenie d x i d y i zsumuj ich wartości wzdłuż wiersza „x” i wiersza „y”: d x 2 = 982 (kolumna 6) i Σ d y 2 = 51056 (kolumna 7).
Określ iloczyn Σ d x 2 х Σ d y 2 i wyodrębnij z tego produktu Pierwiastek kwadratowy
Otrzymane wartości Σ (d x x d y) i √ (Σd x 2 x Σd y 2) podstawiamy we wzorze na obliczenie współczynnika korelacji:

Określ wiarygodność współczynnika korelacji:
Pierwsza metoda. Znajdź błąd współczynnika korelacji (mr xy) i kryterium t ze wzorów:

Kryterium t = 14,1, co odpowiada prawdopodobieństwu bezbłędnej prognozy p>99,9%.

Drugi sposób. Wiarygodność współczynnika korelacji ocenia się zgodnie z tabelą „Standardowe współczynniki korelacji” (patrz Załącznik 1). Przy liczbie stopni swobody (n - 2) = 6 - 2 = 4, nasz obliczony współczynnik korelacji r xy = + 0,99 jest większy niż współczynnik tabelaryczny (r tab = + 0,917 przy p = 99%).

Wniosek. Im więcej wapnia w wodzie, tym jest twardsza (wiązanie prosty, mocny i niezawodny: rxy = + 0,99, p> 99,9%).

w sprawie stosowania metody rang

Zadanie: wykorzystanie metody rang do ustalenia kierunku i siły związku między stażem pracy w latach a częstością urazów, jeśli uzyska się następujące dane:

Uzasadnienie wyboru metody: do rozwiązania problemu można wybrać tylko metodę korelacji rang, ponieważ pierwszy rząd znaku „doświadczenie zawodowe w latach” ma otwarte warianty (doświadczenie zawodowe do 1 roku i 7 lub więcej lat), co nie pozwala na zastosowanie dokładniejszej metody - metody kwadratów - na ustalenie związku między porównane znaki.

Rozwiązanie... Kolejność obliczeń podano w tekście, wyniki przedstawiono w tabeli. 2.

Tabela 2

Doświadczenie zawodowe w latach	Liczba urazów	Liczby porządkowe (rangi)		Różnica rang	Różnica rang do kwadratu
Doświadczenie zawodowe w latach	Liczba urazów	x	Tak	d (x-y)	d 2
Do 1 roku	24	1	5	-4	16
1-2	16	2	4	-2	4
3-4	12	3	2,5	+0,5	0,25
5-6	12	4	2,5	+1,5	2,25
7 i więcej	6	5	1	+4	16
					d 2 = 38,5

Standardowe współczynniki korelacji uznane za wiarygodne (według L.S.Kaminsky'ego)

Liczba stopni swobody - 2	Poziom prawdopodobieństwa p (%)
Liczba stopni swobody - 2	95%	98%	99%
1	0,997	0,999	0,999
2	0,950	0,980	0,990
3	0,878	0,934	0,959
4	0,811	0,882	0,917
5	0,754	0,833	0,874
6	0,707	0,789	0,834
7	0,666	0,750	0,798
8	0,632	0,716	0,765
9	0,602	0,885	0,735
10	0,576	0,858	0,708
11	0,553	0,634	0,684
12	0,532	0,612	0,661
13	0,514	0,592	0,641
14	0,497	0,574	0,623
15	0,482	0,558	0,606
16	0,468	0,542	0,590
17	0,456	0,528	0,575
18	0,444	0,516	0,561
19	0,433	0,503	0,549
20	0,423	0,492	0,537
25	0,381	0,445	0,487
30	0,349	0,409	0,449

Własow W.W. Epidemiologia. - M .: GEOTAR-MED, 2004 .-- 464 s.
Lisitsyn Yu.P. Zdrowie publiczne i opieka zdrowotna. Podręcznik dla uczelni. - M .: GEOTAR-MED, 2007 .-- 512 s.
Medyk V.A., Yuriev V.K. Przebieg wykładów z zakresu zdrowia publicznego i ochrony zdrowia: Część 1. Zdrowie publiczne. - M .: Medycyna, 2003 .-- 368 s.
Minyaev V.A., Vishnyakov N.I. oraz inne organizacje zajmujące się medycyną społeczną i ochroną zdrowia (Przewodnik w 2 tomach). - SPb, 1998.-528 s.
Kucherenko V.Z., Agarkov N.M. i inne Organizacja higieny społecznej i opieki zdrowotnej ( Instruktaż) - Moskwa, 2000 .-- 432 s.
S. Glantza. Statystyki biomedyczne. Na z angielskiego. - M., Praktika, 1998 .-- 459 s.

Współczynnik korelacji odzwierciedla stopień powiązania między dwoma wskaźnikami. Zawsze przyjmuje wartość od -1 do 1. Jeśli współczynnik znajduje się w pobliżu 0, to mówią, że nie ma związku między zmiennymi.

Jeśli wartość jest bliska jedności (na przykład od 0,9), to istnieje silna bezpośrednia zależność między obserwowanymi obiektami. Jeśli współczynnik jest zbliżony do innego skrajny punkt zakres (-1), to istnieje silna odwrotna zależność między zmiennymi. Gdy wartość jest gdzieś pośrodku od 0 do 1 lub od 0 do -1, mówimy o słabym połączeniu (do przodu lub do tyłu). Ten związek zwykle nie jest brany pod uwagę: uważa się, że nie istnieje.

Obliczanie współczynnika korelacji w Excelu

Rozważmy przykładowo metody obliczania współczynnika korelacji, cechy bezpośrednich i odwrotnych zależności między zmiennymi.

Wartości wskaźników x i y:

Y jest zmienną niezależną, x jest zmienną zależną. Konieczne jest znalezienie siły (silna / słaba) i kierunku (przód / tył) połączenia między nimi. Wzór na współczynnik korelacji wygląda tak:

Aby łatwiej było to zrozumieć, podzielmy go na kilka prostych elementów.

Pomiędzy zmiennymi ustala się silny bezpośredni związek.

Wbudowana funkcja CORREL pozwala uniknąć skomplikowanych obliczeń. Obliczmy za jego pomocą współczynnik korelacji par w Excelu. Nazywamy mistrzem funkcji. Znajdujemy właściwy. Argumenty funkcji to tablica wartości y i tablica wartości x:

Pokażmy wartości zmiennych na wykresie:

Istnieje silny związek między y i x, ponieważ linie biegną prawie równolegle do siebie. Związek jest bezpośredni: rosnący y - rosnący x, malejący y - malejący x.

Macierz współczynników korelacji parami w Excelu

Macierz korelacji jest tabelą, na przecięciu wierszy i kolumn znajdują się współczynniki korelacji między odpowiadającymi im wartościami. Budowanie go dla kilku zmiennych ma sens.

Macierz współczynników korelacji w Excelu jest budowana za pomocą narzędzia Correlation z pakietu Data Analysis.

Stwierdzono silny bezpośredni związek między wartościami y i x1. Między x1 a x2 istnieje silna pętla sprzężenia zwrotnego. Praktycznie nie ma związku z wartościami w kolumnie x3.

Zawiadomienie! Rozwiązanie twojego Szczególnym zadaniem będzie wyglądać podobnie ten przykład, w tym wszystkie tabele i teksty objaśniające przedstawione poniżej, ale biorąc pod uwagę Twoje oryginalne dane ...

Zadanie:
Istnieje powiązana próbka 26 par wartości (x k, y k):

k	1	2	3	4	5	6	7	8	9	10
*x k*	25.20000	26.40000	26.00000	25.80000	24.90000	25.70000	25.70000	25.70000	26.10000	25.80000
*y k*	30.80000	29.40000	30.20000	30.50000	31.40000	30.30000	30.40000	30.50000	29.90000	30.40000

k	11	12	13	14	15	16	17	18	19	20
*x k*	25.90000	26.20000	25.60000	25.40000	26.60000	26.20000	26.00000	22.10000	25.90000	25.80000
*y k*	30.30000	30.50000	30.60000	31.00000	29.60000	30.40000	30.70000	31.60000	30.50000	30.60000

k	21	22	23	24	25	26
*x k*	25.90000	26.30000	26.10000	26.00000	26.40000	25.80000
*y k*	30.70000	30.10000	30.60000	30.50000	30.70000	30.80000

Wymagane jest obliczenie / zbudowanie:
- Współczynnik korelacji;
- przetestować hipotezę o zależności zmiennych losowych X i Y, na poziomie istotności α = 0,05;
- współczynniki równania regresji liniowej;
- wykres punktowy (pole korelacji) i wykres liniowy regresji;

ROZWIĄZANIE:

1. Oblicz współczynnik korelacji.

Współczynnik korelacji jest wskaźnikiem wzajemnego probabilistycznego wpływu dwóch zmiennych losowych. Współczynnik korelacji R może brać wartości od -1 przed +1 ... Jeśli wartość bezwzględna jest bliższa 1 , to jest to dowód na silny związek między wielkościami, a jeśli jest bliższy 0 - wtedy oznacza to słabe połączenie lub jego brak. Jeśli wartość bezwzględna R jest równy jeden, wtedy możemy mówić o funkcjonalnym związku między wielkościami, to znaczy, że jedna wielkość może być wyrażona przez inną za pomocą funkcji matematycznej.

Współczynnik korelacji można obliczyć za pomocą następujących wzorów:

k = 1

(xk-Mx) 2, σ y 2 =

M x

k = 1

x k,

Mój

lub według wzoru

R x, y

M xy - M x M r

S x S y

(1.4), gdzie:

M x

k = 1

x k,

Mój

k = 1

y k,

M xy

k = 1

x k y k (1.5)

S x 2

k = 1

x k 2 - M x 2,

S y 2

k = 1

r k 2 - M r 2 (1.6)

W praktyce do obliczenia współczynnika korelacji często stosuje się wzór (1.4), ponieważ wymaga mniej obliczeń. Jeśli jednak kowariancja została wcześniej obliczona cov (X, Y), korzystniej jest zastosować wzór (1.1), ponieważ oprócz rzeczywistej wartości kowariancji można również wykorzystać wyniki obliczeń pośrednich.

1.1 Obliczmy współczynnik korelacji ze wzoru (1.4), w tym celu obliczamy wartości x k 2, y k 2 i x k y k i wpisujemy je w tabeli 1.

Tabela 1

k	*x k*	*y k*	x k 2	y k 2	*x ky k*
1	2	3	4	5	6
1	25.2	30.8	635.04000	948.64000	776.16000
2	26.4	29.4	696.96000	864.36000	776.16000
3	26.0	30.2	676.00000	912.04000	785.20000
4	25.8	30.5	665.64000	930.25000	786.90000
5	24.9	31.4	620.01000	985.96000	781.86000
6	25.7	30.3	660.49000	918.09000	778.71000
7	25.7	30.4	660.49000	924.16000	781.28000
8	25.7	30.5	660.49000	930.25000	783.85000
9	26.1	29.9	681.21000	894.01000	780.39000
10	25.8	30.4	665.64000	924.16000	784.32000
11	25.9	30.3	670.81000	918.09000	784.77000
12	26.2	30.5	686.44000	930.25000	799.10000
13	25.6	30.6	655.36000	936.36000	783.36000
14	25.4	31	645.16000	961.00000	787.40000
15	26.6	29.6	707.56000	876.16000	787.36000
16	26.2	30.4	686.44000	924.16000	796.48000
17	26	30.7	676.00000	942.49000	798.20000
18	22.1	31.6	488.41000	998.56000	698.36000
19	25.9	30.5	670.81000	930.25000	789.95000
20	25.8	30.6	665.64000	936.36000	789.48000
21	25.9	30.7	670.81000	942.49000	795.13000
22	26.3	30.1	691.69000	906.01000	791.63000
23	26.1	30.6	681.21000	936.36000	798.66000
24	26	30.5	676.00000	930.25000	793.00000
25	26.4	30.7	696.96000	942.49000	810.48000
26	25.8	30.8	665.64000	948.64000	794.64000

1.2. Obliczamy M x według wzoru (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,50000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. W podobny sposób obliczamy M y.

1.3.1. Dodaj wszystkie elementy po kolei y k

y 1 + y 2 +… + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793.000000

1.3.2. Podziel otrzymaną sumę przez liczbę elementów próbki

793.00000 / 26 = 30.50000

Mr = 30,50000

1.4. W podobny sposób obliczamy M xy.

1.4.1. Zsumuj kolejno wszystkie elementy szóstej kolumny tabeli 1 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Podziel otrzymaną sumę przez liczbę elementów

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Obliczamy wartość S x 2 według wzoru (1.6.).

1.5.1. Zsumuj kolejno wszystkie elementy czwartej kolumny tabeli 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Podziel otrzymaną sumę przez liczbę elementów

17256.91000 / 26 = 663.72731

1.5.3. Odejmij kwadrat M x od ostatniej liczby, aby uzyskać wartość S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Obliczamy wartość S y 2 według wzoru (1.6.).

1.6.1. Zsumuj kolejno wszystkie elementy piątej kolumny tabeli 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Podziel otrzymaną sumę przez liczbę elementów

24191.84000 / 26 = 930.45538

1.6.3. Odejmij kwadrat M y od ostatniej liczby, aby otrzymać wartość S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Obliczmy iloczyn wielkości S x 2 i S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Wyciągnijmy pierwiastek kwadratowy z ostatniej liczby, otrzymamy wartość S x S y.

S x S y = 0,36951

1.9. Obliczmy wartość współczynnika korelacji ze wzoru (1.4.).

R = (785.10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ODPOWIEDŹ: R x, y = -0,720279

2. Sprawdź istotność współczynnika korelacji (sprawdź hipotezę zależności).

Ponieważ oszacowanie współczynnika korelacji jest obliczane na próbie skończonej, a zatem może odbiegać od jego ogólnej wartości, konieczne jest sprawdzenie istotności współczynnika korelacji. Sprawdzenie odbywa się za pomocą kryterium t:

t =

R x, y


√	n - 2


√	1 - R 2 x, y

(2.1)

Wartość losowa T podąża za rozkładem t-Studenta i zgodnie z tabelą rozkładów t należy znaleźć wartość krytyczną kryterium (t cr.α) na danym poziomie istotności α. Jeżeli moduł t obliczony ze wzoru (2.1) okaże się być mniejszy niż t cr Α, to zależności między zmienne losowe X i Y nie są. W przeciwnym razie dane eksperymentalne nie stoją w sprzeczności z hipotezą o zależności zmiennych losowych.

2.1. Wartość kryterium t obliczamy ze wzoru (2.1) otrzymujemy:

t =

-0.72028


√	26 - 2


√	1 - (-0.72028) 2

= -5.08680

2.2. Wyznaczmy z tablicy rozkładów t wartość krytyczną parametru t cr

Poszukiwana wartość t cr Α znajduje się na przecięciu prostej odpowiadającej liczbie stopni swobody i kolumny odpowiadającej danemu poziomowi istotności α.
W naszym przypadku liczba stopni swobody to n - 2 = 26 - 2 = 24 i α = 0.05 , co odpowiada wartości krytycznej kryterium t cr α = 2.064 (patrz tabela 2)

Tabela 2 t-rozkład

Liczba stopni swobody (n - 2)	α = 0,1	α = 0,05	α = 0,02	α = 0,01	α = 0,002	α = 0,001
1	6.314	12.706	31.821	63.657	318.31	636.62
2	2.920	4.303	6.965	9.925	22.327	31.598
3	2.353	3.182	4.541	5.841	10.214	12.924
4	2.132	2.776	3.747	4.604	7.173	8.610
5	2.015	2.571	3.365	4.032	5.893	6.869
6	1.943	2.447	3.143	3.707	5.208	5.959
7	1.895	2.365	2.998	3.499	4.785	5.408
8	1.860	2.306	2.896	3.355	4.501	5.041
9	1.833	2.262	2.821	3.250	4.297	4.781
10	1.812	2.228	2.764	3.169	4.144	4.587
11	1.796	2.201	2.718	3.106	4.025	4.437
12	1.782	2.179	2.681	3.055	3.930	4.318
13	1.771	2.160	2.650	3.012	3.852	4.221
14	1.761	2.145	2.624	2.977	3.787	4.140
15	1.753	2.131	2.602	2.947	3.733	4.073
16	1.746	2.120	2.583	2.921	3.686	4.015
17	1.740	2.110	2.567	2.898	3.646	3.965
18	1.734	2.101	2.552	2.878	3.610	3.922
19	1.729	2.093	2.539	2.861	3.579	3.883
20	1.725	2.086	2.528	2.845	3.552	3.850
21	1.721	2.080	2.518	2.831	3.527	3.819
22	1.717	2.074	2.508	2.819	3.505	3.792
23	1.714	2.069	2.500	2.807	3.485	3.767
24	1.711	2.064	2.492	2.797	3.467	3.745
25	1.708	2.060	2.485	2.787	3.450	3.725
26	1.706	2.056	2.479	2.779	3.435	3.707
27	1.703	2.052	2.473	2.771	3.421	3.690
28	1.701	2.048	2.467	2.763	3.408	3.674
29	1.699	2.045	2.462	2.756	3.396	3.659
30	1.697	2.042	2.457	2.750	3.385	3.646
40	1.684	2.021	2.423	2.704	3.307	3.551
60	1.671	2.000	2.390	2.660	3.232	3.460
120	1.658	1.980	2.358	2.617	3.160	3.373
∞	1.645	1.960	2.326	2.576	3.090	3.291

2.2. Porównajmy wartość bezwzględną kryterium t i t cr. Α

Wartość bezwzględna kryterium t jest nie mniejsza niż krytyczne t = 5,08680, t cr Α = 2,064, zatem dane eksperymentalne, z prawdopodobieństwem 0,95(1 - α), nie zaprzeczaj hipotezie na zależności zmiennych losowych X i Y.

3. Oblicz współczynniki równania regresji liniowej.

Równanie regresji liniowej to równanie linii prostej, które przybliża (w przybliżeniu opisuje) zależność między zmiennymi losowymi X i Y. Jeżeli założymy, że X jest wolne i Y jest zależne od X, to równanie regresji zostanie zapisane w następujący sposób

Y = a + b X (3.1), gdzie:

b =

R x, y

σ y

σ x

R x, y

S y

S x

(3.2),

a = M r - b M x (3.3)

Współczynnik obliczony ze wzoru (3.2) b zwany współczynnikiem regresji liniowej. W niektórych źródłach a nazywa się stałym współczynnikiem regresji i b odpowiednio zmienne.

Błędy predykcji Y dla danej wartości X obliczane są ze wzorów:

Nazywana jest również wielkość σ y / x (wzór 3.4) resztkowe odchylenie standardowe, charakteryzuje odejście wartości Y od linii regresji opisanej równaniem (3.1) przy ustalonej (podanej) wartości X.

S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Wyodrębnijmy pierwiastek kwadratowy z ostatniej liczby - otrzymujemy:
S y / S x = 0,55582

3.3 Oblicz współczynnik b według wzoru (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Oblicz współczynnik a według wzoru (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Oszacuj błędy równania regresji.

3.5.1 Z S y 2 wyciągamy pierwiastek kwadratowy, który otrzymujemy:

= 0.31437
3.5.4 Obliczmy błąd względny według wzoru (3.5)

δ r / x = (0,31437 / 30,50000) 100% = 1,03073%

4. Zbuduj wykres punktowy (pole korelacji) i wykres liniowy regresji.

Wykres punktowy to obraz graficzny odpowiednie pary (x k, y k) w postaci punktów na płaszczyźnie, we współrzędnych prostokątnych z osiami X i Y. Pole korelacji jest jedną z graficznych reprezentacji powiązanej (sparowanej) próbki. Linia regresji jest wykreślana w tym samym układzie współrzędnych. Skale i punkty początkowe na osiach powinny być starannie dobrane, aby wykres był jak najbardziej przejrzysty.

4.1. Znajdź minimalny i maksymalny element próbki X to odpowiednio 18. i 15. element, x min = 22,10000 i x max = 26,60000.

4.2. Znajdujemy minimalny i maksymalny element próbki Y, to jest odpowiednio 2 i 18 element, y min = 29,40000 i ymax = 31,60000.

4.3. Na osi odciętej zaznaczamy punkt początkowy nieco na lewo od punktu x 18 = 22,10000 i taką skalę, aby punkt x 15 = 26,60000 zmieścił się na osi, a pozostałe punkty były wyraźnie wyróżnione.

4.4. Na osi rzędnych zaznacz punkt początkowy nieco na lewo od punktu y2 = 29,40000 i taką skalę, aby punkt y18 = 31,60000 zmieścił się na osi, a pozostałe punkty były wyraźnie wyróżnione.

4.5. Na odciętej umieszczamy wartości xk, a na rzędnej wartości yk.

4.6. Umieść punkty (x 1, y 1), (x 2, y 2),…, (x 26, y 26) na płaszczyźnie współrzędnych. Otrzymujemy diagram rozrzutu (pole korelacji), pokazany na poniższym rysunku.

4.7. Narysujmy linię regresji.

Aby to zrobić, znajdź dwa różne punkty o współrzędnych (x r1, y r1) i (x r2, y r2) spełniających równanie (3.6), narysuj je na płaszczyźnie współrzędnych i narysuj przez nie linię prostą. Przyjmij wartość x min = 22,10000 jako odciętą pierwszego punktu. Podstaw wartość x min do równania (3.6), otrzymujemy rzędną pierwszego punktu. Mamy więc punkt o współrzędnych (22.10000, 31.96127). W podobny sposób otrzymujemy współrzędne drugiego punktu, wpisując jako odciętą wartość x max = 26,60000. Drugim punktem będzie: (26.60000, 30.15970).

Linia regresji jest pokazana na poniższym rysunku w kolorze czerwonym.

Zauważ, że linia regresji zawsze przechodzi przez punkt średniej wartości X i Y, tj. ze współrzędnymi (M x, M y).

06.06.2018 16 235 0 Igor

Psychologia i społeczeństwo

Wszystko na świecie jest ze sobą połączone. Każda osoba, na poziomie intuicji, stara się znaleźć relacje między zjawiskami, aby móc na nie wpływać i je kontrolować. Pojęcie, które odzwierciedla tę zależność, nazywa się korelacją. Co to w uproszczeniu oznacza?

Treść:

Koncepcja korelacji

Korelacja (od łacińskiego „correlatio” - stosunek, relacja)- termin matematyczny oznaczający miarę statystycznej zależności probabilistycznej między zmiennymi losowymi (zmiennymi).

Przykład: weźmy dwa rodzaje relacji:

Najpierw- długopis w dłoni osoby. W którym kierunku porusza się ręka, w którym kierunku jest rączka. Jeśli ręka jest w spoczynku, pióro również nie napisze. Jeśli osoba naciśnie go trochę mocniej, ślad na papierze będzie bogatszy. Ten rodzaj relacji odzwierciedla silny związek i nie jest skorelowany. Ta relacja jest funkcjonalna.
Drugi widok- związek między poziomem wykształcenia osoby a czytaniem literatury. Nie wiadomo z góry, która z osób czyta więcej: z wyższa edukacja lub bez niego. Związek ten jest przypadkowy lub stochastyczny, bada go nauka statystyczna zajmująca się wyłącznie zjawiskami masowymi. Jeżeli obliczenia statystyczne pozwolą wykazać korelację między poziomem wykształcenia a czytaniem literatury, to pozwoli to na dowolne przewidywanie, przewidywanie prawdopodobieństwa wystąpienia zdarzeń. W tym przykładzie z dużym prawdopodobieństwem można argumentować, że osoby z wyższym wykształceniem, bardziej wykształcone, częściej czytają książki. Ale ponieważ połączenie między tymi parametrami nie działa, możemy się mylić. Zawsze można obliczyć prawdopodobieństwo takiego błędu, które będzie wyjątkowo małe i nazywa się poziomem istotności statystycznej (p).

Przykłady związku między Zjawiska naturalne są:łańcuch pokarmowy w przyrodzie, ciało ludzkie, które składa się z połączonych ze sobą układów narządów i funkcjonujących jako całość.

Codziennie mamy do czynienia z zależnością korelacyjną w Życie codzienne: między pogodą a dobry humor, prawidłowe formułowanie celów i ich osiąganie, pozytywne nastawienie i szczęście, poczucie szczęścia i dobrobytu finansowego. Ale szukamy powiązań, opierając się nie na matematycznych obliczeniach, ale na mitach, intuicji, przesądach, jałowych spekulacjach. Zjawiska te bardzo trudno przełożyć na język matematyczny, wyrazić w liczbach, zmierzyć. Inna sprawa, gdy analizujemy zjawiska, które można obliczyć, przedstawić w postaci liczb. W tym przypadku możemy określić korelację za pomocą współczynnika korelacji (r), który odzwierciedla siłę, stopień, szczelność i kierunek korelacji między zmiennymi losowymi.

Silna korelacja między zmiennymi losowymi- dowód na istnienie jakiegoś statystycznego związku konkretnie między tymi zjawiskami, ale tego związku nie można przenieść na te same zjawiska, ale na inną sytuację. Często badacze, uzyskawszy w swoich obliczeniach istotną korelację między dwiema zmiennymi, w oparciu o prostotę analizy korelacji, formułują fałszywe intuicyjne założenia o istnieniu związków przyczynowych między znakami, zapominając, że współczynnik korelacji ma charakter probabilistyczny.

Przykład: liczba rannych w warunkach oblodzenia oraz liczba wypadków drogowych wśród pojazdów. Wartości te będą ze sobą skorelowane, chociaż absolutnie nie są ze sobą powiązane, a jedynie mają związek ze wspólną przyczyną tych zdarzenia losowe- lodowate warunki. Jeżeli analiza nie wykazała związku korelacyjnego między zjawiskami, nie świadczy to jeszcze o braku związku między nimi, który może być złożony nieliniowo, nieujawniony za pomocą obliczeń korelacyjnych.

Jako pierwsi do obiegu naukowego wprowadzili pojęcie korelacji Francuzi paleontolog Georges Cuvier... W XVIII w. wyprowadził prawo korelacji części i narządów organizmów żywych, dzięki czemu ze znalezionych części ciała (szczątków) możliwe stało się przywrócenie wyglądu całego skamieniałego stworzenia, zwierzęcia. W statystyce termin korelacja został po raz pierwszy użyty w 1886 roku przez angielskiego naukowca Francis Galton... Ale nie mógł wydedukować dokładnego wzoru na obliczenie współczynnika korelacji, ale zrobił to jego uczeń - słynny matematyk i biolog Karl Pearson.

Rodzaje korelacji

Według ważności- bardzo znaczące, znaczące i nieistotne.

Wyświetlenia	co jest r
Szczególnie ważny	r odpowiada poziomowi istotności statystycznej p<=0,01
Istotne	r odpowiada p<=0,05
Nieistotny	r nie osiąga p>0,1

Negatywny(spadek wartości jednej zmiennej prowadzi do wzrostu poziomu innej: im więcej fobii ma dana osoba, tym mniejsze prawdopodobieństwo zajęcia pozycji lidera) i pozytywnej (jeśli wzrost jednej wartości pociąga za sobą wzrost poziom innego: im bardziej jesteś zdenerwowany, tym większe prawdopodobieństwo zachorowania). Jeśli nie ma związku między zmiennymi, to taka korelacja nazywana jest zerem.

Liniowy(gdy jedna wielkość rośnie lub maleje, druga również rośnie lub maleje) i nieliniowa (gdy, gdy zmienia się jedna wielkość, charakteru zmiany drugiej nie można opisać za pomocą zależności liniowej, wówczas stosowane są inne prawa matematyczne - wielomian, zależność hiperboliczna).

Siłą.

Szanse

W zależności od skali, do której należą badane zmienne, obliczane są różne typy współczynników korelacji:

Współczynnik korelacji Pearsona, współczynnik liniowej korelacji par lub korelacja momentów produktów oblicza się dla zmiennych z interwałowymi i ilościowymi skalami pomiarowymi.
Współczynnik korelacji rang Spearmana lub Kendalla - gdy przynajmniej jedna z wartości ma skalę porządkową lub nie ma rozkładu normalnego.
Współczynnik korelacji punktowej dwurzędowej (współczynnik korelacji znaków Fechnera) - jeśli jedna z dwóch wartości jest dychotomiczna.
Współczynnik korelacji czteropolowej (współczynnik korelacji wielu rang (zgodność) - jeśli dwie zmienne są dychotomiczne).

Współczynnik Pearsona odnosi się do wskaźników korelacji parametrycznej, cała reszta - do wskaźników nieparametrycznych.

Współczynnik korelacji mieści się w przedziale od -1 do +1. Przy całkowitej korelacji dodatniej r = +1, przy całkowicie ujemnej - r = -1.

Formuła i obliczenia

Przykłady

Konieczne jest określenie związku między dwiema zmiennymi: poziomem rozwoju intelektualnego (zgodnie z przeprowadzonym testem) i liczbą opóźnień w miesiącu (zgodnie z zapisami w czasopiśmie edukacyjnym) wśród uczniów.

Dane początkowe przedstawia tabela:

№	Dane IQ (x)	Dane dotyczące liczby spóźnionych przyjazdów (y)










Suma	1122
Przeciętny	112,2

Aby dać poprawną interpretację otrzymanego wskaźnika, należy przeanalizować znak współczynnika korelacji (+ lub -) oraz jego wartość bezwzględną (modulo).

Zgodnie z tabelą klasyfikacji współczynników korelacji według siły wnioskujemy, że rxy = -0,827 jest silną ujemną zależnością korelacji. Tak więc liczba spóźnionych studentów jest bardzo silnie uzależniona od ich poziomu rozwoju intelektualnego. Można powiedzieć, że uczniowie z wysokim IQ rzadziej spóźniają się na zajęcia niż uczniowie z niskim IQ.

Współczynnik korelacji może być wykorzystany zarówno przez naukowców do potwierdzenia lub obalenia założenia o zależności dwóch wielkości lub zjawisk i zmierzenia ich siły, istotności, jak i przez studentów do prowadzenia badań empirycznych i statystycznych z różnych przedmiotów. Należy pamiętać, że ten wskaźnik nie jest idealnym narzędziem, jest obliczany tylko do pomiaru siły zależności liniowej i zawsze będzie wartością probabilistyczną z pewnym błędem.

Analiza korelacji stosowana jest w następujących obszarach:

nauki ekonomiczne;
astrofizyka;
nauki społeczne (socjologia, psychologia, pedagogika);
agrochemia;
metaloznawstwo;
przemysł (do kontroli jakości);
hydrobiologia;
biometria itp.

Przyczyny popularności metody analizy korelacji:

Względna prostota obliczania współczynników korelacji nie wymaga specjalnego wykształcenia matematycznego.
Pozwala na obliczenie zależności między masowymi zmiennymi losowymi, które są przedmiotem analiz nauk statystycznych. W związku z tym metoda ta stała się powszechna w dziedzinie badań statystycznych.

Mam nadzieję, że możesz teraz odróżnić funkcjonalną od korelacji i wiedzieć, że kiedy słyszysz o korelacji w telewizji lub czytasz w prasie, oznacza to pozytywną i wystarczająco znaczącą relację między tymi dwoma.

W statystykach Współczynnik korelacji (język angielski Współczynnik korelacji) służy do testowania hipotezy o istnieniu związku między dwiema zmiennymi losowymi, a także pozwala oszacować jej siłę. W teorii portfela ten wskaźnik jest zwykle używany do określenia charakteru i siły związku między zwrotem z papieru wartościowego (aktywa) a zwrotem z portfela. Jeśli rozkład tych zmiennych jest normalny lub zbliżony do normalnego, należy użyć Współczynnik korelacji Pearsona, który jest obliczany według następującego wzoru:

Odchylenie standardowe stopy zwrotu z akcji Spółki A wyniesie 0,6398, akcji Spółki B 0,5241 a portfela 0,5668. ( Jak obliczane jest odchylenie standardowe, można odczytać)

Współczynnik korelacji zwrotu z akcji Spółki A i zwrotu z portfela wyniesie -0,864, a z akcji Spółki B 0,816.

RA = -0,313 / (0,6389 * 0,5668) = -0,864

RB = 0,242 / (0,5241 * 0,5668) = 0,816

Można stwierdzić, że istnieje dość silna zależność między zwrotem portfela a zwrotem z akcji Spółki A i Spółki B. Jednocześnie zwrot z akcji Spółki A wykazuje wielokierunkowy ruch ze zwrotem portfela, a zwrot z akcji Spółki B jest jednokierunkowy.