7 współczynnik korelacji. Kryterium korelacji Pearsona
Badając zdrowie publiczne i ochronę zdrowia w celach naukowych i praktycznych, badacz często musi przeprowadzić analizę statystyczną relacji między wskaźnikami czynnikowymi i efektywnymi populacji statystycznej (związek przyczynowy) lub określić zależność równoległych zmian w kilku cechach ta populacja w jakiejś trzeciej ilości (z ich wspólnej przyczyny). Konieczna jest umiejętność zbadania cech tego połączenia, określenia jego wielkości i kierunku, a także oceny jego niezawodności. W tym celu stosuje się metody korelacji.
- Rodzaje przejawów ilościowych relacji między znakami
- łącze funkcjonalne
- link korelacji
- Definicje funkcjonalne i korelacji
Połączenie funkcjonalne- ten rodzaj relacji między dwoma znakami, gdy każda wartość jednego z nich odpowiada ściśle określonej wartości drugiego (powierzchnia koła zależy od promienia koła itp.). Połączenie funkcjonalne jest typowe dla procesów fizycznych i matematycznych.
Łącze korelacji- taki związek, w którym każda konkretna wartość jednego znaku odpowiada kilku wartościom innego powiązanego z nim znaku (relacja między wzrostem a masą ciała osoby; związek między temperaturą ciała a tętnem itp.). Korelacja jest typowa dla procesów biomedycznych.
- Praktyczne znaczenie ustalenia korelacji... Ujawnienie związku przyczynowo-skutkowego między objawami czynnikowymi i wypadkowymi (przy ocenie rozwoju fizycznego, określenie związku między warunkami pracy, życiem codziennym i stanem zdrowia, przy określaniu zależności częstości zachorowań od wieku, stażu pracy , obecność zagrożeń przemysłowych itp.)
Zależność równoległych zmian w kilku cechach od jakiejś trzeciej wartości. Na przykład pod wpływem wysokich temperatur w warsztacie zachodzą zmiany ciśnienie krwi lepkość krwi, tętno itp.
- Wartość charakteryzująca kierunek i siłę związku między znakami... Współczynnik korelacji, który w jednej liczbie daje wyobrażenie o kierunku i sile związku między znakami (zjawiskami), granice jego wahań od 0 do ± 1
- Metody reprezentacji korelacji
- wykres (wykres punktowy)
- Współczynnik korelacji
- Kierunek korelacji
- proste
- odwrócić
- Siła korelacji
- silny: ± 0,7 do ± 1
- średnia: ± 0,3 do ± 0,699
- słaby: 0 do ± 0,299
- Metody wyznaczania współczynnika korelacji i wzory
- metoda kwadratów (metoda Pearsona)
- metoda rangowa (metoda Spearmana)
- Wymagania metodologiczne dotyczące stosowania współczynnika korelacji
- pomiar związku jest możliwy tylko w populacjach jednorodnych jakościowo (np. pomiar związku między wzrostem a masą ciała w populacjach jednorodnych pod względem płci i wieku)
- obliczenia można wykonać za pomocą wartości bezwzględnych lub pochodnych
- do obliczenia współczynnika korelacji, niezgrupowane seria wariacji(wymóg ten ma zastosowanie tylko przy obliczaniu współczynnika korelacji metodą kwadratową)
- liczba obserwacji nie mniej niż 30
- Rekomendacje stosowania metody korelacji rang (metoda Spearmana)
- gdy nie ma potrzeby dokładnego ustalania siły połączenia, a jedynie dane orientacyjne
- gdy cechy są reprezentowane nie tylko przez wartości ilościowe, ale także przez wartości atrybutywne
- gdy seria dystrybucji funkcji ma otwarte opcje (na przykład doświadczenie zawodowe do 1 roku itp.)
- Zalecenia dotyczące stosowania metody kwadratów (metoda Pearsona)
- gdy wymagane jest dokładne ustalenie siły połączenia między znakami
- kiedy znaki są tylko ilościowe
- Metodologia i procedura obliczania współczynnika korelacji
1) Metoda kwadratowa
2) Metoda rankingowa
- Schemat oceny korelacji przez współczynnik korelacji
- Obliczanie błędu współczynnika korelacji
- Ocena rzetelności współczynnika korelacji uzyskanego metodą korelacji rang i metodą kwadratów
Metoda 1
Wiarygodność określa wzór:Kryterium t szacowane jest według tabeli wartości t z uwzględnieniem liczby stopni swobody (n - 2), gdzie n to liczba sparowanych opcji. Kryterium t musi być równe lub większe od kryterium tabelarycznego, odpowiadające prawdopodobieństwu p ≥99%.
Metoda 2
Rzetelność ocenia się za pomocą specjalnej tabeli standardowych współczynników korelacji. W tym przypadku taki współczynnik korelacji uważa się za wiarygodny, gdy dla pewnej liczby stopni swobody (n – 2) jest równy lub większy niż współczynnik tabelaryczny odpowiadający stopniowi bezbłędnej predykcji p ≥95%.
Zadanie: obliczyć współczynnik korelacji, określić kierunek i siłę związku między ilością wapnia w wodzie a twardością wody, jeśli znane są następujące dane (tabela 1). Oceń niezawodność połączenia. Wyciągnij wniosek.
Tabela 1
Uzasadnienie wyboru metody. Do rozwiązania problemu wybrano metodę kwadratów (Pearson), ponieważ każdy ze znaków (twardość wody i ilość wapnia) ma wyrażenie liczbowe; brak otwartej opcji.
Rozwiązanie.
Kolejność obliczeń opisano w tekście, wyniki przedstawiono w tabeli. Po zbudowaniu rzędów sparowanych porównywalnych atrybutów oznacz je przez x (twardość wody w stopniach) i przez y (ilość wapnia w wodzie w mg/l).
Twardość wody (w stopniach) |
Ilość wapnia w wodzie (w mg/l) |
d x | d w | d x x d y | d x 2 | d r 2 |
4 8 11 27 34 37 |
28 56 77 191 241 262 |
-16 -12 -9 +7 +14 +16 |
-114 -86 -66 +48 +98 +120 |
1824 1032 594 336 1372 1920 |
256 144 81 49 196 256 |
12996 7396 4356 2304 9604 14400 |
M x = x / n | М у = Σ у / n | Σ d x x d y = 7078 | Σ d x 2 = 982 | Σ d r 2 = 51056 | ||
M x = 120/6 = 20 | Mr = 852/6 = 142 |
- Określ średnie wartości M x w opcji wiersza „x” i M y w opcji wiersza „y” za pomocą wzorów:
M x = Σx / n (kolumna 1) i
М у = Σу / n (kolumna 2) - Znajdź odchylenie (d x i d y) każdej opcji od wartości obliczonej średniej w wierszu „x” i w wierszu „y”
d x = x - M x (wykres 3) i d y = y - M y (wykres 4). - Znajdź iloczyn odchyleń d x x d y i zsumuj je: Σ d x x d y (kolumna 5)
- Podnieś do kwadratu każde odchylenie d x i d y i zsumuj ich wartości wzdłuż wiersza „x” i wiersza „y”: d x 2 = 982 (kolumna 6) i Σ d y 2 = 51056 (kolumna 7).
- Określ iloczyn Σ d x 2 х Σ d y 2 i wyodrębnij z tego produktu Pierwiastek kwadratowy
- Otrzymane wartości Σ (d x x d y) i √ (Σd x 2 x Σd y 2) podstawiamy we wzorze na obliczenie współczynnika korelacji:
- Określ wiarygodność współczynnika korelacji:
Pierwsza metoda. Znajdź błąd współczynnika korelacji (mr xy) i kryterium t ze wzorów:Kryterium t = 14,1, co odpowiada prawdopodobieństwu bezbłędnej prognozy p>99,9%.
Drugi sposób. Wiarygodność współczynnika korelacji ocenia się zgodnie z tabelą „Standardowe współczynniki korelacji” (patrz Załącznik 1). Przy liczbie stopni swobody (n - 2) = 6 - 2 = 4, nasz obliczony współczynnik korelacji r xy = + 0,99 jest większy niż współczynnik tabelaryczny (r tab = + 0,917 przy p = 99%).
Wniosek. Im więcej wapnia w wodzie, tym jest twardsza (wiązanie prosty, mocny i niezawodny: rxy = + 0,99, p> 99,9%).
w sprawie stosowania metody rangZadanie: wykorzystanie metody rang do ustalenia kierunku i siły związku między stażem pracy w latach a częstością urazów, jeśli uzyska się następujące dane:
Uzasadnienie wyboru metody: do rozwiązania problemu można wybrać tylko metodę korelacji rang, ponieważ pierwszy rząd znaku „doświadczenie zawodowe w latach” ma otwarte warianty (doświadczenie zawodowe do 1 roku i 7 lub więcej lat), co nie pozwala na zastosowanie dokładniejszej metody - metody kwadratów - na ustalenie związku między porównane znaki.
Rozwiązanie... Kolejność obliczeń podano w tekście, wyniki przedstawiono w tabeli. 2.
Tabela 2
Doświadczenie zawodowe w latach Liczba urazów Liczby porządkowe (rangi) Różnica rang Różnica rang do kwadratu x Tak d (x-y) d 2 Do 1 roku 24 1 5 -4 16 1-2 16 2 4 -2 4 3-4 12 3 2,5 +0,5 0,25 5-6 12 4 2,5 +1,5 2,25 7 i więcej 6 5 1 +4 16 d 2 = 38,5 Standardowe współczynniki korelacji uznane za wiarygodne (według L.S.Kaminsky'ego)
Liczba stopni swobody - 2 Poziom prawdopodobieństwa p (%) 95% 98% 99% 1 0,997 0,999 0,999 2 0,950 0,980 0,990 3 0,878 0,934 0,959 4 0,811 0,882 0,917 5 0,754 0,833 0,874 6 0,707 0,789 0,834 7 0,666 0,750 0,798 8 0,632 0,716 0,765 9 0,602 0,885 0,735 10 0,576 0,858 0,708 11 0,553 0,634 0,684 12 0,532 0,612 0,661 13 0,514 0,592 0,641 14 0,497 0,574 0,623 15 0,482 0,558 0,606 16 0,468 0,542 0,590 17 0,456 0,528 0,575 18 0,444 0,516 0,561 19 0,433 0,503 0,549 20 0,423 0,492 0,537 25 0,381 0,445 0,487 30 0,349 0,409 0,449 - Własow W.W. Epidemiologia. - M .: GEOTAR-MED, 2004 .-- 464 s.
- Lisitsyn Yu.P. Zdrowie publiczne i opieka zdrowotna. Podręcznik dla uczelni. - M .: GEOTAR-MED, 2007 .-- 512 s.
- Medyk V.A., Yuriev V.K. Przebieg wykładów z zakresu zdrowia publicznego i ochrony zdrowia: Część 1. Zdrowie publiczne. - M .: Medycyna, 2003 .-- 368 s.
- Minyaev V.A., Vishnyakov N.I. oraz inne organizacje zajmujące się medycyną społeczną i ochroną zdrowia (Przewodnik w 2 tomach). - SPb, 1998.-528 s.
- Kucherenko V.Z., Agarkov N.M. i inne Organizacja higieny społecznej i opieki zdrowotnej ( Instruktaż) - Moskwa, 2000 .-- 432 s.
- S. Glantza. Statystyki biomedyczne. Na z angielskiego. - M., Praktika, 1998 .-- 459 s.
Współczynnik korelacji odzwierciedla stopień powiązania między dwoma wskaźnikami. Zawsze przyjmuje wartość od -1 do 1. Jeśli współczynnik znajduje się w pobliżu 0, to mówią, że nie ma związku między zmiennymi.
Jeśli wartość jest bliska jedności (na przykład od 0,9), to istnieje silna bezpośrednia zależność między obserwowanymi obiektami. Jeśli współczynnik jest zbliżony do innego skrajny punkt zakres (-1), to istnieje silna odwrotna zależność między zmiennymi. Gdy wartość jest gdzieś pośrodku od 0 do 1 lub od 0 do -1, mówimy o słabym połączeniu (do przodu lub do tyłu). Ten związek zwykle nie jest brany pod uwagę: uważa się, że nie istnieje.
Obliczanie współczynnika korelacji w Excelu
Rozważmy przykładowo metody obliczania współczynnika korelacji, cechy bezpośrednich i odwrotnych zależności między zmiennymi.
Wartości wskaźników x i y:
Y jest zmienną niezależną, x jest zmienną zależną. Konieczne jest znalezienie siły (silna / słaba) i kierunku (przód / tył) połączenia między nimi. Wzór na współczynnik korelacji wygląda tak:
Aby łatwiej było to zrozumieć, podzielmy go na kilka prostych elementów.
Pomiędzy zmiennymi ustala się silny bezpośredni związek.
Wbudowana funkcja CORREL pozwala uniknąć skomplikowanych obliczeń. Obliczmy za jego pomocą współczynnik korelacji par w Excelu. Nazywamy mistrzem funkcji. Znajdujemy właściwy. Argumenty funkcji to tablica wartości y i tablica wartości x:
Pokażmy wartości zmiennych na wykresie:
Istnieje silny związek między y i x, ponieważ linie biegną prawie równolegle do siebie. Związek jest bezpośredni: rosnący y - rosnący x, malejący y - malejący x.
Macierz współczynników korelacji parami w Excelu
Macierz korelacji jest tabelą, na przecięciu wierszy i kolumn znajdują się współczynniki korelacji między odpowiadającymi im wartościami. Budowanie go dla kilku zmiennych ma sens.
Macierz współczynników korelacji w Excelu jest budowana za pomocą narzędzia Correlation z pakietu Data Analysis.
Stwierdzono silny bezpośredni związek między wartościami y i x1. Między x1 a x2 istnieje silna pętla sprzężenia zwrotnego. Praktycznie nie ma związku z wartościami w kolumnie x3.
Zawiadomienie! Rozwiązanie twojego Szczególnym zadaniem będzie wyglądać podobnie ten przykład, w tym wszystkie tabele i teksty objaśniające przedstawione poniżej, ale biorąc pod uwagę Twoje oryginalne dane ...Zadanie:
Istnieje powiązana próbka 26 par wartości (x k, y k):
k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x k | 25.20000 | 26.40000 | 26.00000 | 25.80000 | 24.90000 | 25.70000 | 25.70000 | 25.70000 | 26.10000 | 25.80000 |
y k | 30.80000 | 29.40000 | 30.20000 | 30.50000 | 31.40000 | 30.30000 | 30.40000 | 30.50000 | 29.90000 | 30.40000 |
k | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
x k | 25.90000 | 26.20000 | 25.60000 | 25.40000 | 26.60000 | 26.20000 | 26.00000 | 22.10000 | 25.90000 | 25.80000 |
y k | 30.30000 | 30.50000 | 30.60000 | 31.00000 | 29.60000 | 30.40000 | 30.70000 | 31.60000 | 30.50000 | 30.60000 |
k | 21 | 22 | 23 | 24 | 25 | 26 |
x k | 25.90000 | 26.30000 | 26.10000 | 26.00000 | 26.40000 | 25.80000 |
y k | 30.70000 | 30.10000 | 30.60000 | 30.50000 | 30.70000 | 30.80000 |
Wymagane jest obliczenie / zbudowanie:
- Współczynnik korelacji;
- przetestować hipotezę o zależności zmiennych losowych X i Y, na poziomie istotności α = 0,05;
- współczynniki równania regresji liniowej;
- wykres punktowy (pole korelacji) i wykres liniowy regresji;
ROZWIĄZANIE:
1. Oblicz współczynnik korelacji.
Współczynnik korelacji jest wskaźnikiem wzajemnego probabilistycznego wpływu dwóch zmiennych losowych. Współczynnik korelacji R może brać wartości od -1 przed +1 ... Jeśli wartość bezwzględna jest bliższa 1 , to jest to dowód na silny związek między wielkościami, a jeśli jest bliższy 0 - wtedy oznacza to słabe połączenie lub jego brak. Jeśli wartość bezwzględna R jest równy jeden, wtedy możemy mówić o funkcjonalnym związku między wielkościami, to znaczy, że jedna wielkość może być wyrażona przez inną za pomocą funkcji matematycznej.
Współczynnik korelacji można obliczyć za pomocą następujących wzorów:
n |
Σ |
k = 1 |
M x | = |
|
| x k, | Mój | = | lub według wzoru
W praktyce do obliczenia współczynnika korelacji często stosuje się wzór (1.4), ponieważ wymaga mniej obliczeń. Jeśli jednak kowariancja została wcześniej obliczona cov (X, Y), korzystniej jest zastosować wzór (1.1), ponieważ oprócz rzeczywistej wartości kowariancji można również wykorzystać wyniki obliczeń pośrednich. 1.1 Obliczmy współczynnik korelacji ze wzoru (1.4), w tym celu obliczamy wartości x k 2, y k 2 i x k y k i wpisujemy je w tabeli 1. Tabela 1
1.2. Obliczamy M x według wzoru (1.5). 1.2.1. x k x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,50000 1.2.2. 669.50000 / 26 = 25.75000 M x = 25,750000 1.3. W podobny sposób obliczamy M y. 1.3.1. Dodaj wszystkie elementy po kolei y k y 1 + y 2 +… + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793.000000 1.3.2. Podziel otrzymaną sumę przez liczbę elementów próbki 793.00000 / 26 = 30.50000 Mr = 30,50000 1.4. W podobny sposób obliczamy M xy. 1.4.1. Zsumuj kolejno wszystkie elementy szóstej kolumny tabeli 1 1 776.16000 + 776.16000 + ... + 794.64000 = 20412.830000 1.4.2. Podziel otrzymaną sumę przez liczbę elementów 20412.83000 / 26 = 785.10885 M xy = 785,108846 1.5. Obliczamy wartość S x 2 według wzoru (1.6.). 1.5.1. Zsumuj kolejno wszystkie elementy czwartej kolumny tabeli 1 635.04000 + 696.96000 + ... + 665.64000 = 17256.910000 1.5.2. Podziel otrzymaną sumę przez liczbę elementów 17256.91000 / 26 = 663.72731 1.5.3. Odejmij kwadrat M x od ostatniej liczby, aby uzyskać wartość S x 2 S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481 1.6. Obliczamy wartość S y 2 według wzoru (1.6.). 1.6.1. Zsumuj kolejno wszystkie elementy piątej kolumny tabeli 1 948.64000 + 864.36000 + ... + 948.64000 = 24191.840000 1.6.2. Podziel otrzymaną sumę przez liczbę elementów 24191.84000 / 26 = 930.45538 1.6.3. Odejmij kwadrat M y od ostatniej liczby, aby otrzymać wartość S y 2 S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538 1.7. Obliczmy iloczyn wielkości S x 2 i S y 2. S x 2 S y 2 = 0,66481 0,20538 = 0,136541 1.8. Wyciągnijmy pierwiastek kwadratowy z ostatniej liczby, otrzymamy wartość S x S y. S x S y = 0,36951 1.9. Obliczmy wartość współczynnika korelacji ze wzoru (1.4.). R = (785.10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028 ODPOWIEDŹ: R x, y = -0,720279 2. Sprawdź istotność współczynnika korelacji (sprawdź hipotezę zależności).Ponieważ oszacowanie współczynnika korelacji jest obliczane na próbie skończonej, a zatem może odbiegać od jego ogólnej wartości, konieczne jest sprawdzenie istotności współczynnika korelacji. Sprawdzenie odbywa się za pomocą kryterium t:
Wartość losowa T podąża za rozkładem t-Studenta i zgodnie z tabelą rozkładów t należy znaleźć wartość krytyczną kryterium (t cr.α) na danym poziomie istotności α. Jeżeli moduł t obliczony ze wzoru (2.1) okaże się być mniejszy niż t cr Α, to zależności między zmienne losowe X i Y nie są. W przeciwnym razie dane eksperymentalne nie stoją w sprzeczności z hipotezą o zależności zmiennych losowych. 2.1. Wartość kryterium t obliczamy ze wzoru (2.1) otrzymujemy:
2.2. Wyznaczmy z tablicy rozkładów t wartość krytyczną parametru t cr Poszukiwana wartość t cr Α znajduje się na przecięciu prostej odpowiadającej liczbie stopni swobody i kolumny odpowiadającej danemu poziomowi istotności α. Tabela 2 t-rozkład
2.2. Porównajmy wartość bezwzględną kryterium t i t cr. Α Wartość bezwzględna kryterium t jest nie mniejsza niż krytyczne t = 5,08680, t cr Α = 2,064, zatem dane eksperymentalne, z prawdopodobieństwem 0,95(1 - α), nie zaprzeczaj hipotezie na zależności zmiennych losowych X i Y. 3. Oblicz współczynniki równania regresji liniowej.Równanie regresji liniowej to równanie linii prostej, które przybliża (w przybliżeniu opisuje) zależność między zmiennymi losowymi X i Y. Jeżeli założymy, że X jest wolne i Y jest zależne od X, to równanie regresji zostanie zapisane w następujący sposób Y = a + b X (3.1), gdzie:
Współczynnik obliczony ze wzoru (3.2) b zwany współczynnikiem regresji liniowej. W niektórych źródłach a nazywa się stałym współczynnikiem regresji i b odpowiednio zmienne. Błędy predykcji Y dla danej wartości X obliczane są ze wzorów: Nazywana jest również wielkość σ y / x (wzór 3.4) resztkowe odchylenie standardowe, charakteryzuje odejście wartości Y od linii regresji opisanej równaniem (3.1) przy ustalonej (podanej) wartości X. | . |
S y / S x = 0,55582
3.3 Oblicz współczynnik b według wzoru (3.2)
b = -0.72028 0.55582 = -0.40035
3.4 Oblicz współczynnik a według wzoru (3.3)
a = 30.50000 - (-0.40035 25.75000) = 40.80894
3.5 Oszacuj błędy równania regresji.
3.5.1 Z S y 2 wyciągamy pierwiastek kwadratowy, który otrzymujemy:
3.5.4 Obliczmy błąd względny według wzoru (3.5)
δ r / x = (0,31437 / 30,50000) 100% = 1,03073%
4. Zbuduj wykres punktowy (pole korelacji) i wykres liniowy regresji.
Wykres punktowy to obraz graficzny odpowiednie pary (x k, y k) w postaci punktów na płaszczyźnie, we współrzędnych prostokątnych z osiami X i Y. Pole korelacji jest jedną z graficznych reprezentacji powiązanej (sparowanej) próbki. Linia regresji jest wykreślana w tym samym układzie współrzędnych. Skale i punkty początkowe na osiach powinny być starannie dobrane, aby wykres był jak najbardziej przejrzysty.4.1. Znajdź minimalny i maksymalny element próbki X to odpowiednio 18. i 15. element, x min = 22,10000 i x max = 26,60000.
4.2. Znajdujemy minimalny i maksymalny element próbki Y, to jest odpowiednio 2 i 18 element, y min = 29,40000 i ymax = 31,60000.
4.3. Na osi odciętej zaznaczamy punkt początkowy nieco na lewo od punktu x 18 = 22,10000 i taką skalę, aby punkt x 15 = 26,60000 zmieścił się na osi, a pozostałe punkty były wyraźnie wyróżnione.
4.4. Na osi rzędnych zaznacz punkt początkowy nieco na lewo od punktu y2 = 29,40000 i taką skalę, aby punkt y18 = 31,60000 zmieścił się na osi, a pozostałe punkty były wyraźnie wyróżnione.
4.5. Na odciętej umieszczamy wartości xk, a na rzędnej wartości yk.
4.6. Umieść punkty (x 1, y 1), (x 2, y 2),…, (x 26, y 26) na płaszczyźnie współrzędnych. Otrzymujemy diagram rozrzutu (pole korelacji), pokazany na poniższym rysunku.
4.7. Narysujmy linię regresji.
Aby to zrobić, znajdź dwa różne punkty o współrzędnych (x r1, y r1) i (x r2, y r2) spełniających równanie (3.6), narysuj je na płaszczyźnie współrzędnych i narysuj przez nie linię prostą. Przyjmij wartość x min = 22,10000 jako odciętą pierwszego punktu. Podstaw wartość x min do równania (3.6), otrzymujemy rzędną pierwszego punktu. Mamy więc punkt o współrzędnych (22.10000, 31.96127). W podobny sposób otrzymujemy współrzędne drugiego punktu, wpisując jako odciętą wartość x max = 26,60000. Drugim punktem będzie: (26.60000, 30.15970).
Linia regresji jest pokazana na poniższym rysunku w kolorze czerwonym.
Zauważ, że linia regresji zawsze przechodzi przez punkt średniej wartości X i Y, tj. ze współrzędnymi (M x, M y).
06.06.2018 16 235 0 Igor
Psychologia i społeczeństwo
Wszystko na świecie jest ze sobą połączone. Każda osoba, na poziomie intuicji, stara się znaleźć relacje między zjawiskami, aby móc na nie wpływać i je kontrolować. Pojęcie, które odzwierciedla tę zależność, nazywa się korelacją. Co to w uproszczeniu oznacza?
Treść:
Koncepcja korelacji
Korelacja (od łacińskiego „correlatio” - stosunek, relacja)- termin matematyczny oznaczający miarę statystycznej zależności probabilistycznej między zmiennymi losowymi (zmiennymi).
Przykład: weźmy dwa rodzaje relacji:
- Najpierw- długopis w dłoni osoby. W którym kierunku porusza się ręka, w którym kierunku jest rączka. Jeśli ręka jest w spoczynku, pióro również nie napisze. Jeśli osoba naciśnie go trochę mocniej, ślad na papierze będzie bogatszy. Ten rodzaj relacji odzwierciedla silny związek i nie jest skorelowany. Ta relacja jest funkcjonalna.
- Drugi widok- związek między poziomem wykształcenia osoby a czytaniem literatury. Nie wiadomo z góry, która z osób czyta więcej: z wyższa edukacja lub bez niego. Związek ten jest przypadkowy lub stochastyczny, bada go nauka statystyczna zajmująca się wyłącznie zjawiskami masowymi. Jeżeli obliczenia statystyczne pozwolą wykazać korelację między poziomem wykształcenia a czytaniem literatury, to pozwoli to na dowolne przewidywanie, przewidywanie prawdopodobieństwa wystąpienia zdarzeń. W tym przykładzie z dużym prawdopodobieństwem można argumentować, że osoby z wyższym wykształceniem, bardziej wykształcone, częściej czytają książki. Ale ponieważ połączenie między tymi parametrami nie działa, możemy się mylić. Zawsze można obliczyć prawdopodobieństwo takiego błędu, które będzie wyjątkowo małe i nazywa się poziomem istotności statystycznej (p).
Przykłady związku między Zjawiska naturalne są:łańcuch pokarmowy w przyrodzie, ciało ludzkie, które składa się z połączonych ze sobą układów narządów i funkcjonujących jako całość.
Codziennie mamy do czynienia z zależnością korelacyjną w Życie codzienne: między pogodą a dobry humor, prawidłowe formułowanie celów i ich osiąganie, pozytywne nastawienie i szczęście, poczucie szczęścia i dobrobytu finansowego. Ale szukamy powiązań, opierając się nie na matematycznych obliczeniach, ale na mitach, intuicji, przesądach, jałowych spekulacjach. Zjawiska te bardzo trudno przełożyć na język matematyczny, wyrazić w liczbach, zmierzyć. Inna sprawa, gdy analizujemy zjawiska, które można obliczyć, przedstawić w postaci liczb. W tym przypadku możemy określić korelację za pomocą współczynnika korelacji (r), który odzwierciedla siłę, stopień, szczelność i kierunek korelacji między zmiennymi losowymi.
Silna korelacja między zmiennymi losowymi- dowód na istnienie jakiegoś statystycznego związku konkretnie między tymi zjawiskami, ale tego związku nie można przenieść na te same zjawiska, ale na inną sytuację. Często badacze, uzyskawszy w swoich obliczeniach istotną korelację między dwiema zmiennymi, w oparciu o prostotę analizy korelacji, formułują fałszywe intuicyjne założenia o istnieniu związków przyczynowych między znakami, zapominając, że współczynnik korelacji ma charakter probabilistyczny.
Przykład: liczba rannych w warunkach oblodzenia oraz liczba wypadków drogowych wśród pojazdów. Wartości te będą ze sobą skorelowane, chociaż absolutnie nie są ze sobą powiązane, a jedynie mają związek ze wspólną przyczyną tych zdarzenia losowe- lodowate warunki. Jeżeli analiza nie wykazała związku korelacyjnego między zjawiskami, nie świadczy to jeszcze o braku związku między nimi, który może być złożony nieliniowo, nieujawniony za pomocą obliczeń korelacyjnych.
Jako pierwsi do obiegu naukowego wprowadzili pojęcie korelacji Francuzi paleontolog Georges Cuvier... W XVIII w. wyprowadził prawo korelacji części i narządów organizmów żywych, dzięki czemu ze znalezionych części ciała (szczątków) możliwe stało się przywrócenie wyglądu całego skamieniałego stworzenia, zwierzęcia. W statystyce termin korelacja został po raz pierwszy użyty w 1886 roku przez angielskiego naukowca Francis Galton... Ale nie mógł wydedukować dokładnego wzoru na obliczenie współczynnika korelacji, ale zrobił to jego uczeń - słynny matematyk i biolog Karl Pearson.
Rodzaje korelacji
Według ważności- bardzo znaczące, znaczące i nieistotne.
Wyświetlenia |
co jest r |
Szczególnie ważny |
r odpowiada poziomowi istotności statystycznej p<=0,01 |
Istotne |
r odpowiada p<=0,05 |
Nieistotny |
r nie osiąga p>0,1 |
Negatywny(spadek wartości jednej zmiennej prowadzi do wzrostu poziomu innej: im więcej fobii ma dana osoba, tym mniejsze prawdopodobieństwo zajęcia pozycji lidera) i pozytywnej (jeśli wzrost jednej wartości pociąga za sobą wzrost poziom innego: im bardziej jesteś zdenerwowany, tym większe prawdopodobieństwo zachorowania). Jeśli nie ma związku między zmiennymi, to taka korelacja nazywana jest zerem.
Liniowy(gdy jedna wielkość rośnie lub maleje, druga również rośnie lub maleje) i nieliniowa (gdy, gdy zmienia się jedna wielkość, charakteru zmiany drugiej nie można opisać za pomocą zależności liniowej, wówczas stosowane są inne prawa matematyczne - wielomian, zależność hiperboliczna).
Siłą.
Szanse
W zależności od skali, do której należą badane zmienne, obliczane są różne typy współczynników korelacji:
- Współczynnik korelacji Pearsona, współczynnik liniowej korelacji par lub korelacja momentów produktów oblicza się dla zmiennych z interwałowymi i ilościowymi skalami pomiarowymi.
- Współczynnik korelacji rang Spearmana lub Kendalla - gdy przynajmniej jedna z wartości ma skalę porządkową lub nie ma rozkładu normalnego.
- Współczynnik korelacji punktowej dwurzędowej (współczynnik korelacji znaków Fechnera) - jeśli jedna z dwóch wartości jest dychotomiczna.
- Współczynnik korelacji czteropolowej (współczynnik korelacji wielu rang (zgodność) - jeśli dwie zmienne są dychotomiczne).
Współczynnik Pearsona odnosi się do wskaźników korelacji parametrycznej, cała reszta - do wskaźników nieparametrycznych.
Współczynnik korelacji mieści się w przedziale od -1 do +1. Przy całkowitej korelacji dodatniej r = +1, przy całkowicie ujemnej - r = -1.
Formuła i obliczenia
Przykłady
Konieczne jest określenie związku między dwiema zmiennymi: poziomem rozwoju intelektualnego (zgodnie z przeprowadzonym testem) i liczbą opóźnień w miesiącu (zgodnie z zapisami w czasopiśmie edukacyjnym) wśród uczniów.
Dane początkowe przedstawia tabela:
№ |
Dane IQ (x) |
Dane dotyczące liczby spóźnionych przyjazdów (y) |
Suma |
1122 |
|
Przeciętny |
112,2 |
Aby dać poprawną interpretację otrzymanego wskaźnika, należy przeanalizować znak współczynnika korelacji (+ lub -) oraz jego wartość bezwzględną (modulo).
Zgodnie z tabelą klasyfikacji współczynników korelacji według siły wnioskujemy, że rxy = -0,827 jest silną ujemną zależnością korelacji. Tak więc liczba spóźnionych studentów jest bardzo silnie uzależniona od ich poziomu rozwoju intelektualnego. Można powiedzieć, że uczniowie z wysokim IQ rzadziej spóźniają się na zajęcia niż uczniowie z niskim IQ.
Współczynnik korelacji może być wykorzystany zarówno przez naukowców do potwierdzenia lub obalenia założenia o zależności dwóch wielkości lub zjawisk i zmierzenia ich siły, istotności, jak i przez studentów do prowadzenia badań empirycznych i statystycznych z różnych przedmiotów. Należy pamiętać, że ten wskaźnik nie jest idealnym narzędziem, jest obliczany tylko do pomiaru siły zależności liniowej i zawsze będzie wartością probabilistyczną z pewnym błędem.
Analiza korelacji stosowana jest w następujących obszarach:
- nauki ekonomiczne;
- astrofizyka;
- nauki społeczne (socjologia, psychologia, pedagogika);
- agrochemia;
- metaloznawstwo;
- przemysł (do kontroli jakości);
- hydrobiologia;
- biometria itp.
Przyczyny popularności metody analizy korelacji:
- Względna prostota obliczania współczynników korelacji nie wymaga specjalnego wykształcenia matematycznego.
- Pozwala na obliczenie zależności między masowymi zmiennymi losowymi, które są przedmiotem analiz nauk statystycznych. W związku z tym metoda ta stała się powszechna w dziedzinie badań statystycznych.
Mam nadzieję, że możesz teraz odróżnić funkcjonalną od korelacji i wiedzieć, że kiedy słyszysz o korelacji w telewizji lub czytasz w prasie, oznacza to pozytywną i wystarczająco znaczącą relację między tymi dwoma.
W statystykach Współczynnik korelacji (język angielski Współczynnik korelacji) służy do testowania hipotezy o istnieniu związku między dwiema zmiennymi losowymi, a także pozwala oszacować jej siłę. W teorii portfela ten wskaźnik jest zwykle używany do określenia charakteru i siły związku między zwrotem z papieru wartościowego (aktywa) a zwrotem z portfela. Jeśli rozkład tych zmiennych jest normalny lub zbliżony do normalnego, należy użyć Współczynnik korelacji Pearsona, który jest obliczany według następującego wzoru:
Odchylenie standardowe stopy zwrotu z akcji Spółki A wyniesie 0,6398, akcji Spółki B 0,5241 a portfela 0,5668. ( Jak obliczane jest odchylenie standardowe, można odczytać)
Współczynnik korelacji zwrotu z akcji Spółki A i zwrotu z portfela wyniesie -0,864, a z akcji Spółki B 0,816.
RA = -0,313 / (0,6389 * 0,5668) = -0,864
RB = 0,242 / (0,5241 * 0,5668) = 0,816
Można stwierdzić, że istnieje dość silna zależność między zwrotem portfela a zwrotem z akcji Spółki A i Spółki B. Jednocześnie zwrot z akcji Spółki A wykazuje wielokierunkowy ruch ze zwrotem portfela, a zwrot z akcji Spółki B jest jednokierunkowy.