7 коефіцієнт кореляції. Критерій кореляції Пірсона

При вивченні громадського здоров'я та охорони здоров'я в наукових і практичних цілях досліднику часто доводиться проводити статистичний аналіз зв'язків між факторними і результативними ознаками статистичний сукупності (причинно-наслідковий зв'язок) або визначення залежності паралельних змін декількох ознак цієї сукупності від будь-якої третьої величини (від загальної їх причини ). Необхідно вміти вивчати особливості зв'язку з цим, визначати її розміри і напрямок, а також оцінювати її достовірність. Для цього використовуються методи кореляції.

  1. Види прояви кількісних зв'язків між ознаками
    • функціональний зв'язок
    • кореляційний зв'язок
  2. Визначення функціональної і кореляційної зв'язку

    функціональний зв'язок - такий вид співвідношення між двома ознаками, коли кожному значенню одного з них відповідає строго певне значення іншого (площа кола залежить від радіуса кола і т.д.). Функціональний зв'язок характерна для фізико-математичних процесів.

    кореляційний зв'язок - такий зв'язок, при якій кожному значенню однієї ознаки відповідає кілька значень іншого взаємопов'язаного з ним ознаки (зв'язок між зростанням і масою тіла людини; зв'язок між температурою тіла і частотою пульсу і ін.). Кореляційний зв'язок характерна для медико-біологічних процесів.

  3. Практичне значення встановлення кореляційної зв'язку. Виявлення причинно-наслідкового між факторними і результативними ознаками (при оцінці фізичного розвитку, для визначення зв'язку між умовами праці, побуту і станом здоров'я, при визначенні залежності частоти випадків хвороби від віку, стажу, наявності виробничих шкідливостей та ін.)

    Залежність паралельних змін декількох ознак від якоїсь третьої величини. Наприклад, під впливом високої температури в цеху відбуваються зміни кров'яного тиску, В'язкості крові, частоти пульсу та ін.

  4. Величина, що характеризує напрямок і силу зв'язку між ознаками. Коефіцієнт кореляції, який одним числом дає уявлення про напрям і силу зв'язку між ознаками (явищами), межі його коливань від 0 до ± 1
  5. Способи подання кореляційної зв'язку
    • графік (діаграма розсіювання)
    • коефіцієнт кореляції
  6. Напрямок кореляційної зв'язку
    • пряма
    • oбратная
  7. Сила кореляційної зв'язку
    • сильна: ± 0,7 до ± 1
    • середня: ± 0,3 до ± 0,699
    • слабка: 0 до ± 0,299
  8. Методи визначення коефіцієнта кореляції і формули
    • метод квадратів (метод Пірсона)
    • рангові метод (метод Спірмена)
  9. Методичні вимоги до використання коефіцієнта кореляції
    • вимір зв'язку можливо тільки в якісно однорідних сукупностях (наприклад, вимір зв'язку між зростом і вагою в сумах, однорідних за статтю та віком)
    • розрахунок може проводитися з використанням абсолютних або похідних величин
    • для обчислення коефіцієнта кореляції використовуються не згруповані варіаційні ряди (Ця вимога застосовується тільки при обчисленні коефіцієнта кореляції за методом квадратів)
    • число спостережень не менше 30
  10. Рекомендації щодо застосування методу рангової кореляції (метод Спірмена)
    • коли немає необхідності в точному встановленні сили зв'язку, а досить орієнтовних даних
    • коли ознаки представлені не тільки кількісними, а й атрибутивними значеннями
    • коли ряди розподілу ознак мають відкриті варіанти (наприклад, стаж роботи до 1 року та ін.)
  11. Рекомендації до застосування методу квадратів (метод Пірсона)
    • коли потрібно точне встановлення сили зв'язку між ознаками
    • коли ознаки мають лише кількісне вираження
  12. Методика і порядок обчислення коефіцієнта кореляції

    1) Метод квадратів

    2) Рангове метод

  13. Схема оцінки кореляційної зв'язку за коефіцієнтом кореляції
  14. Обчислення помилки коефіцієнта кореляції
  15. Оцінка достовірності коефіцієнта кореляції, отриманого методом рангової кореляції і методом квадратів

    спосіб 1
    Достовірність визначається за формулою:

    Критерій t оцінюється по таблиці значень t з урахуванням числа ступенів свободи (n - 2), де n - число парних варіант. Критерій t повинен дорівнювати або більше табличного, відповідного ймовірності р ≥99%.

    спосіб 2
    Достовірність оцінюється за спеціальною таблицею стандартних коефіцієнтів кореляції. При цьому достовірним вважається такий коефіцієнт кореляції, коли при певному числі ступенів свободи (n - 2), він дорівнює або більше табличного, відповідного ступеня безпомилкового прогнозу р ≥95%.

на застосування методу квадратів

завдання: обчислити коефіцієнт кореляції, визначити напрямок і силу зв'язку між кількістю кальцію в воді і жорсткістю води, якщо відомі наступні дані (табл. 1). Оцінити достовірність зв'язку. Зробити висновок.

Таблиця 1

Обгрунтування вибору методу. Для вирішення завдання обраний метод квадратів (Пірсона), тому що кожен з ознак (жорсткість води і кількість кальцію) має числове вираження; немає відкритих варіант.

Рішення.
Послідовність розрахунків викладена в тексті, результати представлені в таблиці. Побудувавши ряди з парних зіставляються ознак, позначити їх через х (жорсткість води в градусах) і через у (кількість кальцію в воді в мг / л).

Жорсткість води
(В градусах)
Кількість кальцію в воді
(В мг / л)
d х d у d х х d у d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
М х \u003d Σ х / n М у \u003d Σ у / n Σ d х x d у \u003d 7078 Σ d х 2 \u003d 982 Σ d y 2 \u003d 51056
М х \u003d 120/6 \u003d 20 М y \u003d 852/6 \u003d 142
  1. Визначити середні величини M x ряду варіант "х" і М у в ряду варіант "у" по формулам:
    М х \u003d Σх / n (графа 1) і
    М у \u003d Σу / n (графа 2)
  2. Знайти відхилення (d х і d у) кожної варіанти від величини обчисленої середньої в ряду "x" і в ряду "у"
    d х \u003d х - М х (графа 3) і d y \u003d у - М у (графа4).
  3. Знайти твір відхилень d x х d y і підсумувати їх: Σ d х х d у (графа 5)
  4. Кожне відхилення d x і d у звести в квадрат і підсумувати їх значення по ряду "х" і по ряду "у": Σ d x 2 \u003d 982 (графа 6) і Σ d y 2 \u003d 51056 (графа 7).
  5. Визначити твір Σ d x 2 х Σ d y 2 і з цього твору витягти квадратний корінь
  6. Отримані величини Σ (d x x d y) і √ (Σd x 2 x Σd y 2) підставляємо в формулу розрахунку коефіцієнта кореляції:
  7. Визначити достовірність коефіцієнта кореляції:
    1-й спосіб. Знайти помилку коефіцієнта кореляції (mr xy) і критерій t за формулами:

    Критерій t \u003d 14,1, що відповідає ймовірності безпомилкового прогнозу р\u003e 99,9%.

    2-й спосіб. Достовірність коефіцієнта кореляції оцінюється по таблиці "Стандартні коефіцієнти кореляції" (див. Додаток 1). При числі ступенів свободи (n - 2) \u003d 6 - 2 \u003d 4, наш розрахунковий коефіцієнт кореляції r xу \u003d + 0,99 більше табличного (r табл \u003d + 0,917 при р \u003d 99%).

    Висновок. Чим більше кальцію в воді, тим вона більш жорстка (зв'язок пряма, сильна і достовірна: R ху \u003d + 0,99, р\u003e 99,9%).

    на застосування рангового методу

    завдання: методом рангів встановити напрям і силу зв'язку між стажем роботи в роках і частотою травм, якщо отримані наступні дані:

    Обгрунтування вибору методу: для вирішення завдання може бути обраний тільки метод рангової кореляції, тому що перший ряд ознаки "стаж роботи в роках" має відкриті варіанти (стаж роботи до 1 року і 7 і більше років), що не дозволяє використовувати для встановлення зв'язку між зіставляється ознаками більш точний метод - метод квадратів.

    Рішення. Послідовність розрахунків викладена в тексті, результати представлені в табл. 2.

    Таблиця 2

    Стаж роботи в роках число травм Порядкові номери (ранги) різниця рангів Квадрат різниці рангів
    X Y d (х-у) d 2
    До 1 року 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 і більше 6 5 1 +4 16
    Σ d 2 \u003d 38,5

    Стандартні коефіцієнти кореляції, які вважаються достовірними (по Л.С. Камінському)

    Число ступенів свободи - 2 Рівень ймовірності р (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Власов В.В. Епідеміологія. - М .: ГЕОТАР-МЕД, 2004. - 464 с.
    2. Лісіцин Ю.П. Громадське здоров'я та охорона здоров'я. Підручник для вузів. - М .: ГЕОТАР-МЕД, 2007. - 512 с.
    3. Медик В.А., Юр'єв В.К. Курс лекцій з громадського здоров'я та охорони здоров'я: Частина 1. Громадське здоров'я. - М .: Медицина, 2003. - 368 с.
    4. Миняев В.А., Вишняков Н.И. і ін. Соціальна медицина та організація охорони здоров'я (Керівництво в 2 томах). - СПб, 1998. -528 с.
    5. Кучеренко В.З., Агарков М.М. і др.Соціальная гігієна і організація охорони здоров'я ( Навчальний посібник) - Москва, 2000. - 432 с.
    6. С. Гланц. Медико-біологічна статистика. Пер з англ. - М., Практика, 1998. - 459 с.

Коефіцієнт кореляції відображає ступінь взаємозв'язку між двома показниками. Завжди приймає значення від -1 до 1. Якщо коефіцієнт розташувався близько 0, то говорять про відсутність зв'язку між змінними.

Якщо значення близьке до одиниці (від 0,9, наприклад), то між що спостерігаються об'єктами існує сильний прямий взаємозв'язок. Якщо коефіцієнт близький до іншої крайній точці діапазону (-1), то між змінними є сильна зворотна взаємозв'язок. Коли значення знаходиться десь посередині від 0 до 1 або від 0 до -1, то мова йде про слабку зв'язку (прямий чи зворотній). Такий взаємозв'язок зазвичай не враховують: вважається, що її немає.

Розрахунок коефіцієнта кореляції в Excel

Розглянемо на прикладі способи розрахунку коефіцієнта кореляції, особливості прямого і зворотного взаємозв'язку між змінними.

Значення показників x і y:

Y - незалежна змінна, x - залежна. Необхідно знайти силу (сильна / слабка) і напрям (пряма / зворотна) зв'язку між ними. Формула коефіцієнта кореляції виглядає так:


Щоб спростити її розуміння, розіб'ємо на кілька нескладних елементів.

Між змінними визначається сильна прямий зв'язок.

Вбудована функція КОРРЕЛ дозволяє уникнути складних розрахунків. Розрахуємо коефіцієнт парної кореляції в Excel з її допомогою. Викликаємо майстер функцій. Знаходимо потрібну. Аргументи функції - масив значень y і масив значень х:

Покажемо значення змінних на графіку:


Видно сильний зв'язок між y і х, тому що лінії йдуть практично паралельно один одному. Взаємозв'язок пряма: зростає y - зростає х, зменшується y - зменшується х.



Матриця парних коефіцієнтів кореляції в Excel

Кореляційна матриця являє собою таблицю, на перетині рядків і стовпців якої знаходяться коефіцієнти кореляції між відповідними значеннями. Має сенс її будувати для декількох змінних.

Матриця коефіцієнтів кореляції в Excel будується за допомогою інструменту «Кореляція» з пакету «Аналіз даних».


Між значеннями y і х1 виявлена \u200b\u200bсильна прямий взаємозв'язок. Між х1 і х2 є сильна зворотний зв'язок. Зв'язок зі значеннями в стовпці х3 практично відсутня.

Зауважте! рішення вашої конкретного завдання буде виглядати аналогічно цього прикладу, Включаючи всі таблиці і пояснюють тексти, представлені нижче, але з урахуванням ваших вихідних даних ...

завдання:
Є пов'язана вибірка з 26 пар значень (х k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Потрібно обчислити / побудувати:
- коефіцієнт кореляції;
- перевірити гіпотезу залежності випадкових величин X і Y, при рівні значущості α \u003d 0.05;
- коефіцієнти рівняння лінійної регресії;
- діаграму розсіювання (кореляційне поле) і графік лінії регресії;

РІШЕННЯ:

1. Обчислюємо коефіцієнт кореляції.

Коефіцієнт кореляції - це показник взаємного імовірнісного впливу двох випадкових величин. коефіцієнт кореляції R може приймати значення від -1 до +1 . Якщо абсолютне значення знаходиться ближче до 1 , То це свідчення сильного зв'язку між величинами, а якщо ближче до 0 - то, це говорить про слабку зв'язку або її відсутності. Якщо абсолютне значення R дорівнює одиниці, то можна говорити про функціональний зв'язок між величинами, тобто одну величину можна виразити через іншу за допомогою математичної функції.


Обчислити коефіцієнт кореляції можна за наступними формулами:
n
Σ
k \u003d 1
(X k -M x) 2, σ y 2 =
M x =
1
n
n
Σ
k \u003d 1
x k, M y =

або за формулою

R x, y =
M xy - M x M y
S x S y
(1.4), де:
M x =
1
n
n
Σ
k \u003d 1
x k, M y =
1
n
n
Σ
k \u003d 1
y k, M xy =
1
n
n
Σ
k \u003d 1
x k y k (1.5)
S x 2 =
1
n
n
Σ
k \u003d 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k \u003d 1
y k 2 - M y 2 (1.6)

На практиці, для обчислення коефіцієнта кореляції частіше використовується формула (1.4) тому вона вимагає менше обчислень. Однак якщо попередньо була обчислена ковариация cov (X, Y), То вигідніше використовувати формулу (1.1), тому що крім власне значення коваріації можна скористатися і результатами проміжних обчислень.

1.1 Обчислимо коефіцієнт кореляції за формулою (1.4), Для цього обчислимо значення x k 2, y k 2 і x k y k і занесемо їх в таблицю 1.

Таблиця 1


k
x k y k х k 2 y k 2 х ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Обчислимо M x за формулою (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 \u003d 25.20000 + 26.40000 + ... + 25.80000 \u003d 669.500000

1.2.2.

669.50000 / 26 = 25.75000

M x \u003d 25.750000

1.3. Аналогічним чином обчислимо M y.

1.3.1. Складемо послідовно всі елементи y k

y 1 + y 2 + ... + y 26 \u003d 30.80000 + 29.40000 + ... + 30.80000 \u003d 793.000000

1.3.2. Розділимо отриману суму на кількість елементів вибірки

793.00000 / 26 = 30.50000

M y \u003d 30.500000

1.4. Аналогічним чином обчислимо M xy.

1.4.1. Складемо послідовно всі елементи 6-го стовпчика таблиці 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Розділимо отриману суму на кількість елементів

20412.83000 / 26 = 785.10885

M xy \u003d 785.108846

1.5. Обчислимо значення S x 2 по формулі (1.6.).

1.5.1. Складемо послідовно всі елементи 4-го стовпця таблиці 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Розділимо отриману суму на кількість елементів

17256.91000 / 26 = 663.72731

1.5.3. Віднімемо від останнього числа квадрат величини M x отримаємо значення для S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Обчислимо значення S y 2 по формулі (1.6.).

1.6.1. Складемо послідовно всі елементи 5-го стовпчика таблиці 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Розділимо отриману суму на кількість елементів

24191.84000 / 26 = 930.45538

1.6.3. Віднімемо від останнього числа квадрат величини M y отримаємо значення для S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Обчислимо твір величин S x 2 і S y 2.

S x 2 S y 2 \u003d 0.66481 0.20538 \u003d 0.136541

1.8. Винесемо і останнього числа квадратний корінь, одержимо значення S x S y.

S x S y \u003d 0.36951

1.9. Обчислимо значення коефіцієнта кореляції за формулою (1.4.).

R \u003d (785.10885 - 25.75000 30.50000) / 0.36951 \u003d (785.10885 - 785.37500) / 0.36951 \u003d -0.72028

ВІДПОВІДЬ: R x, y \u003d -0.720279

2. Перевіряємо значимість коефіцієнта кореляції (перевіряємо гіпотезу залежності).

Оскільки оцінка коефіцієнта кореляції обчислена на кінцевій вибірці, і тому може відхилятися від свого генерального значення, необхідно перевірити значущість коефіцієнта кореляції. Перевірка проводиться за допомогою t-критерію:

t \u003d
R x, y
n - 2
1 - R 2 x, y
(2.1)

Випадкова величина t слід t -розподіленого Стьюдента і по таблиці t -розподіленого необхідно знайти критичне значення критерію (t кр.α) при заданому рівні значущості α. Якщо обчислене за формулою (2.1) t по модулю виявиться менше ніж t кр.α, то залежності між випадковими величинами X і Y немає. В іншому випадку, експериментальні дані не суперечать гіпотезі про залежність випадкових величин.


2.1. Обчислимо значення t-критерію за формулою (2.1) отримаємо:
t \u003d
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Визначимо по таблиці t -розподіленого критичне значення параметра t кр.α

Шукане значення t кр.α розташовується на перетині рядка відповідає числу ступенів свободи і стовпці відповідного заданим рівнем значущості α.
У нашому випадку число ступенів свободи є n - 2 \u003d 26 - 2 \u003d 24 і α \u003d 0.05 , Що відповідає критичному значенню критерію t кр.α \u003d 2.064 (Див. Табл. 2)

Таблиця 2 t -розподіл

Число ступенів свободи
(N - 2)
α \u003d 0.1 α \u003d 0.05 α \u003d 0.02 α \u003d 0.01 α \u003d 0.002 α \u003d 0.001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Порівняємо абсолютне значення t-критерію і t кр.α

Абсолютне значення t-критерію не менш критичного t \u003d 5.08680, t кр.α \u003d 2.064, отже експериментальні дані, з ймовірністю 0.95 (1 - α), не суперечать гіпотезі про залежність випадкових величин X і Y.

3. Обчислюємо коефіцієнти рівняння лінійної регресії.

Рівняння лінійної регресії є рівнянням прямої, що апроксимує (приблизно описує) залежність між випадковими величинами X і Y. Якщо вважати, що величина X вільна, а Y залежна від Х, то рівняння регресії запишеться в такий спосіб


Y \u003d a + b X (3.1), де:

b \u003dR x, y
σ y
σ x
= R x, y
S y
S x
(3.2),
a \u003d M y - b M x (3.3)

Розрахований за формулою (3.2) коефіцієнт b називають коефіцієнтом лінійної регресії. У деяких джерелах a називають постійним коефіцієнтом регресії і b відповідно змінним.

Похибки передбачення Y по заданому значенню X обчислюються за формулами:

Величину σ y / x (формула 3.4) ще називають залишковим середнім квадратичним відхиленням, Воно характеризує догляд величини Y від лінії регресії, що описується рівнянням (3.1), при фіксованому (заданому) значенні X.

.
S y 2 / S x 2 \u003d 0.20538 / 0.66481 \u003d 0.30894. Винесемо з останнього числа квадратний корінь - отримаємо:
S y / S x \u003d 0.55582

3.3 Обчислимо коефіцієнт b за формулою (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Обчислимо коефіцієнт a за формулою (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Оцінимо похибки рівняння регресії.

3.5.1 Винесемо з S y 2 квадратний корінь отримаємо:

= 0.31437
3.5.4 Обчислимо відносну похибку за формулою (3.5)

δ y / x \u003d (0.31437 / 30.50000) 100% \u003d 1.03073%

4. Будуємо діаграму розсіювання (кореляційне поле) і графік лінії регресії.

Діаграма розсіювання - це графічне зображення відповідних пар (x k, y k) у вигляді точок площини, в прямокутних координатах з осями X і Y. Корреляционное поле є одним з графічних уявлень пов'язаної (парної) вибірки. У тій же системі координат будується і графік лінії регресії. Слід ретельно вибрати масштаби і початкові точки на осях, щоб діаграма була максимально наочною.

4.1. Знаходимо мінімальний і максимальний елемент вибірки X це 18-й і 15-й елементи відповідно, x min \u003d 22.10000 і x max \u003d 26.60000.

4.2. Знаходимо мінімальний і максимальний елемент вибірки Y це 2-й і 18-й елементи відповідно, y min \u003d 29.40000 і y max \u003d 31.60000.

4.3. На осі абсцис вибираємо початкову точку трохи лівіше точки x 18 \u003d 22.10000, і такий масштаб, щоб на осі помістилася точка x 15 \u003d 26.60000 і чітко розрізнялися інші точки.

4.4. На осі ординат вибираємо початкову точку трохи лівіше точки y 2 \u003d 29.40000, і такий масштаб, щоб на осі помістилася точка y 18 \u003d 31.60000 і чітко розрізнялися інші точки.

4.5. На осі абсцис розміщуємо значення x k, а на осі ординат значення y k.

4.6. Наносимо точки (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) на координатну площину. Отримуємо діаграму розсіювання (кореляційне поле), зображене на малюнку нижче.

4.7. Накреслимо лінію регресії.

Для цього знайдемо дві різні точки з координатами (x r1, y r1) і (x r2, y r2) задовольняють рівняння (3.6), нанесемо їх на координатну площину і проведемо через них пряму. Як абсциси першої точки візьмемо значення x min \u003d 22.10000. Підставами значення x min в рівняння (3.6), отримаємо ординату першої точки. Таким чином маємо точку з координатами (22.10000, 31.96127). Аналогічним чином отримаємо координати другої точки, поклавши в якості абсциси значення x max \u003d 26.60000. Друга точка буде: (26.60000, 30.15970).

Лінія регресії показана на малюнку нижче червоним кольором

Зверніть увагу, що лінія регресії завжди проходить через точку середніх значень величин Х і Y, тобто з координатами (M x, M y).

06.06.2018 16 235 0 Ігор

Психологія і суспільство

Все в світі взаємопов'язане. Кожна людина на рівні інтуїції намагається знайти взаємозв'язку між явищами, щоб мати можливість впливати на них і управляти ними. Поняття, яке відображає цей взаємозв'язок, називається кореляцією. Що вона означає простими словами?

зміст:

поняття кореляції

Кореляція (від латинського «correlatio» - співвідношення, взаємозв'язок) - математичний термін, який означає міру статистичної ймовірнісної залежності між випадковими величинами (змінними).



приклад: візьмемо два види взаємозв'язку:

  1. перший - ручка в руці людини. В який бік рухається рука, в таку сторону і ручка. Якщо рука знаходиться в стані спокою, то і ручка не писатиме. Якщо людина трохи сильніше натисне на неї, то слід на папері буде більш насиченим. Такий вид взаємозв'язку відображає жорстку залежність і не є кореляційним. Це взаємозв'язок - функціональна.
  2. другий вид - залежність між рівнем освіти людини і прочитанням літератури. Заздалегідь невідомо, хто з людей більше читає: з вищою освітою або без нього. Цей зв'язок - випадкова чи стохастична, її вивчає статистична наука, яка займається виключно масовими явищами. Якщо статистичний розрахунок дозволить довести кореляційний зв'язок між рівнем освіченості і прочитанням літератури, то це дасть можливість робити будь-які прогнози, передбачати розподіл усіх наступ подій. У цьому прикладі з великою часткою ймовірності можна стверджувати, що більше читають книги люди з вищою освітою, ті, хто більш освічений. Але оскільки зв'язок між даними параметрами не функціональна, то ми можемо і помилитися. Завжди можна розрахувати ймовірність такої помилки, яка буде однозначно невелика і називається рівнем статистичної значущості (p).

Прикладами взаємозв'язку між природними явищами є: ланцюжок харчування в природі, організм людини, який складається з систем органів, взаємопов'язаних між собою і функціонують як єдине ціле.

Кожен день ми стикаємося з кореляційної залежністю в повсякденному житті: Між погодою і хорошим настроєм, Правильним формулюванням цілей і їх досягненням, позитивним настроєм і везінням, відчуттям щастя і фінансовим благополуччям. Але ми шукаємо зв'язку, спираючись не на математичні розрахунки, а на міфи, інтуїцію, забобони, домисли. Ці явища дуже складно перевести на математичну мову, висловити в цифрах, виміряти. Інша справа, коли ми аналізуємо явища, які можна прорахувати, представити у вигляді чисел. У такому випадку ми можемо визначити кореляцію з допомогою коефіцієнта кореляції (r), що відображає силу, ступінь, тісноту і напрямок кореляційного зв'язку між випадковими змінними.

Сильна кореляція між випадковими величинами - свідчення наявності деякої статистичної зв'язку конкретно між цими явищами, але цей зв'язок не може переноситися на ці ж явища, але для іншої ситуації. Часто дослідники, отримавши в розрахунках значну кореляцію між двома змінними, грунтуючись на простоті кореляційного аналізу, роблять помилкові інтуїтивні припущення про існування причинно-наслідкових взаємозв'язків між ознаками, забуваючи про те, що коефіцієнт кореляції носить імовірнісний характер.

приклад: кількість травмованих під час ожеледиці і число ДТП серед автотранспорту. Ці величини будуть корелювати між собою, хоча вони абсолютно не взаємопов'язані між собою, а мають тільки зв'язок із загальною причиною цих випадкових подій - ожеледицею. Якщо ж аналіз не виявив кореляційної взаємозв'язку між явищами, це ще не є свідченням відсутності залежності між ними, яка може бути складної нелінійної, не виявляються за допомогою кореляційних розрахунків.




Першим, хто ввів в науковий обіг поняття кореляції, був французький палеонтолог Жорж Кюв'є. Він в XVIII столітті вивів закон кореляції частин і органів живих організмів, завдяки якому з'явилася можливість відновлювати по знайденим частинам тіла (останків) вигляд всього викопного істоти, тварини. У статистиці термін кореляції вперше застосував в 1886 році англійський вчений Френсіс Гальтон. Але він не зміг вивести точну формулу для розрахунку коефіцієнта кореляції, але це зробив його студент - найвідоміший математик і біолог Карл Пірсон.

види кореляції

за значущістю - релевантними, значуща і незначна.

види

чому дорівнює r

релевантними

r відповідає рівню статистичної значущості p<=0,01

значна

r відповідає p<=0,05

незначна

r не досягає p\u003e 0,1

негативна (Зменшення значення однієї змінної веде до зростання рівня інший: чим більше у людини фобій, тим менше ймовірність зайняти керівну посаду) і позитивна (якщо зростання однієї величини тягне за собою збільшення рівня інший: чим більше нервуєш, тим більша ймовірність захворіти). Якщо зв'язку між змінними немає, то тоді така кореляція називається нульовою.

лінійна (Коли одна величина зростає або убуває, друга теж збільшується або зменшується) і нелінійна (коли при зміні однієї величини характер зміни другий неможливо описати за допомогою лінійної залежності, тоді застосовуються інші математичні закони - полиномиальной, гіперболічної залежності).

за силою.

коефіцієнти




Залежно від того, до якої шкалою відносяться досліджувані змінні, розраховуються різні види коефіцієнтів кореляції:

  1. Коефіцієнт кореляції Пірсона, коефіцієнт парної лінійної кореляції або кореляція моментів творів розраховується для змінних з інтервального і кількісної шкалою вимірювання.
  2. Коефіцієнт рангової кореляції Спірмена або Кендалла - коли хоча б одна з величин має порядкову шкалу або не є нормально розподіленою.
  3. Коефіцієнт точкової дворядної кореляції (коефіцієнт кореляції знаків Фехнера) - якщо одна з двох величин є дихотомічної.
  4. Коефіцієнт четирёхполевой кореляції (коефіцієнт множинної рангової кореляції (конкордації) - якщо дві змінні дихотомічні.

Коефіцієнт Пірсона відноситься до параметричних показників кореляції, всі інші - до непараметрическим.

Значення коефіцієнта кореляції знаходиться в межах від -1 до +1. При повній позитивної кореляції r \u003d +1, при повній негативній - r \u003d -1.

Формула і розрахунок





приклади

Необхідно визначити взаємозв'язок двох змінних: рівня інтелектуального розвитку (за даними проведеного тестування) і кількості запізнень за місяць (за даними записів у навчальному журналі) у школярів.

Вихідні дані представлені в таблиці:

Дані за рівнем IQ (x)

Дані за кількістю запізнень (y)

сума

1122

Середнє арифметичне

112,2


Щоб дати правильну інтерпретацію отриманого показника, необхідно проаналізувати знак коефіцієнта кореляції (+ або -) і його абсолютне значення (по модулю).

Відповідно до таблиці класифікації коефіцієнта кореляції по силі робимо висновок про те, rxy \u003d -0,827 - це сильна негативна кореляційна залежність. Таким чином, кількість запізнень школярів має дуже сильну залежність від їх рівня інтелектуального розвитку. Можна сказати, що учні з високим рівнем IQ спізнюються рідше на заняття, ніж учні з низьким IQ.



Коефіцієнт кореляції може застосовуватися як вченими для підтвердження або спростування припущення про залежність двох величин або явищ і вимірювання її сили, значущості, так і студентами для проведення емпіричних і статистичних досліджень з різних предметів. Необхідно пам'ятати, що цей показник не є ідеальним інструментом, він розраховується лише для вимірювання сили лінійної залежності і буде завжди ймовірнісної величиною, яка має певну похибку.

Кореляційний аналіз застосовується в наступних областях:

  • економічна наука;
  • астрофізика;
  • соціальні науки (соціологія, психологія, педагогіка);
  • агрохімія;
  • металознавство;
  • промисловість (для контролю якості);
  • гидробиология;
  • біометрія і т.д.

Причини популярності методу кореляційного аналізу:

  1. Відносна простота розрахунку коефіцієнтів кореляції, для цього не потрібне спеціальне математичну освіту.
  2. Дозволяє розрахувати взаємозв'язку між масовими випадковими величинами, які є предметом аналізу статистичної науки. У зв'язку з цим цей метод отримав широке поширення в області статистичних досліджень.

Сподіваюся, тепер ви зможете відрізнити функціональну взаємозв'язок від кореляційної і будете знати, що коли ви чуєте по телебаченню або читаєте в пресі про кореляції, то під нею мають на увазі позитивну і досить значиму взаємозалежність між двома явищами.

У статистиці коефіцієнт кореляції (англ. Correlation Coefficient) Використовується для перевірки гіпотези про існування залежності між двома випадковими величинами, а також дозволяє оцінити її силу. У портфельної теорії цей показник, як правило, використовується для визначення характеру і сили залежності між прибутковістю цінного паперу (активу) і прибутковістю портфеля. Якщо розподіл цих змінних є нормальним або близьким до нормального, то слід використовувати коефіцієнт кореляції Пірсона, Який розраховується за такою формулою:

Середньоквадратичне відхилення прибутковості акцій Компанії А складе 0,6398, акцій Компанії Б 0,5241 і портфеля 0,5668. ( Про те, як розраховується середньоквадратичне відхилення можна прочитати)

Коефіцієнт кореляції прибутковості акцій Компанії А і прибутковості портфеля складе -0,864, а акцій Компанії Б 0,816.

R A \u003d -0,313 / (0,6389 * 0,5668) \u003d -0,864

R Б \u003d 0,242 / (0,5241 * 0,5668) \u003d 0,816

Можна зробити висновок про присутність досить сильного взаємозв'язку між прибутковістю портфеля і прибутковістю акцій Компанії А та Компанії Б. При цьому, прибутковість акцій Компанії А демонструє різноспрямований рух з прибутковістю портфеля, а прибутковість акцій Компанії Б односпрямоване рух.

Поділіться з друзями або збережіть для себе:

Завантаження ...