7 коефіцієнт кореляції. Критерій кореляції Пірсона
При вивченні громадського здоров'я та охорони здоров'я в наукових і практичних цілях досліднику часто доводиться проводити статистичний аналіз зв'язків між факторними і результативними ознаками статистичний сукупності (причинно-наслідковий зв'язок) або визначення залежності паралельних змін декількох ознак цієї сукупності від будь-якої третьої величини (від загальної їх причини ). Необхідно вміти вивчати особливості зв'язку з цим, визначати її розміри і напрямок, а також оцінювати її достовірність. Для цього використовуються методи кореляції.
- Види прояви кількісних зв'язків між ознаками
- функціональний зв'язок
- кореляційний зв'язок
- Визначення функціональної і кореляційної зв'язку
функціональний зв'язок - такий вид співвідношення між двома ознаками, коли кожному значенню одного з них відповідає строго певне значення іншого (площа кола залежить від радіуса кола і т.д.). Функціональний зв'язок характерна для фізико-математичних процесів.
кореляційний зв'язок - такий зв'язок, при якій кожному значенню однієї ознаки відповідає кілька значень іншого взаємопов'язаного з ним ознаки (зв'язок між зростанням і масою тіла людини; зв'язок між температурою тіла і частотою пульсу і ін.). Кореляційний зв'язок характерна для медико-біологічних процесів.
- Практичне значення встановлення кореляційної зв'язку. Виявлення причинно-наслідкового між факторними і результативними ознаками (при оцінці фізичного розвитку, для визначення зв'язку між умовами праці, побуту і станом здоров'я, при визначенні залежності частоти випадків хвороби від віку, стажу, наявності виробничих шкідливостей та ін.)
Залежність паралельних змін декількох ознак від якоїсь третьої величини. Наприклад, під впливом високої температури в цеху відбуваються зміни кров'яного тиску, В'язкості крові, частоти пульсу та ін.
- Величина, що характеризує напрямок і силу зв'язку між ознаками. Коефіцієнт кореляції, який одним числом дає уявлення про напрям і силу зв'язку між ознаками (явищами), межі його коливань від 0 до ± 1
- Способи подання кореляційної зв'язку
- графік (діаграма розсіювання)
- коефіцієнт кореляції
- Напрямок кореляційної зв'язку
- пряма
- oбратная
- Сила кореляційної зв'язку
- сильна: ± 0,7 до ± 1
- середня: ± 0,3 до ± 0,699
- слабка: 0 до ± 0,299
- Методи визначення коефіцієнта кореляції і формули
- метод квадратів (метод Пірсона)
- рангові метод (метод Спірмена)
- Методичні вимоги до використання коефіцієнта кореляції
- вимір зв'язку можливо тільки в якісно однорідних сукупностях (наприклад, вимір зв'язку між зростом і вагою в сумах, однорідних за статтю та віком)
- розрахунок може проводитися з використанням абсолютних або похідних величин
- для обчислення коефіцієнта кореляції використовуються не згруповані варіаційні ряди (Ця вимога застосовується тільки при обчисленні коефіцієнта кореляції за методом квадратів)
- число спостережень не менше 30
- Рекомендації щодо застосування методу рангової кореляції (метод Спірмена)
- коли немає необхідності в точному встановленні сили зв'язку, а досить орієнтовних даних
- коли ознаки представлені не тільки кількісними, а й атрибутивними значеннями
- коли ряди розподілу ознак мають відкриті варіанти (наприклад, стаж роботи до 1 року та ін.)
- Рекомендації до застосування методу квадратів (метод Пірсона)
- коли потрібно точне встановлення сили зв'язку між ознаками
- коли ознаки мають лише кількісне вираження
- Методика і порядок обчислення коефіцієнта кореляції
1) Метод квадратів
2) Рангове метод
- Схема оцінки кореляційної зв'язку за коефіцієнтом кореляції
- Обчислення помилки коефіцієнта кореляції
- Оцінка достовірності коефіцієнта кореляції, отриманого методом рангової кореляції і методом квадратів
спосіб 1
Достовірність визначається за формулою:Критерій t оцінюється по таблиці значень t з урахуванням числа ступенів свободи (n - 2), де n - число парних варіант. Критерій t повинен дорівнювати або більше табличного, відповідного ймовірності р ≥99%.
спосіб 2
Достовірність оцінюється за спеціальною таблицею стандартних коефіцієнтів кореляції. При цьому достовірним вважається такий коефіцієнт кореляції, коли при певному числі ступенів свободи (n - 2), він дорівнює або більше табличного, відповідного ступеня безпомилкового прогнозу р ≥95%.
завдання: обчислити коефіцієнт кореляції, визначити напрямок і силу зв'язку між кількістю кальцію в воді і жорсткістю води, якщо відомі наступні дані (табл. 1). Оцінити достовірність зв'язку. Зробити висновок.
Таблиця 1
Обгрунтування вибору методу. Для вирішення завдання обраний метод квадратів (Пірсона), тому що кожен з ознак (жорсткість води і кількість кальцію) має числове вираження; немає відкритих варіант.
Рішення.
Послідовність розрахунків викладена в тексті, результати представлені в таблиці. Побудувавши ряди з парних зіставляються ознак, позначити їх через х (жорсткість води в градусах) і через у (кількість кальцію в воді в мг / л).
Жорсткість води (В градусах) |
Кількість кальцію в воді (В мг / л) |
d х | d у | d х х d у | d x 2 | d y 2 |
4 8 11 27 34 37 |
28 56 77 191 241 262 |
-16 -12 -9 +7 +14 +16 |
-114 -86 -66 +48 +98 +120 |
1824 1032 594 336 1372 1920 |
256 144 81 49 196 256 |
12996 7396 4356 2304 9604 14400 |
М х \u003d Σ х / n | М у \u003d Σ у / n | Σ d х x d у \u003d 7078 | Σ d х 2 \u003d 982 | Σ d y 2 \u003d 51056 | ||
М х \u003d 120/6 \u003d 20 | М y \u003d 852/6 \u003d 142 |
- Визначити середні величини M x ряду варіант "х" і М у в ряду варіант "у" по формулам:
М х \u003d Σх / n (графа 1) і
М у \u003d Σу / n (графа 2) - Знайти відхилення (d х і d у) кожної варіанти від величини обчисленої середньої в ряду "x" і в ряду "у"
d х \u003d х - М х (графа 3) і d y \u003d у - М у (графа4). - Знайти твір відхилень d x х d y і підсумувати їх: Σ d х х d у (графа 5)
- Кожне відхилення d x і d у звести в квадрат і підсумувати їх значення по ряду "х" і по ряду "у": Σ d x 2 \u003d 982 (графа 6) і Σ d y 2 \u003d 51056 (графа 7).
- Визначити твір Σ d x 2 х Σ d y 2 і з цього твору витягти квадратний корінь
- Отримані величини Σ (d x x d y) і √ (Σd x 2 x Σd y 2) підставляємо в формулу розрахунку коефіцієнта кореляції:
- Визначити достовірність коефіцієнта кореляції:
1-й спосіб. Знайти помилку коефіцієнта кореляції (mr xy) і критерій t за формулами:Критерій t \u003d 14,1, що відповідає ймовірності безпомилкового прогнозу р\u003e 99,9%.
2-й спосіб. Достовірність коефіцієнта кореляції оцінюється по таблиці "Стандартні коефіцієнти кореляції" (див. Додаток 1). При числі ступенів свободи (n - 2) \u003d 6 - 2 \u003d 4, наш розрахунковий коефіцієнт кореляції r xу \u003d + 0,99 більше табличного (r табл \u003d + 0,917 при р \u003d 99%).
Висновок. Чим більше кальцію в воді, тим вона більш жорстка (зв'язок пряма, сильна і достовірна: R ху \u003d + 0,99, р\u003e 99,9%).
на застосування рангового методузавдання: методом рангів встановити напрям і силу зв'язку між стажем роботи в роках і частотою травм, якщо отримані наступні дані:
Обгрунтування вибору методу: для вирішення завдання може бути обраний тільки метод рангової кореляції, тому що перший ряд ознаки "стаж роботи в роках" має відкриті варіанти (стаж роботи до 1 року і 7 і більше років), що не дозволяє використовувати для встановлення зв'язку між зіставляється ознаками більш точний метод - метод квадратів.
Рішення. Послідовність розрахунків викладена в тексті, результати представлені в табл. 2.
Таблиця 2
Стаж роботи в роках число травм Порядкові номери (ранги) різниця рангів Квадрат різниці рангів X Y d (х-у) d 2 До 1 року 24 1 5 -4 16 1-2 16 2 4 -2 4 3-4 12 3 2,5 +0,5 0,25 5-6 12 4 2,5 +1,5 2,25 7 і більше 6 5 1 +4 16 Σ d 2 \u003d 38,5 Стандартні коефіцієнти кореляції, які вважаються достовірними (по Л.С. Камінському)
Число ступенів свободи - 2 Рівень ймовірності р (%) 95% 98% 99% 1 0,997 0,999 0,999 2 0,950 0,980 0,990 3 0,878 0,934 0,959 4 0,811 0,882 0,917 5 0,754 0,833 0,874 6 0,707 0,789 0,834 7 0,666 0,750 0,798 8 0,632 0,716 0,765 9 0,602 0,885 0,735 10 0,576 0,858 0,708 11 0,553 0,634 0,684 12 0,532 0,612 0,661 13 0,514 0,592 0,641 14 0,497 0,574 0,623 15 0,482 0,558 0,606 16 0,468 0,542 0,590 17 0,456 0,528 0,575 18 0,444 0,516 0,561 19 0,433 0,503 0,549 20 0,423 0,492 0,537 25 0,381 0,445 0,487 30 0,349 0,409 0,449 - Власов В.В. Епідеміологія. - М .: ГЕОТАР-МЕД, 2004. - 464 с.
- Лісіцин Ю.П. Громадське здоров'я та охорона здоров'я. Підручник для вузів. - М .: ГЕОТАР-МЕД, 2007. - 512 с.
- Медик В.А., Юр'єв В.К. Курс лекцій з громадського здоров'я та охорони здоров'я: Частина 1. Громадське здоров'я. - М .: Медицина, 2003. - 368 с.
- Миняев В.А., Вишняков Н.И. і ін. Соціальна медицина та організація охорони здоров'я (Керівництво в 2 томах). - СПб, 1998. -528 с.
- Кучеренко В.З., Агарков М.М. і др.Соціальная гігієна і організація охорони здоров'я ( Навчальний посібник) - Москва, 2000. - 432 с.
- С. Гланц. Медико-біологічна статистика. Пер з англ. - М., Практика, 1998. - 459 с.
Коефіцієнт кореляції відображає ступінь взаємозв'язку між двома показниками. Завжди приймає значення від -1 до 1. Якщо коефіцієнт розташувався близько 0, то говорять про відсутність зв'язку між змінними.
Якщо значення близьке до одиниці (від 0,9, наприклад), то між що спостерігаються об'єктами існує сильний прямий взаємозв'язок. Якщо коефіцієнт близький до іншої крайній точці діапазону (-1), то між змінними є сильна зворотна взаємозв'язок. Коли значення знаходиться десь посередині від 0 до 1 або від 0 до -1, то мова йде про слабку зв'язку (прямий чи зворотній). Такий взаємозв'язок зазвичай не враховують: вважається, що її немає.
Розрахунок коефіцієнта кореляції в Excel
Розглянемо на прикладі способи розрахунку коефіцієнта кореляції, особливості прямого і зворотного взаємозв'язку між змінними.
Значення показників x і y:
Y - незалежна змінна, x - залежна. Необхідно знайти силу (сильна / слабка) і напрям (пряма / зворотна) зв'язку між ними. Формула коефіцієнта кореляції виглядає так:
![](https://i1.wp.com/exceltable.com/otchety/images/otchety56-2.png)
Щоб спростити її розуміння, розіб'ємо на кілька нескладних елементів.
![](https://i1.wp.com/exceltable.com/otchety/images/otchety56-3.png)
![](https://i0.wp.com/exceltable.com/otchety/images/otchety56-9.png)
Між змінними визначається сильна прямий зв'язок.
Вбудована функція КОРРЕЛ дозволяє уникнути складних розрахунків. Розрахуємо коефіцієнт парної кореляції в Excel з її допомогою. Викликаємо майстер функцій. Знаходимо потрібну. Аргументи функції - масив значень y і масив значень х:
![](https://i1.wp.com/exceltable.com/otchety/images/otchety56-10.png)
Покажемо значення змінних на графіку:
![](https://i2.wp.com/exceltable.com/otchety/images/otchety56-11.png)
Видно сильний зв'язок між y і х, тому що лінії йдуть практично паралельно один одному. Взаємозв'язок пряма: зростає y - зростає х, зменшується y - зменшується х.
Матриця парних коефіцієнтів кореляції в Excel
Кореляційна матриця являє собою таблицю, на перетині рядків і стовпців якої знаходяться коефіцієнти кореляції між відповідними значеннями. Має сенс її будувати для декількох змінних.
![](https://i1.wp.com/exceltable.com/otchety/images/otchety56-12.png)
Матриця коефіцієнтів кореляції в Excel будується за допомогою інструменту «Кореляція» з пакету «Аналіз даних».
![](https://i0.wp.com/exceltable.com/otchety/images/otchety56-13.png)
![](https://i2.wp.com/exceltable.com/otchety/images/otchety56-15.png)
Між значеннями y і х1 виявлена \u200b\u200bсильна прямий взаємозв'язок. Між х1 і х2 є сильна зворотний зв'язок. Зв'язок зі значеннями в стовпці х3 практично відсутня.
Зауважте! рішення вашої конкретного завдання буде виглядати аналогічно цього прикладу, Включаючи всі таблиці і пояснюють тексти, представлені нижче, але з урахуванням ваших вихідних даних ...завдання:
Є пов'язана вибірка з 26 пар значень (х k, y k):
k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x k | 25.20000 | 26.40000 | 26.00000 | 25.80000 | 24.90000 | 25.70000 | 25.70000 | 25.70000 | 26.10000 | 25.80000 |
y k | 30.80000 | 29.40000 | 30.20000 | 30.50000 | 31.40000 | 30.30000 | 30.40000 | 30.50000 | 29.90000 | 30.40000 |
k | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
x k | 25.90000 | 26.20000 | 25.60000 | 25.40000 | 26.60000 | 26.20000 | 26.00000 | 22.10000 | 25.90000 | 25.80000 |
y k | 30.30000 | 30.50000 | 30.60000 | 31.00000 | 29.60000 | 30.40000 | 30.70000 | 31.60000 | 30.50000 | 30.60000 |
k | 21 | 22 | 23 | 24 | 25 | 26 |
x k | 25.90000 | 26.30000 | 26.10000 | 26.00000 | 26.40000 | 25.80000 |
y k | 30.70000 | 30.10000 | 30.60000 | 30.50000 | 30.70000 | 30.80000 |
Потрібно обчислити / побудувати:
- коефіцієнт кореляції;
- перевірити гіпотезу залежності випадкових величин X і Y, при рівні значущості α \u003d 0.05;
- коефіцієнти рівняння лінійної регресії;
- діаграму розсіювання (кореляційне поле) і графік лінії регресії;
РІШЕННЯ:
1. Обчислюємо коефіцієнт кореляції.
Коефіцієнт кореляції - це показник взаємного імовірнісного впливу двох випадкових величин. коефіцієнт кореляції R може приймати значення від -1 до +1 . Якщо абсолютне значення знаходиться ближче до 1 , То це свідчення сильного зв'язку між величинами, а якщо ближче до 0 - то, це говорить про слабку зв'язку або її відсутності. Якщо абсолютне значення R дорівнює одиниці, то можна говорити про функціональний зв'язок між величинами, тобто одну величину можна виразити через іншу за допомогою математичної функції.
Обчислити коефіцієнт кореляції можна за наступними формулами:
n |
Σ |
k \u003d 1 |
M x | = |
|
| x k, | M y | = | або за формулою
На практиці, для обчислення коефіцієнта кореляції частіше використовується формула (1.4) тому вона вимагає менше обчислень. Однак якщо попередньо була обчислена ковариация cov (X, Y), То вигідніше використовувати формулу (1.1), тому що крім власне значення коваріації можна скористатися і результатами проміжних обчислень. 1.1 Обчислимо коефіцієнт кореляції за формулою (1.4), Для цього обчислимо значення x k 2, y k 2 і x k y k і занесемо їх в таблицю 1. Таблиця 1
1.2. Обчислимо M x за формулою (1.5). 1.2.1. x k x 1 + x 2 + ... + x 26 \u003d 25.20000 + 26.40000 + ... + 25.80000 \u003d 669.500000 1.2.2. 669.50000 / 26 = 25.75000 M x \u003d 25.750000 1.3. Аналогічним чином обчислимо M y. 1.3.1. Складемо послідовно всі елементи y k y 1 + y 2 + ... + y 26 \u003d 30.80000 + 29.40000 + ... + 30.80000 \u003d 793.000000 1.3.2. Розділимо отриману суму на кількість елементів вибірки 793.00000 / 26 = 30.50000 M y \u003d 30.500000 1.4. Аналогічним чином обчислимо M xy. 1.4.1. Складемо послідовно всі елементи 6-го стовпчика таблиці 1 776.16000 + 776.16000 + ... + 794.64000 = 20412.830000 1.4.2. Розділимо отриману суму на кількість елементів 20412.83000 / 26 = 785.10885 M xy \u003d 785.108846 1.5. Обчислимо значення S x 2 по формулі (1.6.). 1.5.1. Складемо послідовно всі елементи 4-го стовпця таблиці 1 635.04000 + 696.96000 + ... + 665.64000 = 17256.910000 1.5.2. Розділимо отриману суму на кількість елементів 17256.91000 / 26 = 663.72731 1.5.3. Віднімемо від останнього числа квадрат величини M x отримаємо значення для S x 2 S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481 1.6. Обчислимо значення S y 2 по формулі (1.6.). 1.6.1. Складемо послідовно всі елементи 5-го стовпчика таблиці 1 948.64000 + 864.36000 + ... + 948.64000 = 24191.840000 1.6.2. Розділимо отриману суму на кількість елементів 24191.84000 / 26 = 930.45538 1.6.3. Віднімемо від останнього числа квадрат величини M y отримаємо значення для S y 2 S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538 1.7. Обчислимо твір величин S x 2 і S y 2. S x 2 S y 2 \u003d 0.66481 0.20538 \u003d 0.136541 1.8. Винесемо і останнього числа квадратний корінь, одержимо значення S x S y. S x S y \u003d 0.36951 1.9. Обчислимо значення коефіцієнта кореляції за формулою (1.4.). R \u003d (785.10885 - 25.75000 30.50000) / 0.36951 \u003d (785.10885 - 785.37500) / 0.36951 \u003d -0.72028 ВІДПОВІДЬ: R x, y \u003d -0.720279 2. Перевіряємо значимість коефіцієнта кореляції (перевіряємо гіпотезу залежності).Оскільки оцінка коефіцієнта кореляції обчислена на кінцевій вибірці, і тому може відхилятися від свого генерального значення, необхідно перевірити значущість коефіцієнта кореляції. Перевірка проводиться за допомогою t-критерію:
Випадкова величина t слід t -розподіленого Стьюдента і по таблиці t -розподіленого необхідно знайти критичне значення критерію (t кр.α) при заданому рівні значущості α. Якщо обчислене за формулою (2.1) t по модулю виявиться менше ніж t кр.α, то залежності між випадковими величинами X і Y немає. В іншому випадку, експериментальні дані не суперечать гіпотезі про залежність випадкових величин. 2.1. Обчислимо значення t-критерію за формулою (2.1) отримаємо:
2.2. Визначимо по таблиці t -розподіленого критичне значення параметра t кр.α Шукане значення t кр.α розташовується на перетині рядка відповідає числу ступенів свободи і стовпці відповідного заданим рівнем значущості α. Таблиця 2 t -розподіл
2.2. Порівняємо абсолютне значення t-критерію і t кр.α Абсолютне значення t-критерію не менш критичного t \u003d 5.08680, t кр.α \u003d 2.064, отже експериментальні дані, з ймовірністю 0.95 (1 - α), не суперечать гіпотезі про залежність випадкових величин X і Y. 3. Обчислюємо коефіцієнти рівняння лінійної регресії.Рівняння лінійної регресії є рівнянням прямої, що апроксимує (приблизно описує) залежність між випадковими величинами X і Y. Якщо вважати, що величина X вільна, а Y залежна від Х, то рівняння регресії запишеться в такий спосіб Y \u003d a + b X (3.1), де:
Розрахований за формулою (3.2) коефіцієнт b називають коефіцієнтом лінійної регресії. У деяких джерелах a називають постійним коефіцієнтом регресії і b відповідно змінним. Похибки передбачення Y по заданому значенню X обчислюються за формулами: Величину σ y / x (формула 3.4) ще називають залишковим середнім квадратичним відхиленням, Воно характеризує догляд величини Y від лінії регресії, що описується рівнянням (3.1), при фіксованому (заданому) значенні X. | . |
S y / S x \u003d 0.55582
3.3 Обчислимо коефіцієнт b за формулою (3.2)
b = -0.72028 0.55582 = -0.40035
3.4 Обчислимо коефіцієнт a за формулою (3.3)
a = 30.50000 - (-0.40035 25.75000) = 40.80894
3.5 Оцінимо похибки рівняння регресії.
3.5.1 Винесемо з S y 2 квадратний корінь отримаємо:
3.5.4 Обчислимо відносну похибку за формулою (3.5)
δ y / x \u003d (0.31437 / 30.50000) 100% \u003d 1.03073%
4. Будуємо діаграму розсіювання (кореляційне поле) і графік лінії регресії.
Діаграма розсіювання - це графічне зображення відповідних пар (x k, y k) у вигляді точок площини, в прямокутних координатах з осями X і Y. Корреляционное поле є одним з графічних уявлень пов'язаної (парної) вибірки. У тій же системі координат будується і графік лінії регресії. Слід ретельно вибрати масштаби і початкові точки на осях, щоб діаграма була максимально наочною.4.1. Знаходимо мінімальний і максимальний елемент вибірки X це 18-й і 15-й елементи відповідно, x min \u003d 22.10000 і x max \u003d 26.60000.
4.2. Знаходимо мінімальний і максимальний елемент вибірки Y це 2-й і 18-й елементи відповідно, y min \u003d 29.40000 і y max \u003d 31.60000.
4.3. На осі абсцис вибираємо початкову точку трохи лівіше точки x 18 \u003d 22.10000, і такий масштаб, щоб на осі помістилася точка x 15 \u003d 26.60000 і чітко розрізнялися інші точки.
4.4. На осі ординат вибираємо початкову точку трохи лівіше точки y 2 \u003d 29.40000, і такий масштаб, щоб на осі помістилася точка y 18 \u003d 31.60000 і чітко розрізнялися інші точки.
4.5. На осі абсцис розміщуємо значення x k, а на осі ординат значення y k.
4.6. Наносимо точки (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) на координатну площину. Отримуємо діаграму розсіювання (кореляційне поле), зображене на малюнку нижче.
4.7. Накреслимо лінію регресії.
Для цього знайдемо дві різні точки з координатами (x r1, y r1) і (x r2, y r2) задовольняють рівняння (3.6), нанесемо їх на координатну площину і проведемо через них пряму. Як абсциси першої точки візьмемо значення x min \u003d 22.10000. Підставами значення x min в рівняння (3.6), отримаємо ординату першої точки. Таким чином маємо точку з координатами (22.10000, 31.96127). Аналогічним чином отримаємо координати другої точки, поклавши в якості абсциси значення x max \u003d 26.60000. Друга точка буде: (26.60000, 30.15970).
Лінія регресії показана на малюнку нижче червоним кольором
Зверніть увагу, що лінія регресії завжди проходить через точку середніх значень величин Х і Y, тобто з координатами (M x, M y).
06.06.2018 16 235 0 Ігор
Психологія і суспільство
Все в світі взаємопов'язане. Кожна людина на рівні інтуїції намагається знайти взаємозв'язку між явищами, щоб мати можливість впливати на них і управляти ними. Поняття, яке відображає цей взаємозв'язок, називається кореляцією. Що вона означає простими словами?
зміст:
поняття кореляції
Кореляція (від латинського «correlatio» - співвідношення, взаємозв'язок) - математичний термін, який означає міру статистичної ймовірнісної залежності між випадковими величинами (змінними).
приклад: візьмемо два види взаємозв'язку:
- перший - ручка в руці людини. В який бік рухається рука, в таку сторону і ручка. Якщо рука знаходиться в стані спокою, то і ручка не писатиме. Якщо людина трохи сильніше натисне на неї, то слід на папері буде більш насиченим. Такий вид взаємозв'язку відображає жорстку залежність і не є кореляційним. Це взаємозв'язок - функціональна.
- другий вид - залежність між рівнем освіти людини і прочитанням літератури. Заздалегідь невідомо, хто з людей більше читає: з вищою освітою або без нього. Цей зв'язок - випадкова чи стохастична, її вивчає статистична наука, яка займається виключно масовими явищами. Якщо статистичний розрахунок дозволить довести кореляційний зв'язок між рівнем освіченості і прочитанням літератури, то це дасть можливість робити будь-які прогнози, передбачати розподіл усіх наступ подій. У цьому прикладі з великою часткою ймовірності можна стверджувати, що більше читають книги люди з вищою освітою, ті, хто більш освічений. Але оскільки зв'язок між даними параметрами не функціональна, то ми можемо і помилитися. Завжди можна розрахувати ймовірність такої помилки, яка буде однозначно невелика і називається рівнем статистичної значущості (p).
Прикладами взаємозв'язку між природними явищами є: ланцюжок харчування в природі, організм людини, який складається з систем органів, взаємопов'язаних між собою і функціонують як єдине ціле.
Кожен день ми стикаємося з кореляційної залежністю в повсякденному житті: Між погодою і хорошим настроєм, Правильним формулюванням цілей і їх досягненням, позитивним настроєм і везінням, відчуттям щастя і фінансовим благополуччям. Але ми шукаємо зв'язку, спираючись не на математичні розрахунки, а на міфи, інтуїцію, забобони, домисли. Ці явища дуже складно перевести на математичну мову, висловити в цифрах, виміряти. Інша справа, коли ми аналізуємо явища, які можна прорахувати, представити у вигляді чисел. У такому випадку ми можемо визначити кореляцію з допомогою коефіцієнта кореляції (r), що відображає силу, ступінь, тісноту і напрямок кореляційного зв'язку між випадковими змінними.
Сильна кореляція між випадковими величинами - свідчення наявності деякої статистичної зв'язку конкретно між цими явищами, але цей зв'язок не може переноситися на ці ж явища, але для іншої ситуації. Часто дослідники, отримавши в розрахунках значну кореляцію між двома змінними, грунтуючись на простоті кореляційного аналізу, роблять помилкові інтуїтивні припущення про існування причинно-наслідкових взаємозв'язків між ознаками, забуваючи про те, що коефіцієнт кореляції носить імовірнісний характер.
приклад: кількість травмованих під час ожеледиці і число ДТП серед автотранспорту. Ці величини будуть корелювати між собою, хоча вони абсолютно не взаємопов'язані між собою, а мають тільки зв'язок із загальною причиною цих випадкових подій - ожеледицею. Якщо ж аналіз не виявив кореляційної взаємозв'язку між явищами, це ще не є свідченням відсутності залежності між ними, яка може бути складної нелінійної, не виявляються за допомогою кореляційних розрахунків.
Першим, хто ввів в науковий обіг поняття кореляції, був французький палеонтолог Жорж Кюв'є. Він в XVIII столітті вивів закон кореляції частин і органів живих організмів, завдяки якому з'явилася можливість відновлювати по знайденим частинам тіла (останків) вигляд всього викопного істоти, тварини. У статистиці термін кореляції вперше застосував в 1886 році англійський вчений Френсіс Гальтон. Але він не зміг вивести точну формулу для розрахунку коефіцієнта кореляції, але це зробив його студент - найвідоміший математик і біолог Карл Пірсон.
види кореляції
за значущістю - релевантними, значуща і незначна.
види |
чому дорівнює r |
релевантними |
r відповідає рівню статистичної значущості p<=0,01 |
значна |
r відповідає p<=0,05 |
незначна |
r не досягає p\u003e 0,1 |
негативна (Зменшення значення однієї змінної веде до зростання рівня інший: чим більше у людини фобій, тим менше ймовірність зайняти керівну посаду) і позитивна (якщо зростання однієї величини тягне за собою збільшення рівня інший: чим більше нервуєш, тим більша ймовірність захворіти). Якщо зв'язку між змінними немає, то тоді така кореляція називається нульовою.
лінійна (Коли одна величина зростає або убуває, друга теж збільшується або зменшується) і нелінійна (коли при зміні однієї величини характер зміни другий неможливо описати за допомогою лінійної залежності, тоді застосовуються інші математичні закони - полиномиальной, гіперболічної залежності).
за силою.
коефіцієнти
Залежно від того, до якої шкалою відносяться досліджувані змінні, розраховуються різні види коефіцієнтів кореляції:
- Коефіцієнт кореляції Пірсона, коефіцієнт парної лінійної кореляції або кореляція моментів творів розраховується для змінних з інтервального і кількісної шкалою вимірювання.
- Коефіцієнт рангової кореляції Спірмена або Кендалла - коли хоча б одна з величин має порядкову шкалу або не є нормально розподіленою.
- Коефіцієнт точкової дворядної кореляції (коефіцієнт кореляції знаків Фехнера) - якщо одна з двох величин є дихотомічної.
- Коефіцієнт четирёхполевой кореляції (коефіцієнт множинної рангової кореляції (конкордації) - якщо дві змінні дихотомічні.
Коефіцієнт Пірсона відноситься до параметричних показників кореляції, всі інші - до непараметрическим.
Значення коефіцієнта кореляції знаходиться в межах від -1 до +1. При повній позитивної кореляції r \u003d +1, при повній негативній - r \u003d -1.
Формула і розрахунок
приклади
Необхідно визначити взаємозв'язок двох змінних: рівня інтелектуального розвитку (за даними проведеного тестування) і кількості запізнень за місяць (за даними записів у навчальному журналі) у школярів.
Вихідні дані представлені в таблиці:
№ |
Дані за рівнем IQ (x) |
Дані за кількістю запізнень (y) |
сума |
1122 |
|
Середнє арифметичне |
112,2 |
Щоб дати правильну інтерпретацію отриманого показника, необхідно проаналізувати знак коефіцієнта кореляції (+ або -) і його абсолютне значення (по модулю).
Відповідно до таблиці класифікації коефіцієнта кореляції по силі робимо висновок про те, rxy \u003d -0,827 - це сильна негативна кореляційна залежність. Таким чином, кількість запізнень школярів має дуже сильну залежність від їх рівня інтелектуального розвитку. Можна сказати, що учні з високим рівнем IQ спізнюються рідше на заняття, ніж учні з низьким IQ.
Коефіцієнт кореляції може застосовуватися як вченими для підтвердження або спростування припущення про залежність двох величин або явищ і вимірювання її сили, значущості, так і студентами для проведення емпіричних і статистичних досліджень з різних предметів. Необхідно пам'ятати, що цей показник не є ідеальним інструментом, він розраховується лише для вимірювання сили лінійної залежності і буде завжди ймовірнісної величиною, яка має певну похибку.
Кореляційний аналіз застосовується в наступних областях:
- економічна наука;
- астрофізика;
- соціальні науки (соціологія, психологія, педагогіка);
- агрохімія;
- металознавство;
- промисловість (для контролю якості);
- гидробиология;
- біометрія і т.д.
Причини популярності методу кореляційного аналізу:
- Відносна простота розрахунку коефіцієнтів кореляції, для цього не потрібне спеціальне математичну освіту.
- Дозволяє розрахувати взаємозв'язку між масовими випадковими величинами, які є предметом аналізу статистичної науки. У зв'язку з цим цей метод отримав широке поширення в області статистичних досліджень.
Сподіваюся, тепер ви зможете відрізнити функціональну взаємозв'язок від кореляційної і будете знати, що коли ви чуєте по телебаченню або читаєте в пресі про кореляції, то під нею мають на увазі позитивну і досить значиму взаємозалежність між двома явищами.
У статистиці коефіцієнт кореляції (англ. Correlation Coefficient) Використовується для перевірки гіпотези про існування залежності між двома випадковими величинами, а також дозволяє оцінити її силу. У портфельної теорії цей показник, як правило, використовується для визначення характеру і сили залежності між прибутковістю цінного паперу (активу) і прибутковістю портфеля. Якщо розподіл цих змінних є нормальним або близьким до нормального, то слід використовувати коефіцієнт кореляції Пірсона, Який розраховується за такою формулою:
Середньоквадратичне відхилення прибутковості акцій Компанії А складе 0,6398, акцій Компанії Б 0,5241 і портфеля 0,5668. ( Про те, як розраховується середньоквадратичне відхилення можна прочитати)
Коефіцієнт кореляції прибутковості акцій Компанії А і прибутковості портфеля складе -0,864, а акцій Компанії Б 0,816.
R A \u003d -0,313 / (0,6389 * 0,5668) \u003d -0,864
R Б \u003d 0,242 / (0,5241 * 0,5668) \u003d 0,816
Можна зробити висновок про присутність досить сильного взаємозв'язку між прибутковістю портфеля і прибутковістю акцій Компанії А та Компанії Б. При цьому, прибутковість акцій Компанії А демонструє різноспрямований рух з прибутковістю портфеля, а прибутковість акцій Компанії Б односпрямоване рух.