7 коэффициент корреляции. Критерий корреляции пирсона
При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистический анализ связей между факторными и результативными признаками статистический совокупности (причинно-следственная связь) или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от общей их причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. Для этого используются методы корреляции.
- Виды проявления количественных связей между признаками
- функциональная связь
- корреляционная связь
- Определения функциональной и корреляционной связи
Функциональная связь - такой вид соотношения между двумя признаками, когда каждому значению одного из них соответствует строго определенное значение другого (площадь круга зависит от радиуса круга и т.д.). Функциональная связь характерна для физико-математических процессов.
Корреляционная связь - такая связь, при которой каждому определенному значению одного признака соответствует несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и частотой пульса и др.). Корреляционная связь характерна для медико-биологических процессов.
- Практическое значение установления корреляционной связи
. Выявление причинно-следственной между факторными и
результативными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием
здоровья, при определении зависимости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.)
Зависимость параллельных изменений нескольких признаков от какой-то третьей величины. Например, под воздействием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др.
- Величина, характеризующая направление и силу связи между признаками . Коэффициент корреляции, который одним числом дает представление о направлении и силе связи между признаками (явлениями), пределы его колебаний от 0 до ± 1
- Способы представления корреляционной связи
- график (диаграмма рассеяния)
- коэффициент корреляции
- Направление корреляционной связи
- прямая
- oбратная
- Сила корреляционной связи
- сильная: ±0,7 до ±1
- средняя: ±0,3 до ±0,699
- слабая: 0 до ±0,299
- Методы определения коэффициента корреляции и формулы
- метод квадратов (метод Пирсона)
- ранговый метод (метод Спирмена)
- Методические требования к использованию коэффициента корреляции
- измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту)
- расчет может производиться с использованием абсолютных или производных величин
- для вычисления коэффициента корреляции используются не сгруппированные вариационные ряды (это требование применяется только при вычислении коэффициента корреляции по методу квадратов)
- число наблюдений не менее 30
- Рекомендации по применению метода ранговой корреляции (метод Спирмена)
- когда нет необходимости в точном установлении силы связи, а достаточно ориентировочных данных
- когда признаки представлены не только количественными, но и атрибутивными значениями
- когда ряды распределения признаков имеют открытые варианты (например, стаж работы до 1 года и др.)
- Рекомендации к применению метода квадратов (метод Пирсона)
- когда требуется точное установление силы связи между признаками
- когда признаки имеют только количественное выражение
- Методика и порядок вычисления коэффициента корреляции
1) Метод квадратов
2) Ранговый метод
- Схема оценки корреляционной связи по коэффициенту корреляции
- Вычисление ошибки коэффициента корреляции
- Оценка достоверности коэффициента корреляции,полученного методом ранговой корреляции и методом квадратов
Способ 1
Достоверность определяется по формуле:Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n - 2), где n - число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности р ≥99%.
Способ 2
Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n - 2), он равен или более табличного, соответствующего степени безошибочного прогноза р ≥95%.
Задание: вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и жесткостью воды, если известны следующие данные (табл. 1). Оценить достоверность связи. Сделать вывод.
Таблица 1
Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.
Решение
.
Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых
признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).
Жесткость воды (в градусах) |
Количество кальция в воде (в мг/л) |
d х | d у | d х х d у | d x 2 | d y 2 |
4 8 11 27 34 37 |
28 56 77 191 241 262 |
-16 -12 -9 +7 +14 +16 |
-114 -86 -66 +48 +98 +120 |
1824 1032 594 336 1372 1920 |
256 144 81 49 196 256 |
12996 7396 4356 2304 9604 14400 |
М х =Σ х / n | М у =Σ у / n | Σ d х x d у =7078 | Σ d х 2 =982 | Σ d y 2 =51056 | ||
М х =120/6=20 | М y =852/6=142 |
- Определить средние величины M x ряду вариант "х" и М у в ряду вариант "у" по формулам:
М х = Σх/n (графа 1) и
М у = Σу/n (графа 2) - Найти отклонение (d х и d у) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у"
d х = х - М х (графа 3) и d y = у - М у (графа4). - Найти произведение отклонений d x х d y и суммировать их: Σ d х х d у (графа 5)
- Каждое отклонение d x и d у возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у": Σ d x 2 = 982 (графа 6) и Σ d y 2 = 51056 (графа 7).
- Определить произведение Σ d x 2 х Σ d y 2 и из этого произведения извлечь квадратный корень
- Полученные величины Σ (d x x d y) и √(Σd x 2 x Σd y 2) подставляем в формулу расчета коэффициента корреляции:
- Определить достоверность коэффициента корреляции:
1-й способ. Найти ошибку коэффициента корреляции (mr xy) и критерий t по формулам:Критерий t = 14,1, что соответствует вероятности безошибочного прогноза р > 99,9%.
2-й способ. Достоверность коэффициента корреляции оценивается по таблице "Стандартные коэффициенты корреляции" (см. приложение 1). При числе степеней свободы (n - 2)=6 - 2=4, наш расчетный коэффициент корреляции r xу = + 0,99 больше табличного (r табл = + 0,917 при р = 99%).
Вывод. Чем больше кальция в воде, тем она более жесткая (связь прямая, сильная и достоверная : r ху = + 0,99, р > 99,9%).
на применение рангового методаЗадание: методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:
Обоснование выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд признака "стаж работы в годах" имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод - метод квадратов.
Решение . Последовательность расчетов изложена в тексте, результаты представлены в табл. 2.
Таблица 2
Стаж работы в годах Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов X Y d(х-у) d 2 До 1 года 24 1 5 -4 16 1-2 16 2 4 -2 4 3-4 12 3 2,5 +0,5 0,25 5-6 12 4 2,5 +1,5 2,25 7 и более 6 5 1 +4 16 Σ d 2 = 38,5 Стандартные коэффициенты корреляции, которые считаются достоверными (по Л.С. Каминскому)
Число степеней свободы - 2 Уровень вероятности р (%) 95% 98% 99% 1 0,997 0,999 0,999 2 0,950 0,980 0,990 3 0,878 0,934 0,959 4 0,811 0,882 0,917 5 0,754 0,833 0,874 6 0,707 0,789 0,834 7 0,666 0,750 0,798 8 0,632 0,716 0,765 9 0,602 0,885 0,735 10 0,576 0,858 0,708 11 0,553 0,634 0,684 12 0,532 0,612 0,661 13 0,514 0,592 0,641 14 0,497 0,574 0,623 15 0,482 0,558 0,606 16 0,468 0,542 0,590 17 0,456 0,528 0,575 18 0,444 0,516 0,561 19 0,433 0,503 0,549 20 0,423 0,492 0,537 25 0,381 0,445 0,487 30 0,349 0,409 0,449 - Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
- Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
- Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
- Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
- Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
- С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.
Коэффициент корреляции отражает степень взаимосвязи между двумя показателями. Всегда принимает значение от -1 до 1. Если коэффициент расположился около 0, то говорят об отсутствии связи между переменными.
Если значение близко к единице (от 0,9, например), то между наблюдаемыми объектами существует сильная прямая взаимосвязь. Если коэффициент близок к другой крайней точке диапазона (-1), то между переменными имеется сильная обратная взаимосвязь. Когда значение находится где-то посередине от 0 до 1 или от 0 до -1, то речь идет о слабой связи (прямой или обратной). Такую взаимосвязь обычно не учитывают: считается, что ее нет.
Расчет коэффициента корреляции в Excel
Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.
Значения показателей x и y:
Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:
Чтобы упростить ее понимание, разобьем на несколько несложных элементов.
Между переменными определяется сильная прямая связь.
Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:
Покажем значения переменных на графике:
Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.
Матрица парных коэффициентов корреляции в Excel
Корреляционная матрица представляет собой таблицу, на пересечении строк и столбцов которой находятся коэффициенты корреляции между соответствующими значениями. Имеет смысл ее строить для нескольких переменных.
Матрица коэффициентов корреляции в Excel строится с помощью инструмента «Корреляция» из пакета «Анализ данных».
Между значениями y и х1 обнаружена сильная прямая взаимосвязь. Между х1 и х2 имеется сильная обратная связь. Связь со значениями в столбце х3 практически отсутствует.
Заметьте! Решение вашей конкретной задачи будет выглядеть аналогично данному примеру, включая все таблицы и поясняющие тексты, представленные ниже, но с учетом ваших исходных данных…Задача:
Имеется связанная выборка из 26 пар значений (х k
,y k
):
k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x k | 25.20000 | 26.40000 | 26.00000 | 25.80000 | 24.90000 | 25.70000 | 25.70000 | 25.70000 | 26.10000 | 25.80000 |
y k | 30.80000 | 29.40000 | 30.20000 | 30.50000 | 31.40000 | 30.30000 | 30.40000 | 30.50000 | 29.90000 | 30.40000 |
k | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
x k | 25.90000 | 26.20000 | 25.60000 | 25.40000 | 26.60000 | 26.20000 | 26.00000 | 22.10000 | 25.90000 | 25.80000 |
y k | 30.30000 | 30.50000 | 30.60000 | 31.00000 | 29.60000 | 30.40000 | 30.70000 | 31.60000 | 30.50000 | 30.60000 |
k | 21 | 22 | 23 | 24 | 25 | 26 |
x k | 25.90000 | 26.30000 | 26.10000 | 26.00000 | 26.40000 | 25.80000 |
y k | 30.70000 | 30.10000 | 30.60000 | 30.50000 | 30.70000 | 30.80000 |
Требуется вычислить/построить:
- коэффициент корреляции;
- проверить гипотезу зависимости случайных величин X и Y, при уровне значимости α
= 0.05 ;
- коэффициенты уравнения линейной регрессии;
- диаграмму рассеяния (корреляционное поле) и график линии регрессии;
РЕШЕНИЕ:
1. Вычисляем коэффициент корреляции.
Коэффициент корреляции - это показатель взаимного вероятностного влияния двух случайных величин. Коэффициент корреляции R может принимать значения от -1 до +1 . Если абсолютное значение находится ближе к 1 , то это свидетельство сильной связи между величинами, а если ближе к 0 - то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно выразить через другую посредством математической функции.
Вычислить коэффициент корреляции можно по следующим формулам:
n |
Σ |
k = 1 |
M x | = |
|
| x k , | M y | = | или по формуле
На практике, для вычисления коэффициента корреляции чаще используется формула (1.4) т.к. она требует меньше вычислений. Однако если предварительно была вычислена ковариация cov(X,Y) , то выгоднее использовать формулу (1.1), т.к. кроме собственно значения ковариации можно воспользоваться и результатами промежуточных вычислений. 1.1 Вычислим коэффициент корреляции по формуле (1.4) , для этого вычислим значения x k 2 , y k 2 и x k y k и занесем их в таблицу 1. Таблица 1
1.2. Вычислим M x по формуле (1.5) . 1.2.1. x k x 1 + x 2 + … + x 26 = 25.20000 + 26.40000 + ... + 25.80000 = 669.500000 1.2.2. 669.50000 / 26 = 25.75000 M x = 25.750000 1.3. Аналогичным образом вычислим M y . 1.3.1. Сложим последовательно все элементы y k y 1 + y 2 + … + y 26 = 30.80000 + 29.40000 + ... + 30.80000 = 793.000000 1.3.2. Разделим полученную сумму на число элементов выборки 793.00000 / 26 = 30.50000 M y = 30.500000 1.4. Аналогичным образом вычислим M xy . 1.4.1. Сложим последовательно все элементы 6-го столбца таблицы 1 776.16000 + 776.16000 + ... + 794.64000 = 20412.830000 1.4.2. Разделим полученную сумму на число элементов 20412.83000 / 26 = 785.10885 M xy = 785.108846 1.5. Вычислим значение S x 2 по формуле (1.6.) . 1.5.1. Сложим последовательно все элементы 4-го столбца таблицы 1 635.04000 + 696.96000 + ... + 665.64000 = 17256.910000 1.5.2. Разделим полученную сумму на число элементов 17256.91000 / 26 = 663.72731 1.5.3. Вычтем из последнего числа квадрат величины M x получим значение для S x 2 S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481 1.6. Вычислим значение S y 2 по формуле (1.6.) . 1.6.1. Сложим последовательно все элементы 5-го столбца таблицы 1 948.64000 + 864.36000 + ... + 948.64000 = 24191.840000 1.6.2. Разделим полученную сумму на число элементов 24191.84000 / 26 = 930.45538 1.6.3. Вычтем из последнего числа квадрат величины M y получим значение для S y 2 S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538 1.7. Вычислим произведение величин S x 2 и S y 2 . S x 2 S y 2 = 0.66481 0.20538 = 0.136541 1.8. Извлечем и последнего числа квадратный корень, получим значение S x S y . S x S y = 0.36951 1.9. Вычислим значение коэффициента корреляции по формуле (1.4.) . R = (785.10885 - 25.75000 30.50000) / 0.36951 = (785.10885 - 785.37500) / 0.36951 = -0.72028 ОТВЕТ: R x,y = -0.720279 2. Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).Поскольку оценка коэффициента корреляции вычислена на конечной выборке, и поэтому может отклоняться от своего генерального значения,
необходимо проверить значимость коэффициента корреляции. Проверка производится с помощью t
-критерия:
Случайная величина t следует t -распределению Стьюдента и по таблице t -распределения необходимо найти критическое значение критерия (t кр.α) при заданном уровне значимости α . Если вычисленное по формуле (2.1) t по модулю окажется меньше чем t кр.α , то зависимости между случайными величинами X и Y нет. В противном случае, экспериментальные данные не противоречат гипотезе о зависимости случайных величин. 2.1. Вычислим значение t -критерия по формуле (2.1) получим:
2.2. Определим по таблице t -распределения критическое значение параметра t кр.α Искомое значение t
кр.α располагается на пересечении строки соответствующей числу степеней свободы
и столбца соответствующего заданному уровню значимости α
. Таблица 2 t -распределение
2.2. Сравним абсолютное значение t -критерия и t кр.α Абсолютное значение t -критерия не меньше критического t = 5.08680, t кр.α = 2.064, следовательно экспериментальные данные, с вероятностью 0.95 (1 - α ), не противоречат гипотезе о зависимости случайных величин X и Y. 3. Вычисляем коэффициенты уравнения линейной регрессии.Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y. Если считать, что величина X свободная, а Y зависимая от Х, то уравнение регрессии запишется следующим образом Y = a + b X (3.1), где:
Рассчитанный по формуле (3.2) коэффициент b называют коэффициентом линейной регрессии. В некоторых источниках a называют постоянным коэффициентом регрессии и b соответственно переменным. Погрешности предсказания Y по заданному значению X вычисляются по формулам: Величину σ y/x (формула 3.4) еще называют остаточным средним квадратическим отклонением , оно характеризует уход величины Y от линии регрессии, описываемой уравнением (3.1), при фиксированном (заданном) значении X. | . |
S y / S x = 0.55582
3.3 Вычислим коэффициент b по формуле (3.2)
b = -0.72028 0.55582 = -0.40035
3.4 Вычислим коэффициент a по формуле (3.3)
a = 30.50000 - (-0.40035 25.75000) = 40.80894
3.5 Оценим погрешности уравнения регрессии .
3.5.1 Извлечем из S y 2 квадратный корень получим:
3.5.4 Вычислим относительную погрешность по формуле (3.5)
δ y/x = (0.31437 / 30.50000)100% = 1.03073%
4. Строим диаграмму рассеяния (корреляционное поле) и график линии регрессии.
Диаграмма рассеяния - это графическое изображение соответствующих пар (x k , y k ) в виде точек плоскости, в прямоугольных координатах с осями X и Y. Корреляционное поле является одним из графических представлений связанной (парной) выборки. В той же системе координат строится и график линии регрессии. Следует тщательно выбрать масштабы и начальные точки на осях, чтобы диаграмма была максимально наглядной.4.1. Находим минимальный и максимальный элемент выборки X это 18-й и 15-й элементы соответственно, x min = 22.10000 и x max = 26.60000.
4.2. Находим минимальный и максимальный элемент выборки Y это 2-й и 18-й элементы соответственно, y min = 29.40000 и y max = 31.60000.
4.3. На оси абсцисс выбираем начальную точку чуть левее точки x 18 = 22.10000, и такой масштаб, чтобы на оси поместилась точка x 15 = 26.60000 и отчетливо различались остальные точки.
4.4. На оси ординат выбираем начальную точку чуть левее точки y 2 = 29.40000, и такой масштаб, чтобы на оси поместилась точка y 18 = 31.60000 и отчетливо различались остальные точки.
4.5. На оси абсцисс размещаем значения x k , а на оси ординат значения y k .
4.6. Наносим точки (x 1 , y 1 ), (x 2 , y 2 ),…,(x 26 , y 26 ) на координатную плоскость. Получаем диаграмму рассеяния (корреляционное поле), изображенное на рисунке ниже.
4.7. Начертим линию регрессии.
Для этого найдем две различные точки с координатами (x r1 , y r1) и (x r2 , y r2) удовлетворяющие уравнению (3.6), нанесем их на координатную плоскость и проведем через них прямую. В качестве абсциссы первой точки возьмем значение x min = 22.10000. Подставим значение x min в уравнение (3.6), получим ординату первой точки. Таким образом имеем точку с координатами (22.10000, 31.96127). Аналогичным образом получим координаты второй точки, положив в качестве абсциссы значение x max = 26.60000. Вторая точка будет: (26.60000, 30.15970).
Линия регрессии показана на рисунке ниже красным цветом
Обратите внимание, что линия регрессии всегда проходит через точку средних значений величин Х и Y, т.е. с координатами (M x , M y).
06.06.2018 16 235 0 Игорь
Психология и общество
Все в мире взаимосвязано. Каждый человек на уровне интуиции пытается найти взаимосвязи между явлениями, чтобы иметь возможность влиять на них и управлять ними. Понятие, которое отражает эту взаимосвязь, называется корреляцией. Что она означает простыми словами?
Содержание:
Понятие корреляции
Корреляция (от латинского «correlatio» – соотношение, взаимосвязь) – математический термин, который означает меру статистической вероятностной зависимости между случайными величинами (переменными).
Пример: возьмем два вида взаимосвязи:
- Первый – ручка в руке человека. В какую сторону движется рука, в такую сторону и ручка. Если рука находится в состоянии покоя, то и ручка не будет писать. Если человек чуть сильнее надавит на нее, то след на бумаге будет насыщеннее. Такой вид взаимосвязи отражает жесткую зависимость и не является корреляционным. Это взаимосвязь – функциональная.
- Второй вид – зависимость между уровнем образования человека и прочтением литературы. Заранее неизвестно, кто из людей больше читает: с высшим образованием или без него. Эта связь – случайная или стохастическая, ее изучает статистическая наука, которая занимается исключительно массовыми явлениями. Если статистический расчет позволит доказать корреляционную связь между уровнем образованности и прочтением литературы, то это даст возможность делать какие-либо прогнозы, предсказывать вероятностное наступление событий. В этом примере с большой долей вероятности можно утверждать, что больше читают книги люди с высшим образованием, те, кто более образован. Но поскольку связь между данными параметрами не функциональная, то мы можем и ошибиться. Всегда можно рассчитать вероятность такой ошибки, которая будет однозначно невелика и называется уровнем статистической значимости (p).
Примерами взаимосвязи между природными явлениями являются: цепочка питания в природе, организм человека, который состоит из систем органов, взаимосвязанных между собой и функционирующих как единое целое.
Каждый день мы сталкиваемся с корреляционной зависимостью в повседневной жизни: между погодой и хорошим настроением, правильной формулировкой целей и их достижением, положительным настроем и везением, ощущением счастья и финансовым благополучием. Но мы ищем связи, опираясь не на математические расчеты, а на мифы, интуицию, суеверия, досужие домыслы. Эти явления очень сложно перевести на математический язык, выразить в цифрах, измерить. Другое дело, когда мы анализируем явления, которые можно просчитать, представить в виде цифр. В таком случае мы можем определить корреляцию с помощью коэффициента корреляции (r), отражающего силу, степень, тесноту и направление корреляционной связи между случайными переменными.
Сильная корреляция между случайными величинами – свидетельство наличия некоторой статистической связи конкретно между этими явлениями, но эта связь не может переноситься на эти же явления, но для другой ситуации. Часто исследователи, получив в расчетах значительную корреляцию между двумя переменными, основываясь на простоте корреляционного анализа, делают ложные интуитивные предположения о существовании причинно-следственных взаимосвязей между признаками, забывая о том, что коэффициент корреляции носит вероятностный характер.
Пример: количество травмированных во время гололеда и число ДТП среди автотранспорта. Эти величины будут коррелировать между собой, хотя они абсолютно не взаимосвязаны между собой, а имеют только связь с общей причиной этих случайных событий – гололедицей. Если же анализ не выявил корреляционной взаимосвязи между явлениями, это еще не является свидетельством отсутствия зависимости между ними, которая может быть сложной нелинейной, не выявляющейся с помощью корреляционных расчетов.
Первым, кто ввел в научный оборот понятие корреляции, был французский палеонтолог Жорж Кювье . Он в XVIII веке вывел закон корреляции частей и органов живых организмов, благодаря которому появилась возможность восстанавливать по найденным частям тела (останкам) облик всего ископаемого существа, животного. В статистике термин корреляции впервые применил в 1886 году английский ученый Френсис Гальтон . Но он не смог вывести точную формулу для расчета коэффициента корреляции, но это сделал его студент – известнейший математик и биолог Карл Пирсон.
Виды корреляции
По значимости – высокозначимая, значимая и незначимая.
Виды |
чему равен r |
Высокозначимая |
r соответствует уровню статистической значимости p<=0,01 |
Значимая |
r соответствует p<=0,05 |
Незначимая |
r не достигает p>0,1 |
Отрицательная (уменьшение значения одной переменной ведет к росту уровня другой: чем больше у человека фобий, тем меньше вероятность занять руководящую должность) и положительная (если рост одной величины влечет за собой увеличение уровня другой: чем больше нервничаешь, тем больше вероятность заболеть). Если связи между переменными нет, то тогда такая корреляция называется нулевой.
Линейная (когда одна величина возрастает или убывает, вторая тоже увеличивается или уменьшается) и нелинейная (когда при изменении одной величины характер изменения второй невозможно описать с помощью линейной зависимости, тогда применяются другие математические законы – полиномиальной, гиперболической зависимости).
По силе .
Коэффициенты
В зависимости от того, к какой шкале относятся исследуемые переменные, рассчитываются разные виды коэффициентов корреляции:
- Коэффициент корреляции Пирсона, коэффициент парной линейной корреляции или корреляция моментов произведений рассчитывается для переменных с интервальной и количественной шкалой измерения.
- Коэффициент ранговой корреляции Спирмена или Кендалла – когда хотя бы одна из величин имеет порядковую шкалу либо не является нормально распределённой.
- Коэффициент точечной двухрядной корреляции (коэффициент корреляции знаков Фехнера) – если одна из двух величин является дихотомической.
- Коэффициент четырёхполевой корреляции (коэффициент множественной ранговой корреляции (конкордации) – если две переменные дихотомические.
Коэффициент Пирсона относится к параметрическим показателям корреляции, все остальные – к непараметрическим.
Значение коэффициента корреляции находится в пределах от -1 до +1. При полной положительной корреляции r = +1, при полной отрицательной – r = -1.
Формула и расчет
Примеры
Необходимо определить взаимосвязь двух переменных: уровня интеллектуального развития (по данным проведенного тестирования) и количества опозданий за месяц (по данным записей в учебном журнале) у школьников.
Исходные данные представлены в таблице:
№ |
Данные по уровню IQ (x) |
Данные по количеству опозданий (y) |
Сумма |
1122 |
|
Среднее арифметическое |
112,2 |
Чтобы дать правильную интерпретацию полученному показателю, необходимо проанализировать знак коэффициента корреляции (+ или -) и его абсолютное значение (по модулю).
В соответствии с таблицей классификации коэффициента корреляции по силе делаем вывод о том, rxy = -0,827 – это сильная отрицательная корреляционная зависимость. Таким образом, количество опозданий школьников имеет очень сильную зависимость от их уровня интеллектуального развития. Можно сказать, что ученики с высоким уровнем IQ опаздывают реже на занятия, чем ученики с низким IQ.
Коэффициент корреляции может применяться как учеными для подтверждения или опровержения предположения о зависимости двух величин или явлений и измерения ее силы, значимости, так и студентами для проведения эмпирических и статистических исследований по различным предметам. Необходимо помнить, что этот показатель не является идеальным инструментом, он рассчитывается лишь для измерения силы линейной зависимости и будет всегда вероятностной величиной, которая имеет определенную погрешность.
Корреляционный анализ применяется в следующих областях:
- экономическая наука;
- астрофизика;
- социальные науки (социология, психология, педагогика);
- агрохимия;
- металловедение;
- промышленность (для контроля качества);
- гидробиология;
- биометрия и т.д.
Причины популярности метода корреляционного анализа:
- Относительная простота расчета коэффициентов корреляции, для этого не нужно специальное математическое образование.
- Позволяет рассчитать взаимосвязи между массовыми случайными величинами, которые являются предметом анализа статистической науки. В связи с этим этот метод получил широкое распространение в области статистических исследований.
Надеюсь, теперь вы сможете отличить функциональную взаимосвязь от корреляционной и будете знать, что когда вы слышите по телевидению или читаете в прессе о корреляции, то под ней подразумевают положительную и достаточно значимую взаимозависимость между двумя явлениями.
В статистике коэффициент корреляции (англ. Correlation Coefficient ) используется для проверки гипотезы о существовании зависимости между двумя случайными величинами, а также позволяет оценить ее силу. В портфельной теории этот показатель, как правило, используется для определения характера и силы зависимости между доходностью ценной бумаги (актива) и доходностью портфеля . Если распределение этих переменных является нормальным или близким к нормальному, то следует использовать коэффициент корреляции Пирсона , который рассчитывается по следующей формуле:
Среднеквадратическое отклонение доходности акций Компании А составит 0,6398, акций Компании Б 0,5241 и портфеля 0,5668. (О том, как рассчитывается среднеквадратическое отклонение можно прочитать )
Коэффициент корреляции доходности акций Компании А и доходности портфеля составит -0,864, а акций Компании Б 0,816.
R A = -0,313/(0,6389*0,5668) = -0,864
R Б = 0,242/(0,5241*0,5668) = 0,816
Можно сделать вывод о присутствии достаточно сильной взаимосвязи между доходностью портфеля и доходностью акций Компании А и Компании Б. При этом, доходность акций Компании А демонстрирует разнонаправленное движение с доходностью портфеля, а доходность акций Компании Б однонаправленное движение.